决策树算法(机器学习实战,阅读笔记)

决策树算法(机器学习实战,阅读笔记)

决策树算法(机器学习实战,阅读笔记)



优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据

缺点:可能会产生过度匹配问题

使用数据类型:数值型,标称型


适用场景:邮件分类,专家系统

原理:在构造决策树时,需要解决的第一个问题上,当前数据集在哪个特征在划分数据分类时起决定性作用,为了找到决定性的特征,划分出最好的结果,我们必须评估每个特征。完成测试之后,原始数据酒杯划分为几个数据子集,这些数据子集会分布在第一个决策点的所有分支上,如果某个分支下的数据属于同一类型,则当前无需阅读的垃圾邮件已经正确的划分数据分类了,无需进一步进行数据集的分割,如果数据子集内的数据不属于同一类型,则需要重复划分数据子集的过程,如何划分数据子集的算法和划分原始数据集的方法相同,知道所有具有相同类型的数据均在一个数据子集内。



划分数据集及的最大原则:使无序的数据变得更加有序,可以使用多种方法划分数据集

组织杂乱无章的数据的一种方式使用信息论度量信息,信息熵



过度匹配:决策树能够很好的匹配实验数据,但是有些数据的匹配选项可能太多了,形成过度匹配,为了减少过度匹配可以裁剪决策树。