决策树算法（机器学习实战，阅读笔记）

优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据

缺点：可能会产生过度匹配问题

使用数据类型：数值型，标称型

适用场景：邮件分类，专家系统

原理：在构造决策树时，需要解决的第一个问题上，当前数据集在哪个特征在划分数据分类时起决定性作用，为了找到决定性的特征，划分出最好的结果，我们必须评估每个特征。完成测试之后，原始数据酒杯划分为几个数据子集，这些数据子集会分布在第一个决策点的所有分支上，如果某个分支下的数据属于同一类型，则当前无需阅读的垃圾邮件已经正确的划分数据分类了，无需进一步进行数据集的分割，如果数据子集内的数据不属于同一类型，则需要重复划分数据子集的过程，如何划分数据子集的算法和划分原始数据集的方法相同，知道所有具有相同类型的数据均在一个数据子集内。

划分数据集及的最大原则：使无序的数据变得更加有序，可以使用多种方法划分数据集

组织杂乱无章的数据的一种方式使用信息论度量信息，信息熵

过度匹配：决策树能够很好的匹配实验数据，但是有些数据的匹配选项可能太多了，形成过度匹配，为了减少过度匹配可以裁剪决策树。

决策树算法（机器学习实战，阅读笔记）

相关推荐