lecture 9：决策树Decision Tree

ID3算法利用信息增益为准则，来选择划分属性，对取值数目较多的属性有所偏好（如西瓜编号属性），容易过拟合，不具有泛化能力，对新样本的预测能力差

C4.5算法利用信息增益率选择属性，但并不是直接选择信息增益率最大的候选划分属性，而是使用启发式，先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的

CART使用“基尼系数”来选择划分属性，从数据集随机抽取两个样本，类别标记不一致的概率，Gini(D)越小，数据集的纯度越高

机器学习总结（lecture 9）算法：决策树Decision Tree（DT）

4剪枝处理

剪枝是防止过拟合的主要手段

有预剪枝、后剪枝

机器学习总结（lecture 9）算法：决策树Decision Tree（DT）

机器学习总结（lecture 9）算法：决策树Decision Tree（DT）

lecture 9：决策树Decision Tree

目录

1决策树基础

2特征选择

2.1信息熵

2.2信息增益

2.3根据信息增益选择属性的例子

2.4增益率

3决策树生成算法

ID3、C4.5、CART

4剪枝处理

机器学习总结（lecture 9）算法：决策树Decision Tree（DT）

lecture 9：决策树Decision Tree

目录

1决策树基础

2特征选择

2.1信息熵

2.2信息增益

2.3根据信息增益选择属性的例子

2.4增益率

3决策树生成算法

ID3、C4.5、CART

4剪枝处理

相关推荐