机器学习(5)-决策树

这一篇开始进入另一种非常重要的算法--决策树,不仅仅是因为这个算法本身重要,而且由它引申出来的众多集成学习算法更加重要。决策树不仅能处理分类问题(而且支持多分类),还能处理回归问题,对应地称为分类决策树和回归决策树,本文以分类问题为例进行总结。决策树模型是基于特征对实例进行分类的,决策树的模型训练就是构建一棵决策树的过程。决策树的构建过程如下所示:

1、特征选择。

2、决策树生成。

3、决策树剪枝。

上述三个步骤是建立决策树模型的通用步骤,根据特征选择的标准不同,划分为三种不同的决策树构建过程:

(一)ID3

ID3采用信息增益来挑选特征。ID3算法如下:

机器学习(5)-决策树

机器学习(5)-决策树

(二)C4.5

C4.5采用信息增益比来挑选特征。C4.5算法如下:

机器学习(5)-决策树

(三)CART

CART采用基尼系数来挑选特征。CART算法如下:

机器学习(5)-决策树

机器学习(5)-决策树