决策树算法

决策树

决策树算法是一个自顶向下的树(可以是二叉树，也可以是多叉树)。算法原理简单，易解释，分类性能较好。决策树是一种强大的、非概率的方法。

决策树非叶节点划分规则:

1.信息增益最大的先分，通俗来讲就是针对于因变量区分度最大的标签

2.离散变量采用是或不是的方法

3.连续变量采用>=或<=的方法

分枝策略:

分类树:信息熵

回归树:最小均方差

主要参数

最大深度:max depth

最大分区数:maxBins

ID3和C4.5

ID3根据信息增益去划分，计算通过比较信息熵的方法来划分。但是实际情况中会有这么一点比如说一个唯一键，像这种情况使用ID3的划分其实是无意义的。所以引入了C4.5。C4.5使用的是信息增益率的概念。所以不会出现这个问题。

ID3的缺点:

1.用信息增益选择属性时偏向于选择分枝比较多的属性值，即取值多的属性

2.不能处理连续属性

C4.5的改进：

1.用信息增益比来选择属性

2.在决策树的构造过程中对树进行剪枝

3.对非离散数据也能处理

4.能够对不完整数据进行处理

C4.5采用悲观剪枝

CART

CART（Classification And Regression Trees，分类回归树）算法，CART是一个独立于其他经典决策树算法的算法，所以导致CART相对来说较为复杂。因为它不仅仅可以作为分类树，还可以作为回归树。采用的是Gini指数（选Gini指数最小的特征s）作为分裂标准,同时它也是包含后剪枝操作。ID3算法和C4.5算法虽然在对训练样本集的学习中可以尽可能多地挖掘信息，但其生成的决策树分支较大，规模较大。为了简化决策树的规模，提高生成决策树的效率，就出现了根据GINI系数来选择测试属性的决策树算法CART。

决策树算法