决策树算法

原来一直以为自己对决策树算法很了解了，今天有人问起的时候才发现原来一知半解。醒悟过来特作记录。

由于公式实在是太难敲了，所以下文基本没有公式，见谅。

一、简介

相对于其他机器学习算法来说，决策树是一种很简单的算法，它遵循‘分而治之’的策略，迭代的产生分类or回归结果。它的内容主要有三点：

（1）特征选择

特征选择在于选取对数据具有分类能力的特征，其间细节其实很多，比如特征选择的方法以及的它们的缺点、连续特征与离散特征的不同等。

A.特征选择的方法

1）信息增益---------ID3算法

ID3算法计算每个特征的信息增益，增益越大，这个特征的分辨性越好。但是这种方法有个问题，那就是它偏向于取值较多的特征（比如一些ID类特征，user_id,shop_id等等），这样训练出来的决策树缺乏泛化能力，要么将这些特征删除，要么改用其他算法

2）信息增益比------C4.5算法

C4.5算法采取信息增益比来选择特征，增益比越大，这个特征的分辨性越好。其实就是求出信息增益后再除以根据相应特征计算出的一个数，来减弱上文提到的信息增益偏向于取值较多的特征的缺点。但这个时候又带来了另一个问题，它偏向于取值较少的特征。因此C4.5算法并不是直接直接选择增益比最大的特征，而是采用了一个启发式的方法：先从候选特征中找出信息增益高于平均水平的特征，再从中找出增益比最大的特征。

3）基尼指数-----CART算法

其实真正使用的决策树最多的还是CART算法，它使用基尼指数（gini）来选择特征，选择gini最小的特征来划分。

B. 划分点的确定（连续特征与离散特征）

如果特征是离散的，那么很好办，直接计算上面三种指标的一种，那个特征好就选哪一个，借用机器学习一书的图进行说明：

决策树算法

特征都是离散的（比如纹理取值只有清晰、稍糊、模糊），如果选定了纹理这个特征直接划分就ok。

但是如果特征是连续，那么就不能这么办了，因为连续特征取值无穷多（就算你在训练集中当做离散值划分了，那么测试集来一个新的取值，那怎么办，不是抓瞎了）。这个时候，一般采用简单的二分法，比如连续特征取值为{a,b,c,d,e.....}，那就可以取划分点dot1=（a+b）/2,dot2=（b+c）/2.......把>=dot的当做一部分，把<dot的当做一部分(相当于划分为两个离散值了)，然后再算指标。

（2）决策树的生成

不论是ID3还是C4.5还是CART,在每次决策树生长的之前都是先选择特征，在确定划分点，然后进行树的生长。但是这其中还是有一些注意点：