3.1决策树（Decision Tree）算法

1.机器学习中分类和预测算法的评估：

（1）准确性（2）速度（3）强壮性（4）可规模性（5）可解释性

2.什么是决策树？

决策树是一个类似于流程图的树结构，其中，每个内部节点表示在一个属性上的测试，每个分支代表一个属性输出，而每个树叶代表类或类分布，树的最顶层是根节点。

3.机器学习中分类方法中的一个重要算法。

4.构造决策树算法：

3.1决策树（Decision Tree）算法

5.熵的概念：

一条信息的信息量大小和它的不确定性有直接的关系，要搞清楚一件非常非常不确定的事情，或者是我们一无所知的事情，需要了解大量信息==》信息量的度量就等于不确定性的多少。

H(x)=−ΣP(x)log2[P(x)]

变量的不确定性越大，熵也就越大。

6.决策树归纳算法（ID3）

1970-1980 J.Ross.Quinlan ID3算法

选择属性判断节点：信息获取量（Information Gain ）:Gain(A)=Info(D)-Infor_A(D) 表示通过A这个属性来作为节点分类获取了多少信息

没有通过A属性来作为节点分类的信息熵：Info(D)=−149log2(149)−145log2(145)=0.940bit

通过A属性来作为节点分类的信息熵：
Infoage(D)=145(−52log2(52)−53log2(43))+144(−44log244−40log2(40))+145(−53log2(53)−52log2(52))=0.694bits

==>额外的信息获取量:Gain(age)=Info(D)−Infoage(D)=0.940−0.694=0.246bits

Gain(income)=0.029Gain(student)=0.151Gain(credit_rating)=0.048，所以，选择age属性作为第一个根节点。重复以上步骤...

.... 3.1决策树（Decision Tree）算法

算法：

（1）树以代表训练样本的单个结点开始（步骤1）。

（2）如果样本都在同一个类，则该结点成为树叶，并用该类标号（步骤2 和3）。

（3）否则，算法使用称为信息增益的基于熵的度量作为启发信息，选择能够最好地将样本分类的属性（步骤6）。该属性成为该结点的“测试”或“判定”属性（步骤7）在算法的该版本中，所有的属性都是分类的，即离散值。连续属性必须离散化。

（4）对测试属性的每个已知的值，创建一个分枝，并据此划分样本（步骤8-10）

（5）算法使用同样的过程，递归地形成每个划分上的样本判定树。一旦一个属性出现在一个结点上，就不必该结点的任何后代上考虑它（步骤13）。

（6）递归划分步骤仅当下列条件之一成立停止：
(a) 给定结点的所有样本属于同一类（步骤2 和3）。
(b) 没有剩余属性可以用来进一步划分样本（步骤4）。在此情况下，使用多数表决（步骤5）。这涉及将给定的结点转换成树叶，并用样本中的多数所在的类标记它。
7.其他算法：

C4.5: Quinlan

Classification and Regression Trees (CART): (L. Breiman, J. Friedman, R. Olshen, C. Stone)

共同点：都是贪心算法，自上而下(Top-down approach)

区别：属性选择度量方法不同： C4.5 （gain ratio), CART(gini index), ID3 (Information Gain)

8.树剪枝叶（避免overfitting)

8.1 先剪枝

8.2 后剪枝

9.决策树的优点：
（1）直观，便于理解（2）小规模数据集有效

10.决策树的缺点：
（1）处理连续变量不好

（2）类别较多时，错误增加的比较快

（3）可规模性一般