（四）机器学习——监督学习（supervised Learing）——决策树（Decision Tree）

1、机器学习中分类和预测算法的评估：

准确率、

速度、

强壮性（部分数据缺失情况，能否正确判断）、

可规模性（数据量变大，算法性能变化）、

可解释性（特征值和规律，是否能够进行解释）

2、决策树定义：类似于流程图的树结构，每个内部结点表示一个属性上的测试，每个分支代表一个属性输出，每个叶结点代表类或类分布。最顶层：根结点。

（四）机器学习——监督学习（supervised Learing）——决策树（Decision Tree）

3、熵entropy

香农提出“信息熵”：

一条信息的信息量大小和它的不确定性有直接的关系——》信息量的度量等于不确定性的多少

（四）机器学习——监督学习（supervised Learing）——决策树（Decision Tree）

每一个发生的概率 P(X)

变量的不确定性越大，熵也就越大。

4、决策树归纳算法 ID3

1970-1980 J.Ross. Quinlan

选择数据判断节点

信息获取量（Information Gain）：Gain(A) = Info(D) - info_A(D)

（四）机器学习——监督学习（supervised Learing）——决策树（Decision Tree）

14个实例，no 5个 yes 9ge

（四）机器学习——监督学习（supervised Learing）——决策树（Decision Tree）

年轻人：5个：（四）机器学习——监督学习（supervised Learing）——决策树（Decision Tree） 3个 no; 2个 yes

（四）机器学习——监督学习（supervised Learing）——决策树（Decision Tree）

5、贪心算法、自上而下

C4.5 gain ration

CART gini index

6、树剪枝叶（避免过拟合 overfitting）

先剪枝

后剪枝

7、优缺点：

优点：直观、便于理解、小规模数据集有效

缺点：处理连续变量不好

类别较多时，错误增加比较快。

（四）机器学习——监督学习（supervised Learing）——决策树（Decision Tree）