(四)机器学习——监督学习(supervised Learing)——决策树(Decision Tree)

(四)机器学习——监督学习(supervised Learing)——决策树(Decision Tree)


1、机器学习中分类和预测算法的评估:

准确率、

速度、

强壮性(部分数据缺失情况,能否正确判断)、

可规模性(数据量变大,算法性能变化)、

可解释性(特征值和规律,是否能够进行解释)


2、决策树定义:类似于流程图的树结构,每个内部结点表示一个属性上的测试,每个分支代表一个属性输出,每个叶结点代表类或类分布。最顶层:根结点。

(四)机器学习——监督学习(supervised Learing)——决策树(Decision Tree)

3、熵entropy

香农提出“信息熵”:

一条信息的信息量大小和它的不确定性有直接的关系——》信息量的度量等于不确定性的多少

(四)机器学习——监督学习(supervised Learing)——决策树(Decision Tree)

每一个发生的概率 P(X)

变量的不确定性越大,熵也就越大。

4、 决策树归纳算法 ID3

1970-1980 J.Ross. Quinlan 

选择数据判断节点

信息获取量(Information Gain):Gain(A) = Info(D) - info_A(D)

(四)机器学习——监督学习(supervised Learing)——决策树(Decision Tree)

14个实例,no 5个 yes 9ge

(四)机器学习——监督学习(supervised Learing)——决策树(Decision Tree) 

年轻人:5个:(四)机器学习——监督学习(supervised Learing)——决策树(Decision Tree) 3个 no(四)机器学习——监督学习(supervised Learing)——决策树(Decision Tree); 2个 yes(四)机器学习——监督学习(supervised Learing)——决策树(Decision Tree)

(四)机器学习——监督学习(supervised Learing)——决策树(Decision Tree)

5、贪心算法、自上而下

C4.5 gain ration

CART gini index

6、树剪枝叶(避免过拟合 overfitting)

先剪枝

后剪枝

7、优缺点:

优点:直观、便于理解、小规模数据集有效

缺点:处理连续变量不好

类别较多时,错误增加比较快。

(四)机器学习——监督学习(supervised Learing)——决策树(Decision Tree)