机器学习笔记-决策树和随机森林

预备知识；
信息熵（会在决策树和随机森林中用到）
机器学习笔记-决策树和随机森林

决策树和随机森林—邹博

决策树基本原理

决策树的依据：信息熵下降；即子结点的熵小于父节点的熵；
节点的信息熵代表了节点的不确定性程度，不确定性越小，确定性越大；
原理：决策树学习采用的是自顶向下的递归方法，其基本思想是以信息熵为度量构造一棵熵值下降最快的树，到叶子节点处的熵值为零，此时每个叶子节点中的实例都属于同一类。

一个例子及其分析

机器学习笔记-决策树和随机森林

（1）特征temperature并没有出现在决策树中，也能将所有数据（14条）正确分类；结论：决策树的构造可能是选择部分特征来构造，而不是所有特征都必须要用上；
（2）Outlook=’sunny’一支中为什么要选择剩余三个特征中的humidity特征作为后续分支的条件？同理，根节点上为什么要从四个特征中选择outlook作为分支条件？
1）计算根节点的信息熵；
H(play)=-[9/14ln 9/14+5/14ln 5/14]
2）分别计算4个特征作为分支条件的条件熵；比如outlook
H(play│outlook) = 5/14H(play│outlook=’ sunny’ )+4/14H(play│outlook=’ overcast’ )+5/14*H(play│outlook=’ rainy’ )
其中，H(play│outlook=^’ sunny^’ )表示outlook=’sunny’的节点的信息熵；同理，其它特征的条件熵也能计算；
3）H(Y)-H(Y│f_i )=g(y,f_i)称为信息增益，哪个特征使得信息增益最大，就作为当前决策树的分支条件；信息增益就是该案例的目标函数；