机器学习笔记-决策树和随机森林

预备知识;
信息熵(会在决策树和随机森林中用到)
机器学习笔记-决策树和随机森林

决策树和随机森林—邹博

决策树基本原理

决策树的依据:信息熵下降;即子结点的熵小于父节点的熵;
节点的信息熵代表了节点的不确定性程度,不确定性越小,确定性越大;
原理:决策树学习采用的是自顶向下的递归方法,其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零,此时每个叶子节点中的实例都属于同一类。

一个例子及其分析

机器学习笔记-决策树和随机森林
机器学习笔记-决策树和随机森林
(1)特征temperature并没有出现在决策树中,也能将所有数据(14条)正确分类;结论:决策树的构造可能是选择部分特征来构造,而不是所有特征都必须要用上;
(2)Outlook=’sunny’一支中为什么要选择剩余三个特征中的humidity特征作为后续分支的条件?同理,根节点上为什么要从四个特征中选择outlook作为分支条件?
1)计算根节点的信息熵;
H(play)=-[9/14ln 9/14+5/14ln 5/14]
2)分别计算4个特征作为分支条件的条件熵;比如outlook
H(play│outlook) = 5/14H(play│outlook=’ sunny’ )+4/14H(play│outlook=’ overcast’ )+5/14*H(play│outlook=’ rainy’ )
其中,H(play│outlook=^’ sunny^’ )表示outlook=’sunny’的节点的信息熵; 同理,其它特征的条件熵也能计算;
3)H(Y)-H(Y│f_i )=g(y,f_i)称为信息增益,哪个特征使得信息增益最大,就作为当前决策树的分支条件;信息增益就是该案例的目标函数;

信息增益

哪一个特征能够使得信息增益最大,就选择哪个特征作为当前的分类依据;
机器学习笔记-决策树和随机森林
机器学习笔记-决策树和随机森林
机器学习笔记-决策树和随机森林
机器学习笔记-决策树和随机森林

信息增益的进一步改进(信息增益率和Gini系数)

机器学习笔记-决策树和随机森林
(1)不用信息增益(ID3)作为目标函数,用信息增益率(C4.5)度量更合理;
机器学习笔记-决策树和随机森林
(2)CART采用Gini系数;
机器学习笔记-决策树和随机森林

决策树的过拟合

机器学习笔记-决策树和随机森林

防止过拟合(手段1) - 剪枝

(1)预剪枝;
比如,指定树的深度;指定叶子节点上样本个数不低于多少个;指定一个节点上的信息熵不低于多少等等
(2)后剪枝;
机器学习笔记-决策树和随机森林
机器学习笔记-决策树和随机森林
机器学习笔记-决策树和随机森林

防止过拟合(手段2) - 随机森林

多个决策树的综合;bagging就是从所有样本中进行随机重采样,构造m棵决策树,就能形成随机森林;

机器学习笔记-决策树和随机森林
机器学习笔记-决策树和随机森林

随机森林处理回归和分类问题举例

回归问题;
如下,若干条灰色的线,就是随机重采样得到的决策树,从而实现的回归模型,再每个点处取平均就能获得较好的回归模型;
机器学习笔记-决策树和随机森林
分类问题;
机器学习笔记-决策树和随机森林
机器学习笔记-决策树和随机森林
机器学习笔记-决策树和随机森林

样本不均衡– 正负例不均衡处理方法

机器学习笔记-决策树和随机森林

随机森林计算样本相似度和特征重要度

机器学习笔记-决策树和随机森林
机器学习笔记-决策树和随机森林

异常检测;深度随机森林-周志华

机器学习笔记-决策树和随机森林