
ID3算法(Iterative Dichotmizer 3)
1、 特征选择准则:信息增益
2、 特征必须离散化,不能处理连续值
3、不能处理缺失值
4、 偏向于选择取值多的属性
5、是一个多叉树模型,只用于分类
信息熵: 度量样本集合纯度最常用的一种指标,定义如下
Ent(D)=−k=1∑∣Y∣pklog2pk
其中,D={(x1,y1),(x2,y2),…,(xm,ym)}表示样本集合,∣Y∣表示样本类别总数,pk表示第k类样本所占的比例,且0≤pk≤1 ,∑k=1∣Y∣pk=1。Ent(D)值越小,纯度越高。
条件熵:条件熵——在已知样本属性a的取值情况下,度量样本集合纯度的一种指标。
H(D∣a)=v=1∑V∣D∣∣Dv∣Ent(Dv)
其中,a表示样本的某个属性,假定属性a有V个可能的取值{a1,a2,…,aV},样本集合D中在属性a上取值为av的样本记为Dv,Ent(Dv)表示样本集合Dv的信息熵。H(D∣a)值越小,纯度越高。
C4.5算法(Iterative Dichotmizer 3)
1、 特征选择准则:信息增益率
2、 核心是ID3算法的改进版本
3、弥补了ID3算法中不能处理特征属性值连续的问题,需要扫描排序,会使C4.5性能下降
4、通过一种概率权重(Probability weights)的方法来处理缺失值
5、是一个多叉树模型,只用于分类
信息增益率
Gain_ratio (D,a)=IV(a)Gain(D,a)
其中
IV(a)=−v=1∑V∣D∣∣Dv∣log2∣D∣∣Dv∣
CART决策树(classification and regression tree,CART)
1、特征选择准则:分类树用基尼指数最小化准则,回归树用平方误差最小化准则
2、可用于分类和回归问题,且每个特征可以被重复利用
3、一颗二叉树,二元切分法
4、ID3和C4.5通过剪枝来权衡树的准确性和泛化能力。而CART直接利用全部数据发现所有可能的树结构进行对比
5、采用替代划分(surrogate splits)的方式来处理缺失值
基尼值:基尼值反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率。
Gini(D)=k=1∑∣Y∣k′=k∑pkpk′=k=1∑∣Y∣pkk′=k∑pk′=k=1∑∣Y∣pk(1−pk)=1−k=1∑∣Y∣pk2
基尼指数
Gini_index(D,a)=v=1∑V∣D∣∣Dv∣Gini(Dv)
基尼值和基尼指数越小,样本集合纯度越高。
CART回归树划分准则
a∗,a∗v=a,avargmin⎣⎡c1minxi∈D1(a,av)∑(yi−c1)2+c2minxi∈D2(a,av)∑(yi−c2)2⎦⎤
根据上述公式找出最优划分特征a∗和最优划分点a∗v 。其中,D1(a,av)表示在属性a上取值小于等于av的样本集合,D2(a,av)表示在属性a上取值大于av的样本集合,c1表示D1的样本输出均值,c2表示D2的样本输出均值。