数据挖掘——最佳划分度量(1)
前言
有很多度量可以用来确定划分记录的最佳方法。选择最佳划分的度量通常是根据划分后子女结点不纯性的程度。不纯的程度越低,类分布就会越倾斜。
例子:
类分布为(0,1)的结点具有零不纯性(是比较好的)
均衡分布(0.5,0.5)的结点具有最高的不纯性
提示:以下是本篇文章正文内容,下面案例可供参考
一、不纯性度量的公式
注意:p(i|t)表示给定结点t中属于i类的比例
①熵(信息论中使用较多)
Entropy(t)=②基尼值
Gini(t)=
③分类误差
Classification error(t)=
!以下是三种不纯性度量方法的计算实例:
二、测试条件的效果
为了确定测试条件的效果,需要比较父结点(划分前)的不纯程度和子女结点(划分后)的不纯程度,他们的差越大,测试的条件越好。增益∆是一种可以用来确定划分效果的标准
①I(parent):父结点(给定结点)的不纯性度量
②N:父结点上的记录总数
③k:属性个数
④N(Vj):与子女结点Vj相关联的记录个数
⑤当选择熵作为不纯度度量时,熵的差就是信息增益
例题如下
1、测试效果:用熵的不纯性度量公式
对方案A:
解释:I(parent)=1→因为父结点是完全不分类
对方案B:
2、用分类误差的不纯性度量公式
对方案A
对方案B
通过计算结果可知,方案B的分类效果更好
总结
这篇文章简单介绍了数据挖掘中对于分类的一般衡量方法,运用理论和例题结合的方式帮助理解。