数据挖掘——最佳划分度量(1)

前言

有很多度量可以用来确定划分记录的最佳方法。选择最佳划分的度量通常是根据划分后子女结点不纯性的程度。不纯的程度越低,类分布就会越倾斜。
例子:
类分布为(0,1)的结点具有零不纯性(是比较好的)
均衡分布(0.5,0.5)的结点具有最高的不纯性


提示:以下是本篇文章正文内容,下面案例可供参考

一、不纯性度量的公式

注意:p(i|t)表示给定结点t中属于i类的比例

①熵(信息论中使用较多)
Entropy(t)=数据挖掘——最佳划分度量(1)②基尼值
Gini(t)=
数据挖掘——最佳划分度量(1)③分类误差
Classification error(t)=
数据挖掘——最佳划分度量(1)

!以下是三种不纯性度量方法的计算实例:

数据挖掘——最佳划分度量(1)

二、测试条件的效果

为了确定测试条件的效果,需要比较父结点(划分前)的不纯程度和子女结点(划分后)的不纯程度,他们的差越大,测试的条件越好。增益∆是一种可以用来确定划分效果的标准
数据挖掘——最佳划分度量(1)①I(parent):父结点(给定结点)的不纯性度量
②N:父结点上的记录总数
③k:属性个数
④N(Vj):与子女结点Vj相关联的记录个数
⑤当选择熵作为不纯度度量时,熵的差就是信息增益

例题如下

数据挖掘——最佳划分度量(1)
1、测试效果:用熵的不纯性度量公式

对方案A
数据挖掘——最佳划分度量(1)解释:I(parent)=1→因为父结点是完全不分类

对方案B
数据挖掘——最佳划分度量(1)2、用分类误差的不纯性度量公式

对方案A
数据挖掘——最佳划分度量(1)

对方案B
数据挖掘——最佳划分度量(1)

通过计算结果可知,方案B的分类效果更好


总结

这篇文章简单介绍了数据挖掘中对于分类的一般衡量方法,运用理论和例题结合的方式帮助理解。