前言

有很多度量可以用来确定划分记录的最佳方法。选择最佳划分的度量通常是根据划分后子女结点不纯性的程度。不纯的程度越低，类分布就会越倾斜。
例子：
类分布为（0,1）的结点具有零不纯性（是比较好的）
均衡分布（0.5,0.5）的结点具有最高的不纯性

提示：以下是本篇文章正文内容，下面案例可供参考

一、不纯性度量的公式

注意：p(i|t)表示给定结点t中属于i类的比例

①熵（信息论中使用较多）
Entropy（t）= 数据挖掘——最佳划分度量（1） ②基尼值
Gini（t）=
③分类误差
Classification error（t）=

！以下是三种不纯性度量方法的计算实例：

数据挖掘——最佳划分度量（1）

二、测试条件的效果

为了确定测试条件的效果，需要比较父结点（划分前）的不纯程度和子女结点（划分后）的不纯程度，他们的差越大，测试的条件越好。增益∆是一种可以用来确定划分效果的标准
数据挖掘——最佳划分度量（1） ①I(parent)：父结点（给定结点）的不纯性度量
②N：父结点上的记录总数
③k：属性个数
④N(Vj)：与子女结点Vj相关联的记录个数
⑤当选择熵作为不纯度度量时，熵的差就是信息增益