三种评价聚类程度的内部指标

1、簇内平方和 inertia

三种评价聚类程度的内部指标

这个公式被称为簇内平方和(cluster Sum of Square),又叫做Inertia,统计学中 “和方差”、“簇内离差平方和”(SSE)在这里指同一意思。而将一个数据集中的所有簇的簇内平方和相加,就得到了整体平方和(Total Cluster Sum of Square),又叫做total inertia,TSSE。Total Inertia越小,代表着每个簇内样本越相似,聚类的效果就越好。因此KMeans追求的是,求解能够让Inertia最小化的质心。

三种评价聚类程度的内部指标
实际上,在质心不断变化不断迭代的过程中,总体平方和是越来越小的。随着簇的书目增加,假设簇数等于样本数,整体簇内平方和为0。

一般认为图中的出现的拐点为较好的分类簇数

**

2、轮廓系数

**

轮廓系数的计算公式可以表示为:
三种评价聚类程度的内部指标
三种评价聚类程度的内部指标

其中,a(i)体现了簇内的密集性,代表样本i与同簇内其他样本点距离的平均值; b(i)反映了簇间的分散性,它的计算过程是,样本i与其他非同簇样本点距离的平均值,然后从平均值中挑选出最小值。当S(i)接近于-1时,说明样本i分配的不合理,需要将其分配到其他簇中;当S(i)近似为0时,说明样本i落在了模糊地带,即簇的边界处;当S(i)近似为1时, 说明样本i的分配是合理的。

三种评价聚类程度的内部指标
该方法综合考虑了簇的密集性与分散性两个信息,如果数据集被分割为理想的k个簇,那么对应的簇
内样本会很密集,而簇间样本会很分散。其取值范围为[-1,1],数值最大的一般认为是较好的分类簇数

3、Calinski-Harabaz Index(CH指标)

CH指标通过计算类中各点与类中心的距离平方和来度量类内的紧密度,通过计算各类中心点与数据集中心点距离平方和来度量数据集的分离度。
三种评价聚类程度的内部指标
三种评价聚类程度的内部指标
CH指标由分离度与紧密度的比值得到。从而,CH越大代表着类自身越紧密,类与类之间越分散,即更优的聚类结果。一般认为数值最大的为较好的分类簇数