聚类之性能度量详解

概念简述

聚类是什么呢？我们都听说过“物以类聚”，即把“志同道合”的数据分到一起归为一类，不同类之间在”志向“上具有较大分歧。举个栗子，茫茫人生中，我们普通大众会被God根据缘分进行聚类，缘分好的话，会成为朋友，甚至成为了可以互诉衷肠，”余生请指教“的男女盘友，那缘分不好的应该是一生从未谋面或者一面之缘或者是如《再见前任3》中那样成为了最熟悉的陌生人…好像扯远了。
言归正传，用标准的普通话来说，聚类是将数据集中的样本划分为若干个通常是不相交的子集，每个子集成为一个“簇”，用正规的外星人语言来说，对于样本 $D = {x_{1}, x_{2}, . . ., x_{m}}$ 包含 $m$ 个无标记样本，每个样本 $x_{i} = {x_{i 1}; x_{i 2}; . . .; x_{i n}}$ 是一个 $n$ 维特征向量，则聚类算法将样本集 $D$ 划分为 $k$ 个不相交的簇 ${C_{l} | l = 1, 2, . . ., k}$ ，其中 $C_{l^{^{'}}} \cap_{l^{^{'}} \neq l} C_{l} = \emptyset$ 且 $D = \cup_{l = 1}^{k} C_{l}$ ，相应地，用 $λ_{j} \in {1, 2, . . ., k}$ 表示样本 $x_{j}$ 的“簇标记”，即 $x_{j} \in C_{λ_{j}}$ 。于是聚类的结果可用包含m个元素的簇标记，记向量 $λ = (λ_{1}; λ_{2}; . . .; λ_{m})$ 。举个栗子，对于具有 $10$ 个样本的数据集 $D$ ，其中每个样本 $x_{i}$ 含有 $2$ 维特征，分成 $2$ 类的结果如下：
聚类之性能度量详解
聚类通常用来对无标记训练样本的学习来揭示数据内在性质及规律，为进一步的数据分析提供基础，是“无监督学习”中应用最广的研究方法。那么问题来了，如何衡量聚类结果的好坏呢？按照什么样的“缘分”分类呢？官方的话来说聚类有哪些性能度量以及距离计算方法。

性能度量

我们通常按照一个标准来分析聚类之后的结果，简单来说这个标准是“簇内相似度高，簇间相似度低”，下面我们用一堆“指数”，“系数”来数学化引号里面的内容，权当填补那些好奇心强盛的孩纸们…

性能度量分类：

聚类性能度量的主要分为两类，一类是将聚类结果与某个“参考模型”进行比较，成为“外部指标”；另一类是直接考察聚类结果而不用任何参考模型，成为“内部指标”。

外部指标

“外部指标”通常有Jaccard系数(Jaccard Coefficient，简称JC)、FM系数(Fowlkes and Mallows Index，简称FMI)、Rand指数(Rand Index，简称RI)。

JC:
$\begin{matrix} (1.1) & J C = \frac{a}{a + b + c} \end{matrix}$
FMI:
$\begin{matrix} (1.2) & F M I = \sqrt{\frac{a}{a + b} \cdot \frac{a}{a + c}} \end{matrix}$
RI
$\begin{matrix} (1.3) & RI = \frac{2 (a + d))}{m (m - 1)} \end{matrix}$

假设，数据集 $D = {x_{1}, x_{2}, . . ., x_{m}}$ ，经过聚类后得到的簇划分为 $C = {C_{1}, C_{2}, . . ., C_{s}}$ ，参考模型给出的簇划分 $C^{*} = {C_{1}^{*}, C_{2}^{*}, . . ., C_{s}^{*}}$ ，相应的，令 $λ$ 和 $λ^{*}$ 分别表示与 $C$ 和 $C^{*}$ 对应的簇标记向量，于是 $a 、 b 、 c 、 d$ 定义如下：
$\begin{matrix} (1.4) & a = | S S |, S S = {(x_{i}, x_{j}) | λ_{i} = λ_{j}, λ_{i}^{*} = λ_{j}^{*}, i < j} \end{matrix}$

$\begin{matrix} (1.5) & b = | S D |, S D = {(x_{i}, x_{j}) | λ_{i} = λ_{j}, λ_{i}^{*} \neq λ_{j}^{*}, i < j} \end{matrix}$

$\begin{matrix} (1.6) & c = | D S |, D S = {(x_{i}, x_{j}) | λ_{i} \neq λ_{j}, λ_{i}^{*} = λ_{j}^{*}, i < j} \end{matrix}$

$\begin{matrix} (1.7) & d = | D D |, D D = {(x_{i}, x_{j}) | λ_{i} \neq λ_{j}, λ_{i}^{*} \neq λ_{j}^{*}, i < j} \end{matrix}$

从上述表达式可知，集合 $S S$ 包含了在 $C$ 中隶属于相同簇且在 $C^{*}$ 中也隶属于相同簇的样本对，集合 $S D$ 包含了在 $C$ 中隶属于相同簇但在 $C^{*}$ 中隶属于不同簇的样本，集合 $D S$ 包含了在 $C$ 中隶属于不同簇但在 $C^{*}$ 中隶属于相同簇的样本，集合 $D D$ 包含了在 $C$ 中隶属于不同簇且在 $C^{*}$ 中隶属不同簇的样本，由于每个样本对 $(x_{i}, x_{j}) (i < j)$ 仅能出现在一个集合中，因此有 $a + b + c + d = m (m - 1) / 2$ 成立。显然，上述性能度量的结果值均在 $[0, 1]$ 区间，值越大越好。
2.内部指标
常用的内部指标有DB指数(Davies-Bouldin Index，简称DBI)和Dunn指数(Dunn Index，简称DI)。
- DB:
  $\begin{matrix} (2.1) & D B I = \frac{1}{k} \sum_{i = 1}^{k} m a x_{j \neq i} (\frac{a v g (C_{i}) + a v g (C_{j})}{d_{c e n} (μ_{i}, μ_{j})}) \end{matrix}$
- DI:
  $\begin{matrix} (2.2) & D I = m i n_{1 \leq i \leq k} {m i n_{j \neq i} (\frac{d_{m i n} (C_{i}, C_{j})}{m a x_{1 \leq l \leq k} d i a m (C_{l})})} \end{matrix}$
  其中：
  $\begin{matrix} (2.3) & a v g (C) = \frac{2}{| C | (| C | - 1)} \sum_{1 \leq i < j \leq | C |} d i s t (x_{i}, x_{j}) \end{matrix}$
  $\begin{matrix} (2.4) & d i a m (C) = m a x_{x_{1} \leq i < j \leq | C |} d i s t (x_{i}, x_{j}) \end{matrix}$
  $\begin{matrix} (2.5) & d_{m i n} (C_{i}, C_{j}) = m i n_{x_{i} \in C_{i}, x_{j} \in C_{j}} d i s t (x_{i}, x_{j}) \end{matrix}$
  $\begin{matrix} (2.6) & d_{c e n} (C_{i}, C_{j}) = d i s t (μ_{i}, μ_{j}) \end{matrix}$
  注意： $d i s t (\cdot, \cdot)$ 用于计算两个样本之间的距离； $μ$ 代表簇 $C$ 的中心点 $μ = \frac{1}{| C |} \sum_{1 \leq i \leq | C |} x_{i}$ ， $a v g (C)$ 对应于簇 $C$ 内样本间的平均距离， $d i a m (C)$ 对应于簇内最远距离， $d_{m i n} (C_{i}, C_{j})$ 代表簇 $C_{i}$ 与簇 $C_{j}$ 内最近样本间的距离， $d_{c e n} (C_{i}, C_{j})$ 代表簇 $C_{i}$ 与簇 $C_{j}$ 中心点的距离。显然 $D B I$ 的值越小越好，而 $D I$ 则相反，值越大越好。

更多机器学习干货、最新论文解读、AI资讯热点等欢迎关注”AI学院(FAICULTY)”
欢迎加入faiculty机器学习交流qq群：451429116 点此进群
版权声明：可以任意转载，转载时请务必标明文章原始出处和作者信息.

参考文献

[1]. 周志华，机器学习，清华大学出版社，2016

聚类之性能度量详解

概念简述

性能度量

参考文献

相关推荐