层次聚类

1､算法原理

层次聚类将所有样本当成一个聚类，然后不断合并距离最近的聚类，直到只剩下一个聚类，由此得到系统树图；最后根据设定的聚类数n，将系统树切分为n个子树，从而达到聚类效果。

由上图可得，层次聚类的关键在于如何计算两个聚类的距离，根据计算两个聚类的距离的算法可以分为以下四种聚类算法：
1､单链接聚类法（sklearn里没有该方法）
样本间最短的距离为聚类间的距离；

2､全连接聚类法（linkage= “complete”）
样本间最长的距离为聚类间的距离；

3､组平均聚类法（linkage= “average”）
聚类间任意两个样本的距离之和的平均值为聚类间的距离；

4､离差平方和法（linkage= “ward”，默认值）
离差平方和法的目的是把合并类时的变化量最小化，假设聚类A的中心点为a，聚类B的中心点为b，A、B合并后的聚类为C，其中心点为c，则聚类A、B的距离为：
$d(A,B) = \sum_{i=1}^{m+n}c_i^2-\sum_{i=1}^ma_i^2-\sum_{i=1}^nb_i^2$
其中 $c_i为聚类C中的样本点到中心点c的距离$ 。

2､sklearn中的层次聚类

##导入库
from sklearn.cluster import AgglomerativeClustering
##建模，并指定聚类个数
ward = AgglomerativeClustering(n_clusters=3)
##拟合并预测数据
ward_pred = ward.fit_predict(data)

绘制系统树：

from scipy.cluster.hierarchy import linkage,dendrogram
import matplotlib.pyplot as plt
#指定连接类型为离差平方和法
linkage_type = ‘ward’
#拟合数据，并得到关联矩阵
linkage_matrix = linkage(X, linkage_type)
#创建窗口
plt.figure(figsize=(22,18))
#将关联矩阵输送到系统方法
dendrogram(linkage_matrix)
#显示
plt.show()

3､层次聚类的优缺点

如上图，从左到右分别为图一到图六；由图二、图三和图六可知，层次聚类对集中的类别区分的效果非常好；再看图五，受到离群值的影响，聚类效果并不好，由此可知，噪音和离群值对层次聚类的影响非常大，所以在训练数据前要处理掉这些异常值；最后看图一和图四，层次聚类对这两种分布的数据聚类效果非常差。

层次聚类

层次聚类

1､算法原理

2､sklearn中的层次聚类

3､层次聚类的优缺点

相关推荐