非监督学习——层次聚类与密度聚类

目录

层次聚类:

单链接聚类:

全连接聚类法:

组平均聚类法:

离差平方和法:

层次聚类sklearn:

层次聚类总结:

层次聚类附录:

密度聚类:

DBSCAN:

密度聚类sklearn:

密度聚类总结:

密度聚类附录:


层次聚类:

层次聚类:单连接聚类、全连接聚类、组平均聚类、离差平方和法。

单链接聚类:

1、步骤:

  • 假设每个点是一个类,给每个点做标记。
  • 计算任意两点之间的距离,选择两个类之间的最短距离,将两个点聚成一个类。

2、系统树图是衡量类间的距离是区分不同层次聚类法的一种方法。

系统树图:

非监督学习——层次聚类与密度聚类

3、凝聚聚类是层次聚类法的一部分。

K-Means和单层聚类的对比:

非监督学习——层次聚类与密度聚类

单层连接和系统树图:

非监督学习——层次聚类与密度聚类

全连接聚类法:

1、选择的是两类之间最远的距离。

2、全连接比单连接产生的类更紧凑。

组平均聚类法:

1、计算的是任意两类中任意两点之间的距离,然后取平均值,即为两类之间的距离。

离差平方和法:

1、把合并类时的变量最小化,两类的中心点,所有点到这个点的平方并相加,减去类中的变量(每个类的中心点,减去每个类的平方),找到最小值。

层次聚类sklearn:

非监督学习——层次聚类与密度聚类

非监督学习——层次聚类与密度聚类

层次聚类总结:

1、单连接是查看与聚类最近的点,这可能导致形成各种形状的聚类。离差平方和法和平均连接算法一般倾向于导致紧凑的聚类。

2、优缺点:

优点:

  • 得到层次的表达,信息丰富
  • 数据集的聚类结构可视化
  • 特别当数据内部有层次关系的时候

缺点:

  • 对噪声和离群点很敏感
  • 计算量大,O(非监督学习——层次聚类与密度聚类)

层次聚类附录:

 Using Hierarchical Clustering of Secreted Protein Families to Classify and Rank Candidate Effectors of Rust Fungihttps://journals.plos.org/plosone/article?id=10.1371/journal.pone.0029847

密度聚类:

DBSCAN:

1、具有噪声的基于密度的空间聚类,把分布相对密集、距离较近的点聚到一起。不是所有的点都是类的一部分,没有被分到类里面的点被当做噪声。

2、DBSCAN没有类的数目这个参数,它有两个参数:邻域、点的最小量。

3、把点分成这三类:噪声、中心点和边界点。

非监督学习——层次聚类与密度聚类

非监督学习——层次聚类与密度聚类

密度聚类sklearn:

非监督学习——层次聚类与密度聚类

密度聚类总结:

1、优缺点:

优点:

  • 不需要指明类的数量
  • 能灵活的找到并分离各种形状和大小的类
  • 能够强有力地处理噪声和离群点

缺点:

  • 两个类共同可达的边界点,由于点是随机被访问的,所以不能保证每次传回相同的聚类
  • 找到不同密度的类有一定的困难,可用HDBSCAN,既有噪声的基于密度的高层次空间聚类算法。

密度聚类附录:

 可视化 DBSCAN 聚类:https://www.naftaliharris.com/blog/visualizing-dbscan-clustering/

参考文献:https://pages.cpsc.ucalgary.ca/~mahanti/papers/clustering.pdf

https://ieeexplore.ieee.org/abstract/document/5946052