引言

其实对于所有的聚类问题，都有一个核心点，那就是以什么样的规则来划分两个点是不是同一类。密度聚类，本质上就是基于一种密度的概念来进行聚类。而密度的定义本质上也是来自于两点的距离，所以其实对于聚类的算法来看，大家本质上都差不多，谁也别笑话谁。下面我们来总结介绍一种叫做DBSCAN的密度算法。

DBSCAN

DBSCAN 的全称是 Density-Based Spatial Clustering of Applications with Noise
单词里面有个noise,这就说明我们的算法是能抗噪声的，并且我们的算法是可以在空间中聚类为任意形状的聚类的，这点是一些其他的聚类算法不具备的性质，如下所示：

密度聚类
具有这样的性能，就是因为我们的算法引入了“邻域”（其参数为 $(ε, M i n P t s)$ ）的概念来刻画样本的紧密程度的算法。

下面我们来介绍一下这个算法，在具体算法之前，我们先看几个定义，非常简单，但是可能比较绕，懂了这几个定义，下面的算法就是小菜一碟了。

基于密度的几个概念

$ε -$ 邻域：

对 $x_{j} \in D$ ，其 $ε -$ 邻域是指样本集 $D$ 中与 $x_{j}$ 距离不大于 $ε$ 的样本，即 $N_{ε} (x_{j}) = {x_{j} \in D | d i s t (x_{i}, x_{j}) \leq ε}$

核心对象：

对象 $x_{j}$ 的 $ε -$ 邻域中至少包含 $M i n P t s$ 个样本，即 $N_{ε} (x_{j}) \geq M i n P t s$ ，则称 $x_{j}$ 为核心对象。

密度直达：

若 $x_{j}$ 位于 $x_{i}$ 的 $ε -$ 邻域中，且 $x_{i}$ 是核心对象，则称 $x_{j}$ 由 $x_{i}$ 密度直达。

密度可达：

对 $x_{j}$ 与 $x_{i}$ ，存在样本序列 $p_{1}, p_{2}, . . ., p_{n}$ 且 $p_{1} = x_{j}, p_{n} = x_{i}$ 且 $p_{i + 1}$ 由 $p_{i}$ 密度直达，则称 $x_{j}$ 由 $x_{i}$ 密度可达。

其实这个概念本质上要求 $p_{2}, . . ., p_{n}$ 都是核心对象

密度相连：

对 $x_{j}$ 与 $x_{i}$ ，若存在 $x_{k}$ 使得 $x_{j}$ 与 $x_{i}$ 均由 $x_{k}$ 密度可达，则称 $x_{j}$ 由 $x_{i}$ 密度相连。

下图直观的表示了这几个概念

密度聚类

基于上面的概念，可以定义DBSCAN算法里面的簇的定义

簇：由密度可达关系导出的最大的密度相连的样本集合。

因此实际上簇 $C \subseteq D$ 满足下面的两个条件：

连接性： $x_{i} \in C, x_{j} \in C \Rightarrow$ $x_{i}$ 与 $x_{j}$ 密度相连

最大性： $x_{i} \in C$ 且 $x_{j}$ 由 $x_{i}$ 密度可达 $\Rightarrow x_{j} \in C$

实际上就是核心对象以及与其密度可达的所有的点的集合

本质上相当于一些核心对象以及边界点组成了簇，簇中核心的点就是核心对象。

具体算法描述