聚类DBSCAN算法分析

DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种基于密度的空间聚类算法

DBSCAN的主要优点是:
它不需要用户先验地设置簇的个数,可以划分具有复杂形状的簇,还可以找出不属于任何簇的点。
DBSCAN比凝聚聚类和k均值稍慢,但仍可以扩展到相对较大的数据集。

DBSCAN的原理是:
识别特征空间的“拥挤”区域中的点,在这些区域中许多数据点靠近在一起。这些区域被称为特征空间中的密集(dense)区域。

DBSCAN背后的思想是:
簇形成数据的密集区域,并由相对较空的区域分隔开。
在密集区域内的点被称为核心样本(core sample,或核心点),它们的定义如下。

DBSCAN 有两个参数:min_samples和eps。如果在距一个给定数据点eps的距离内至少有min_samples个数据点,那么这个数据点就是核心样本。DBSCAN将彼此距离小于eps的核心样本放到同一个簇中。

通俗解释:
聚类DBSCAN算法分析
https://blog.csdn.net/huacha__/article/details/81094891