学生上网分析－－DBSCAN密度聚类

DBSCAN算法是一种基于密度的聚类算法：
DBSCAN是基于一组邻域来描述样本集的紧密程度的，参数 (ϵ, MinPts) 用来描述邻域的样本分布紧密程度。其中，ϵ 描述了某一样本的邻域距离阈值，MinPts 描述了某一样本的距离为ϵ的邻域中样本个数的阈值。

1.聚类的时候不需要预先指定簇的个数；
2.最终的簇的个数不定。

DBSCAN算法将数据点分为三类：
核心点：在半径Eps内含有超过MinPts数目的点。
边界点：在半径Eps内点的数量小于MinPts,但是落在核心点的领域内。
噪音点：既不是核心点也不是边界点的点。

学生上网分析－－DBSCAN密度聚类

密度可达和密度相连直观解释：

学生上网分析－－DBSCAN密度聚类

从上图可以很容易看出理解上述定义，图中MinPts=5，红色的点都是核心对象，因为其ϵ-邻域至少有5个样本。黑色的样本是非核心对象。所有核心对象密度直达的样本在以红色核心对象为中心的超球体内，如果不在超球体内，则不能密度直达。图中用绿色箭头连起来的核心对象组成了密度可达的样本序列。在这些密度可达的样本序列的ϵ-邻域内所有的样本相互都是密度相连的。

由密度可达关系导出的最大密度相连的样本集合，即为我们最终聚类的一个类别，或者说一个簇。这个DBSCAN的簇里面可以有一个或者多个核心对象。如果只有一个核心对象，则簇里其他的非核心对象样本都在这个核心对象的ϵ-邻域里；如果有多个核心对象，则簇里的任意一个核心对象的ϵ-邻域中一定有一个其他的核心对象，否则这两个核心对象无法密度可达。这些核心对象的ϵϵ-邻域里所有的样本的集合组成的一个DBSCAN聚类簇。

学生上网分析－－DBSCAN密度聚类

密度可达和密度相连直观解释：

相关推荐