机器学习中分类和聚类的区别

机器学习中分类和聚类的区别

在机器学习中有两种常见的任务:分类(Classification)和聚类(Clustering)。
在初学机器学习时,对这两个概念的理解容易混淆,随着学习的深入,对这两个概念有了基本的认识,现总结如下:

1.分类:
属于监督学习的范畴,根据一些给定的已知类别的样本,使它能够对未知类别的样本进行分类,要求必须事先明确知道各个类别的信息。

2.聚类:
属于无监督学习的范畴,根据样本间的某种距离或者相似性来定义聚类,即把相似的(或距离近的)样本聚为同一类,而把不相似的(或距离远的)样本归在其他类。
一般有三种距离度量,曼哈顿距离、欧氏距离、闵可夫斯基距离,公式如下:
机器学习中分类和聚类的区别