K-近邻算法

1. 定义:

如果一个样本在特征空间中的k个最相似 (即特征空间中最邻近) 的样本中的大多数属于某一个类别,则该样本也属于这个类别。即使用你的邻居来判断你的类别

K-近邻算法属于分类算法的一种。

2. KNN 算法数据处理 :两个样本间的距离

  1. 样本间距离=两点间距离公式
  2. 样本数据必须经过标准化处理。
2.1Example:电影类别判断

K-近邻算法
有由距离公式即可计算出位未知电影距离其他电影的距离,如下图:K-近邻算法
可发现,未知电影与 He’s not Really into dues 距离为18.7 是所有距离中最小的,故在当前模型下,可以判断未知电影与 He’s not Really into dues 属于同一个类别。

3. 结论

相似的样本,特征之间的值应该是相近的。即若两个样本之间的距离越小,则这两个样本越有可能属于同一个类别。