K-近邻算法
1. 定义:
如果一个样本在特征空间中的k个最相似 (即特征空间中最邻近) 的样本中的大多数属于某一个类别,则该样本也属于这个类别。即使用你的邻居来判断你的类别
K-近邻算法属于分类算法的一种。
2. KNN 算法数据处理 :两个样本间的距离
- 样本间距离=两点间距离公式。
- 样本数据必须经过标准化处理。
2.1Example:电影类别判断
有由距离公式即可计算出位未知电影距离其他电影的距离,如下图:
可发现,未知电影与 He’s not Really into dues 距离为18.7 是所有距离中最小的,故在当前模型下,可以判断未知电影与 He’s not Really into dues 属于同一个类别。
3. 结论
相似的样本,特征之间的值应该是相近的。即若两个样本之间的距离越小,则这两个样本越有可能属于同一个类别。