K-近邻算法

摘自《机器学习实战》

k-近邻算法（kNN）采用测量不同特征值之间的距离方法进行分类。

优点：精度高、对异常值不敏感、无数据输入假定。

缺点：计算复杂度高、空间复杂度高。

适用数据范围：数值型和标称型。

工作原理：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签（样本集中每一数据与所属分类的对应关系），输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应特征进行比较，然后算法提取样本集中特征最相似数据（最邻近）的分类标签。一般来说，仅选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不大于20的整数。最后选择k个最相似数据中出现次数最多的分类，作为新数据分类。

k-近邻算法一般流程：（按照开发机器学习应用的通用步骤）

（1）收集数据：可以使用任何方法；

（2）准备数据：距离计算所需要的数值，最好是结构化的数据格式；

（3）分析数据：可以使用任何方法‘

（4）训练算法：此步骤不适用k-近邻算法；

（5）测试算法：计算错误率；

（6）使用算法：首先需要输入样本数据和结构化的输出结果，然后运行k-近邻算法判定输入数据分别属于哪个分类，最后应用对计算出的分类执行后续的处理。

k-近邻算法（伪代码）：

对未知类别属性的数据集合中的每个点依次执行以下操作：

（1）计算已知类别数据集中的点与当前点之间的距离；

（2）按照距离递增次序排序；

（3）选取与当前点距离最小的k个点；

（4）确定前k个点所在类别的出现频率；

（5）返回前k个点出现频率最高的类别作为当前点的预测分类。

例：以电影中出现的打斗镜头次数和接吻镜头次数对电影进行分类（动作片、爱情片）

K-近邻算法

每部电影的打斗镜头次数与接吻镜头次数及电影类型评估
电影名称	打斗镜头	接吻镜头	电影类型
California Man	3	104	爱情片
He's Not Reality into Dudes	2	100	爱情片
Beautiful Woman	1	81	爱情片
Kevin Longblade	101	10	动作片
Robo Slayer 3000	99	5	动作片
Amped II	98	2	动作片
？	18	90	位置

1、首先，计算未知电影与样本集中其他电影距离；

已知电影与未知电影距离
电影名称	与未知电影的距离
California Man	20.5
He's Not Reality into Dudes	18.7
Beautiful Woman	19.2
Kevin Longblade	115.3
Robo Slayer 3000	117.4
Amped II	118.9

2、通过得到的样本集中已知电影与未知电影的距离，按照距离递增排序，找到k个距离最近的电影（假定k=3）。则判定未知电影为爱情片。

使用k-近邻算法构造的分类器并不会得到百分百正确的结果，，可以使用多种方法检测分类器的正确率。此外分类器的性能也受到多种因素的影响，如分类器设置和数据集等。不同的算法在不同数据集上的表现可能完全不同。

为测试分类器效果，使用已知答案的数据（答案不能告诉分类器）检验分类器给出的结果是否符合预期结果。通过大量的测试数据，我们可以使用分类器的错误率（分类器给出错误结果的次数除以测试执行总数）。错误率是常用的评估方法，主要用于评估分类器在某个数据集上的执行效果。错误率受k值、训练样本、训练样本数目等影响，感兴趣的话可以改变这些变量值，观察错误率变化。

实际使用该算法时，算法执行效率并不高，是否存在一种算法减少存储空间和计算时间的开销呢？k决策树就是k-近邻算法的优化版，可以节省大量的计算开销。

相关推荐