关于KNN算法的新理解新运用

关于KNN算法的新理解

一个更具健壮性和灵活性的方法是考虑大小为 k 的近邻集合,而不仅仅是最相近的那一个,不难猜到这种方法被称为 K 近邻(KNN)方法。它的灵活性来源于可以使用不同的分类方法。例如,新实例的输出可以用多数同意规则,即输出这 k 个近邻中占大多数的那一个输出。如果想要更加安全的方法,可以仅在这 k 个近邻的输出完全相同时才确定新实例的类别(一致同意规则),否则就输出“未知”。这个建议可以用于区分有毒的蘑菇时:如果输出“未知”,就联系当地警方寻求帮助。
如果面临的是一个回归问题(预测一个实数,例如蘑菇中有毒物质的含量),我们可以将这 k 个最相近的实例的输出平均值作为新实例的输出。
当然,这 k 个实例到新实例的距离可能有所差别,而且在某些情况下,距离较近的实例对新实例的输出影响更大是很合理的。在这种被称为加权 K 近邻(WKNN)的方法中,权重取决于距离。
关于KNN算法的新理解新运用