KNN的数据插补方法总结

sklearn中的KNN在缺失值填补中的用法

如果缺失值是离散的，使用K近邻分类器，投票选出K个邻居中最多的类别进行填补；如果为连续变量，则用K近邻回归器，拿K个邻居中该变量的平均值填补。

涉及到的参数： KNN的K；weights-样本的权重，使用distance表示，distance为用样本间的距离（默认欧式距离），样本间距离越近越”重要“

过程：如有下图这样一段数据，999表示X1中的缺失值，NaN表示X2中的缺失值。在对X1列中的缺失数据进行插补时，选择出其他不存在缺失值的列（X0、X3），同时去除掉X1列存在缺失值的行（2、7），然后计算距离，因为是离散值，所以选择K项中的最多类进行填补。对于X2的插补类似，只是将投票选出最多类改为计算K个邻居的平均值进行填补。
KNN的数据插补方法总结

KNN的数据插补方法总结

sklearn中的KNN在缺失值填补中的用法

相关推荐