KNN的数据插补方法总结

sklearn中的KNN在缺失值填补中的用法

参考链接:K近邻填补缺失值

如果缺失值是离散的,使用K近邻分类器,投票选出K个邻居中最多的类别进行填补;如果为连续变量,则用K近邻回归器,拿K个邻居中该变量的平均值填补。

涉及到的参数: KNN的K;weights-样本的权重,使用distance表示,distance为用样本间的距离(默认欧式距离),样本间距离越近越”重要“

过程:如有下图这样一段数据,999表示X1中的缺失值,NaN表示X2中的缺失值。在对X1列中的缺失数据进行插补时,选择出其他不存在缺失值的列(X0、X3),同时去除掉X1列存在缺失值的行(2、7),然后计算距离,因为是离散值,所以选择K项中的最多类进行填补。对于X2的插补类似,只是将投票选出最多类改为计算K个邻居的平均值进行填补。
KNN的数据插补方法总结