特征工程:缺失值处理

缺失值包含的不止是字面意思那样为空的值,比如-999,-1或其他特殊字符也可能代表缺失值

隐藏的缺失值

当遇到特殊数字-1之类的情况时,我们如何确定它代表的是缺失值呢?我们可以画出特征的分布图,如果-1远离大部分值的分布范围,那极有可能-1代表的就是缺失值
特征工程:缺失值处理

缺失值填充

1.-999,-1等
相当于把缺失的情况当做一种特殊类别来处理,对linear model,神经网络性能有影响

2.均值,中位数等
对linear model,神经网络效果较好,基于树的模型会导致难以做出判断

3.根据具体情况重建缺失值
新增一个特征,标记该行是否有缺失值
特征工程:缺失值处理
注意:在利用已有特征生成新特征之前,要十分小心处理缺失值,如果处理不当的话,在这些有缺失值特征基础上生成的衍生特征,效果可能适得其反。所以尽量别在利用有缺失值的特征生成衍生特征之间,填充缺失值。