缺失值处理知识点整理

缺失值处理知识点整理
来源《Python数据分析与数据化运营》
批注1:
(丢弃)不宜采用的场景:
(1)数据集总体中存在大量的数据记录不完整情况且比例较大,例如超过10%,删除这些带有缺失值的记录意味着将会损失过多有用信息。
(2)带有缺失值的数据记录大量存在着明显的数据分布规律或特征,例如带有缺失值的数据记录的label主要集中于某一类或者某积累,如果删除会导致对应的数据样本丢失大量特征信息,导致模型过拟合或分类不准确
批注2:
(插值)方法
拉格朗日插值
牛顿插值
Hermite插值
分段插值
样条插值