机器学习2第二天---特征预处理


注意:并不是所有的算法都需要进行标准化与归一化。根据不同的算法来的。
机器学习2第二天---特征预处理

特征预处理-归一化

机器学习2第二天---特征预处理
机器学习2第二天---特征预处理
机器学习2第二天---特征预处理
机器学习2第二天---特征预处理
机器学习2第二天---特征预处理
机器学习2第二天---特征预处理
机器学习2第二天---特征预处理

归一化以及标准化对比

最小最大缩放
机器学习2第二天---特征预处理
机器学习2第二天---特征预处理
机器学习2第二天---特征预处理
机器学习2第二天---特征预处理
机器学习2第二天---特征预处理
机器学习2第二天---特征预处理
机器学习2第二天---特征预处理
机器学习2第二天---特征预处理
机器学习2第二天---特征预处理
机器学习2第二天---特征预处理
对结果影响:即有异常点,即数据中有一些点不对,就会影响归一化公式中的最小最大值,导致每一列的最大值都改变了。
机器学习2第二天---特征预处理机器学习2第二天---特征预处理
因此归一化对于有异常点的数据处理不是太好。
机器学习2第二天---特征预处理
鲁棒性:即稳定性,适应能力要好。

标准化

机器学习2第二天---特征预处理机器学习2第二天---特征预处理
机器学习2第二天---特征预处理
数据分散方差大,数据集中,方差越小。
机器学习2第二天---特征预处理
机器学习2第二天---特征预处理
机器学习2第二天---特征预处理
机器学习2第二天---特征预处理
机器学习2第二天---特征预处理
机器学习2第二天---特征预处理
机器学习2第二天---特征预处理

标准化总结以及缺失值处理

想到数据的缩放,且不受异常点影响,首先想到标准化。
机器学习2第二天---特征预处理

缺失值处理

主要通过pandas处理,这里也可以用skear处理,不作为重点。
机器学习2第二天---特征预处理
1删除,但是数据量不多时,删除后数据量就少了。2填补
机器学习2第二天---特征预处理
一般建议按照一列,即按照一个特征列来填补。
指定缺失值的位置是什么值。填补策略为平均值或其他。axis=0指定为行还是列。
机器学习2第二天---特征预处理
机器学习2第二天---特征预处理
机器学习2第二天---特征预处理
机器学习2第二天---特征预处理
机器学习2第二天---特征预处理
机器学习2第二天---特征预处理