机器学习备忘录之特征归一化

未进行特征归一化可能会导致什么问题?

未进行特征归一化的数据分析结果会倾向于数值差别较大的的特征。

机器学习备忘录之特征归一化

常用方法

线性函数归一化(Min-Max scaling)

机器学习备忘录之特征归一化
线性函数归一化(Min-Max scaling)将原始数据线性化的方法转换到[0,1]的范围.缺点是抗干扰能力弱,受离群值影响比较大.

零均值标准化(Z-score standardization)

机器学习备忘录之特征归一化
零均值标准化(Z-score standardization)将原始数据集归一化为均值为0且方差1的数据集.该种归一化方式要求原始数据的分布可以近似为高斯分布,否则归一化的效果会变得很糟糕.
注意

  • 数据归一化不是万能的,使用到梯度下降法求解的模型通常需要归一化.决策树用的是信息增益,所以不需要归一化.
  • 在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,第二种方法(Z-score standardization)表现更好.

参考:
百面机器学习 算法工程师带你去面试
机器学习部分:(均值)标准归一化和最大最小(线性)归一化问题