归一化(Normalization)和标准化(Standardization)

归一化和标准化

特征缩放是数据要做的最重要的转换之一。除了个别情况,当输入的数值属性量度不同,不同的特征指标有的不一样的量度和单位,这样就会影响到数据分析的结果,以至于机器学习算法的性能都不会好,此时就需要对数据进行归一化或标准化的处理。

概念

**归一化:**值被转变、重新缩放,把数据变为(0,1)之间的小数,把有量纲表达式变成无量纲表达式。

**标准化:**将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。例如:首先减去平均值(所以标准化值的平均值总是 0),然后除以方差,使得到的分布具有单位方差。就服从均值为0,方差为1的分布,也就是标准高斯分布

作用

在实际应用中,由于不同特征的数据往往具有不同的指标,例如身高与体重,它们就具有不同的量纲长度和单位,此时就会影响数据分析的结果和模型的性能。此时我们可以将其进行标准化处理,使得这些特征的指标能够服从一样的分布,此时即能够去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较。

经过标准化的数据是无量纲的纯数值,对其进行归一化把数据变为(0,1)之间的小数。

如右图对两个特征进行了归一化后,对应的等高线就会变圆
在梯度下降进行求解时能较快的收敛,而不像左图需要走许多的“弯路”
而且能够给模型有更高的精度
归一化(Normalization)和标准化(Standardization)