数据预处理-对数变换

当数据发生倾斜时,可以使用特征工程技巧,利用统计或数学变换来减轻数据分布倾斜的影响。使原本密集的区间的值尽可能的分散,原本分散的区间的值尽量的聚合。

log 变换通常用来创建单调的数据变换。它的主要作用在于帮助稳定方差,应用 log 变换会倾向于拉伸那些落在较低的幅度范围内自变量值的范围,倾向于压缩或减少更高幅度范围内的自变量值的范围。从而使得倾斜分布尽可能的接近正态分布并使得数据与分布的平均值无关。
数据预处理-对数变换
λ通常设置为1,c通常设置使用欧拉常数 e。

  • 倾斜数据
    数据预处理-对数变换

  • log 处理变化后
    数据预处理-对数变换
    与先前倾斜分布相比,该分布更加像正态分布或高斯分布

参考文档

  1. 连续数据的处理方法