特征工程的步骤与理解

特征工程是在原有数据的特征下,通过想象力以及对数据的理解和一些特征组合形成新的特征,再对特征评估,优胜劣汰,取出能利用的特征提供给模型建模。

特征工程的常用手段:

1.通过箱型图:
文章中的数据特征比较多,特征看图就可。
特征工程的步骤与理解
特征工程的步骤与理解
通过箱型图,可以剔除某些特征,比如说,第一张图第三行的第二列,样本非常不均衡,说明该特征无意义,还要第二张图第一行第四列,该特征的数据对预测值没有参考意义,分布相同,没有区别。

相关性分析

特征工程的步骤与理解
从中,可以剔除掉相关性的绝对值小于0.1的特征。

点线图分析

特征工程的步骤与理解
如果每个点的值域(线的长度长短有较大出入),结论则为方差较大,结论不可信。比如第二行第二列,第三行第三列,第四行第一列。

概率密度图分析

特征工程的步骤与理解
通过概率密度图分析,如果特征内数据的分布情况很相近,则对预测结果没太大用,没有贡献度,比如第四行第四列,该特征就可剔除。