数据挖掘之特征工程

特征工程是使用专业背景知识和技巧处理数据，使得特征能在机器学习算法上发挥更好的作用的过程。本文主要目的在于熟悉做数据挖掘中对数据做预处理的主要流程。

1数据采集

哪些数据对最后的结果预测有帮助？
数据我们能够采集到吗？
线上实时计算的时候获取是否快捷？

2数据格式存储

确定存储格式
大多数情况下，需要关联非常非常非常多的hive表和 hdfs文件夹，这里有非常大的学问，涉计到大数据方面技术问题，也是初级数据挖掘工程师向高级数据挖掘工程进阶过程中必须要掌握的技术。

3数据清洗

3.1清洗对象

异常值清洗
缺省值处理

3.2 清洗方法

根据常识判断样本属性的特征值，对于不可信的样本丢掉
通过逻辑推理（组合或统计属性）判定异常值
如果缺值的样本占总数比例极高，我们可能就直接舍弃了，作为特征加入的话，可能反倒带入noise，影响最后的结果了
如果缺值的样本适中，而该属性非连续值特征属性(比如说类目属性)，那就把NaN作为一个新类别，加到类别特征中
如果缺值的样本适中，而该属性为连续值特征属性，有时候我们会考虑给定一个step(age属性，我们可以考虑每隔5岁为一个步长)，然后把它离散化，之后把NaN作为一个type加到属性类目中。
有些情况下，缺失的值个数并不是特别多，那我们也可以试着根据已有的其它属性值，构建模型拟合一下数据，补充上。

4数据采样

欠采样，把样本数极多哪一类，随机抽取部分样本或分层抽取部分样本；
欠采样，如果不希望丢弃任何有效样本，一种办法是重新收集样本量，如果没有可能性收集到更多的样本，那么可以把较多的样本类随机分成若干个子集（或利用聚类思想，分成若干个簇），分别与较少的样本类构建模型，形成若干个模型，利用投票机制，判定某一预测样本所属类别。
过采样，把数据集较少的样本类别中，随机复制相同样本，并作一些变化（比如图像识别中的镜像和旋转或随机插值活得新样本），就能达到样本均衡
修改损失函数，降低样本较多类的loss function惩罚权值，增加样较少类的loss function惩罚权值

5单个特征处理

5.1特征处理之数值型

每个类别下对应的变量统计值histogram
统计值max, min, mean, std
连续值离散化，转化为类别型变量，pd.cut(obj,classes_num)
归一化

5.2特征处理之类别型

one-hot编码 /哑变量
Hash与聚类处理
Histogram映射

5.3特征处理之时间型

连续值
离散值
可以从这几个维度考虑,
year/month/day/day of week/season/week of year/hours of day/weekends or workday

5.4特征处理之文本型

词袋，文本数据预处理后，去掉停用词，剩下的词组成的list，在词库中的映射稀疏向量。
使用Tf–idf 特征
word2vec

5.5特征处理之统计特征

加减平均
分位线
次序线
比例类

5.6特征处理之组合特征

简单组合特征：拼接型
模型特征组合

6多个特征的处理

6.1 特征选择

原因
冗余：部分特征的相关度太高了，消耗计算性能。
噪声：部分特征是对预测结果有负影
方式
过滤型：评估单个特征和结果值之间的相关程度，排序留下Top 相关的特征部分。
缺点：没有考虑到特征之间的关联作用，可能把有用的关联特征误踢掉。

数据挖掘之特征工程

包裹型：把特征选择看做一个特征子集搜索问题，筛选各种特征子集，用模型评估效果。
①  用全量特征跑一个模型
②根据线性模型的系数(体现相关性)，删掉5-10%的弱特征，观察准确率/auc的变化
③  逐步进行，直至准确率/auc出现大的下滑停止
数据挖掘之特征工程
嵌入型：根据模型来分析特征的重要性，最常见的方式为用正则化方式来做特征选择。

6.2 降维

特征选择只踢掉原本特征里和结果预测关系不大的，而做特征的计算组合构成新特征
两种方式：SVD和PCA

数据挖掘之特征工程

1数据采集

2数据格式存储

3数据清洗

3.1清洗对象

3.2 清洗方法

4数据采样

5单个特征处理

5.1特征处理之数值型

5.2特征处理之类别型

5.3特征处理之时间型

5.4特征处理之文本型

5.5特征处理之统计特征

5.6特征处理之组合特征

6多个特征的处理

6.1 特征选择

6.2 降维

相关推荐