机器学习-特征工程与模型评估1
特征工程概论
特征工程的目的
最大限度地从原始数据中提取特征以供算法和模型使用。
引用工业界的一句话:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
数据预处理
特征工程
数据清洗
- 数据清洗的具体内容
在特征工程里有一个词:“脏数据”,很可能是数据采集中的问题所导致的不正常数据。 - 怎么清洗脏数据
- 根据理论经验或者实际情况设定一个预定的阈值,在阈值之外的即视为脏数据;
- 根据均值方差,利用统计学中的3sigma原则确定阈值;
- 根据数据的变化情况。
数据采样
- 为什么要做数据采样?
数据采样是在针对一些正负样本不均衡和模型对于正负样本比较敏感的时候所采用的一种平衡正负样本方法。 - 数据采样的方式
- 欠采样:正样本>>负样本,且样本量都很大,可对于正样本进行欠采样(随机采样、分层采样)
- 过采样:正样本>>负样本,且负样本的样本量比较小,可对于负样本进行过采样(随机采样、分层采样)
- 混合采样:对正样本进行欠采样,对负样本进行过采样。
- 具体的采样方式
随机采样和分层抽样 - 另外可采取的一些方法
生成新样本和修改损失函数
特征处理 - 特征的类型
数字类型:连续型、离散型
类别类型
时间类型
文本类型
图形类型 - 数值类型特征
特征的自身变化、新特征的生成
标准化
归一化
零中心化
最大值标准化
规范化
二值化
统计特征
连续特征离散化
分类特征编码 - 无序特征映射
为了保证学习算法能够正确解释无序特征(ordinary feature),LabelEncoder是一种处理方式。 - 有序特征映射
- 类别特征对应Target占比统计
- 时间特征处理
- 缺失值处理
- 多项式特征生成
- 转换器定制
- 数据降维
方法:PCA、LDA、LLE等