特征工程
特征工程是一个任务驱动的经验性处理过程
数据与特征处理
- 特征表达
- 数值型
- 类别型
- 时间型
- 文本型
- 统计型
- 组合特征
数据的表示应当转换为更理想的格式
数值型
- 幅度调整/归一化
- Log等变化
- 统计值max,min,mean,std
- 离散化(一个特征变多个特征)(等距切分,等频切分)
- Hash分桶
- 每个类别下对应的变量统计值histogram
- 试试 数值型=>类别型
类别型
- 独热编码
- 哑变量
- Hash与聚类处理(降低稀疏度,提高信息利用率)
- 统计每个类别变量下各个target比例,转成数值型
特征组合
- 简单组合特征:拼接型
- 模型特征组合
特征选择
大量特征(上亿)使用L1正则化进行特征选择
同时良好的特征工程应该满足一下特点:
- 可面向未来观察结果进行计算。
- 通常能给出直观的解释。
- 通过领域内专业知识或者探索性分析得出。
- 必须拥有预测能力。不要为了创建特征而创建特征。