特征工程

特征工程是一个任务驱动的经验性处理过程

数据与特征处理

  • 特征表达
    • 数值型
    • 类别型
    • 时间型
    • 文本型
    • 统计型
    • 组合特征

数据的表示应当转换为更理想的格式

数值型

  • 幅度调整/归一化
  • Log等变化
  • 统计值max,min,mean,std
  • 离散化(一个特征变多个特征)(等距切分,等频切分)
  • Hash分桶
  • 每个类别下对应的变量统计值histogram
  • 试试 数值型=>类别型

类别型

  • 独热编码
  • 哑变量
  • Hash与聚类处理(降低稀疏度,提高信息利用率)
  • 统计每个类别变量下各个target比例,转成数值型

特征组合

  • 简单组合特征:拼接型
  • 模型特征组合

特征工程

特征选择

特征工程

特征工程

大量特征(上亿)使用L1正则化进行特征选择

特征工程

同时良好的特征工程应该满足一下特点:

  • 可面向未来观察结果进行计算。
  • 通常能给出直观的解释。
  • 通过领域内专业知识或者探索性分析得出。
  • 必须拥有预测能力。不要为了创建特征而创建特征。