Datawhale时间序列挖掘学习资金流入流出预测(五)之特征工程

本篇是(五)特征工程 学习笔记

 

(一)理论说明

基于对数据的分析和探索可以发现潜在的有效特征,在提取潜在有效特征后,我们进一步分析这些特征与因变量的关联以筛选有预测价值的特征。

  • 特征越好,模型性能越出色。
  • 特征越好,模型越简单。
  • 特征越好,模型灵活性越强。

Datawhale时间序列挖掘学习资金流入流出预测(五)之特征工程

 特征构建

 (1)离散型特征(特征编码)

  • 可用于设计规则
  • 易于拟合模型,比如xgboost,lightgbm,catboost都以决策树为基模型
  • 便于理解
  • 便于做特征组合
  • 在推荐系统领域很常见

(2)特征组合方式

  • 简单进行加减乘除、log、exp等运算(易于生成大量特征,但会易出现过拟合,且不易于解释)
  • 根据问题背景做数据分析与探索
  • 时间序列问题中,可以以统计量作为特征(最大值,最小值,中位数,偏度,峰度等),或者他们的排序(各统计量在历史同期的排名),分位数(各统计量在历史同期的分位数)等等
  • 时间序列规则的周期因子也可以视为特征组合
  • 推荐系统中,常见的特征包括用户特征、商品特征、行为特征(按时段统计)等,并且可以对其中的离散特征直接做组合。

特征筛选

  • 剔除相关性太低的特征
  • 处理自变量之间的共线性:可通过特征组合处理,A和B存在共线性,则保留A,构建A/B
  • 基于多种特征重要性评估方法

Datawhale时间序列挖掘学习资金流入流出预测(五)之特征工程

特征重要性分析方法

(1)Mean Variance Test

(2)SHAP(可以解释任意机器学习模型的输出)

Datawhale时间序列挖掘学习资金流入流出预测(五)之特征工程

  • SHAP value为正,表明变量对预测值有促进作用; SHAP value为负,表明变量对预测值有抑制作用。
  • 变量的绝对值越大,表明对预测的影响越大。
  • # #python包 shap

(3)Permutation importance

  • #python包 eli5
  • 一个特征被处理为随机数后,若模型效果明显下降则认为该特征重要

 

(二)面向资金流入流出预测的特征工程