数据挖掘实践(资金流入流出预测)--Task06:学习总结
数据挖掘实践(资金流入流出预测)–Task06:学习总结
赛题解读
赛题介绍:https://tianchi.aliyun.com/competition/entrance/231573/introduction
数据集介绍及下载:https://tianchi.aliyun.com/competition/entrance/231573/information
阅读完赛题介绍后,总结了一下这个赛题的目的就是预测未来一个月,每天余额宝总的的转入金额和转出金额。是一个回归问题。
通过本次学习,系统的学习了如何进行数据分析探索、时间序列规则、时间序列模型、特征工程和建模预测。
变量间相关性分析与独立性分析
相关性分析
定类变量:名义型变量;性别
定序变量:不仅分类,还按某种特性排序;两值的差无意义;教育程度
定距变量:可比较大小、差有意义的变量
独立性分析/检验
变量间无线性相关性,还可能存在非线性关联
假设X为连续型变量,Y为离散型变量(有R种取值)
????_0:X与Y独立;????_1:X与Y不独立
定义????(????)=????(????≤????),????_???? (????)=????(????≤????|????=????_????)
独立性分析/检验
计算复杂度低,易于实现
分位数表
数据挖掘“二八原则“
80%的精力 => 选取特征
20%的精力 => 模型融合等
特征工程
基于数据分析与探索提取潜在有价值的特征
离散型特征很重要
可用于设计规则
易于模型拟合,xgboost、lightgbm、catboost等都以决策树为基模型
便于理解
便于做特征组合
在推荐系统等领域很常见
简单粗暴的特征组合方式
简单粗暴的进行加、减、乘、除、log、exp等运算
易于生成大量特征,但会易出现过拟合问题,且不易于解释
建议的特征提取与组合方式
理解问题背景,开发想象力,并做数据分析与探索
以时间序列问题为例,常见的特征类别包括统计量(最大值、最小值、中位数、偏度、峰度等)、排序(各统计量在历史同期的排名)、分位数(各统计量在历史同期排名的分位数)等等; 《03.时间序列规则与baseline》的周期因子可视为特征组合
以推荐系统为例,常见的特征类别包括用户特征、商品特征、行为特征(按时段统计)等等;可对其中的离散型特征直接做组合