时序预测赛-学习笔记
DAY 1 时序预测赛学习笔记
比赛描述
数据概览
本次比赛数据为蚂蚁金服旗下产品的真实脱敏数据, 包括4个表:
- 用户基本信息数据
- 用户申购赎回数据
- 收益率表
- 银行间拆借利率表
其中,主表为用户申购赎回数据表,字段内容如下:
描述性信息如下:
时序学习
本次需要预测的时间序列为二元时间序列,输出预测结果为预测的purchase和redeem数值。
昨天和今天,主要对数据做描述性时序分析,探索数据的特征,准备特征工程。
描述性时序分析
描述性时序分析工作主要分为以下几点:
一、总体时间序列分析
对整体的purchase、redeem绘制时间序列图,如下图:
可以看出自2013年7月份以来,该产品购买和赎回量经历了稳步上升–剧烈震荡–趋于平稳的趋势,上图红框中的剧烈震荡时期需要进一步深入分析。
而2014年4月及往后月份,购买和赎回量呈现较为稳定的趋势,如有需要,还可以进一步校验其是否平稳。
截取2014年4月及往后月份的购买和赎回量作图,可以发现具有一定的周期规律性。
二、周、月、节假日维度分析
按周:
可分为工作日、周末
按月:
可分为月初、月中、月底
按节假日:
在数据统计时间范围内,重大传统节日有清明节、劳动节、端午节、中秋节, 其他节日有母亲节、父亲节、天猫618、教师节等
三、用户属性分析
主要分为以下几类:
- 购买、赎回量特别大(相对)的大额用户交易行为分析
- 分析新老用户的交易行为
- 分析用户其他属性(城市、性别、星座……)
四、表关联分析
主要有以下几类:
- 利率(支付宝、银行)涨跌对用户购买赎回量(大额、小额)的影响
- 支付宝、银行利率的相关性
- 利率(支付宝、银行)的时间趋势
- 不同购买、赎回方式之间的交易数量差异
为什么要做描述性分析
这里涉及到时序分析(主要针对其中的时域分析方法)相对固定的分析套路:
- 第一步:考察观察值序列的特征(构建新的强特征(如有需要))。
- 第二步:根据序列的特征选择适当的拟合模型。
- 第三步:根据序列的观察数据确定模型的口径。
- 第四步:检验模型,优化模型。
- 第五步:利用拟合好的模型来推断序列其他的统计性质或预测序列将来的发展。
其中第一步就是我们所说的EDA(探索性数据分析),和特征工程。
为了尽量多地了解数据的分布特征、数据之间的内在联系,我们需要进行花样繁复、维度多变的EDA步骤,这将使我们找到与因变量(purchase、redeem)相关性更强的特征(或者创建新的相关性更强的特征),帮助模型更好地预测。
问题
暂无