《资金流入流出预测》——数据探索和准备步骤
绘制时间序列图
绘制申购总量和赎回总量的时间序列图
观察2014年4月份之后的时序图
大体上以星期为周期。
观察2014年4~8月的时序图
可以发现在月末时赎回总量大于购买总量。
按周一到周日分析差异
绘制每翌日数据分布与整体数据的分布图
分布大体符合正态分布。
然后再通过求中位数绘制柱状图来分析
绘制箱型图:
然后分析申购总量和赎回总量之间的独立性
可以发现存在依赖关联。
按月分析
分析13年7月~14年8月期间每月的分布
可以发现13年7月到10月份与其他月份差距明显。
分析14年5月~14年8月期间每月分布:
可以发现在购买量中,7月8月与其他月有明显差距,5月和6月接近。
在赎回量中,各月差异比较明显。
分析13年7月~13年9月期间每月分布:
可以发现9月与8月有明显差异,而9月和10月接近。
按天分析
接下来按照每天来聚合数据,并将聚合后的数据画出每月购买分布的柱状图
可以从数据中发现如下结论:
- 每周开始阶段购买量增多,到了每周中期赎回量增多
- 赎回的波动性比购买要大
分析节假日及特殊日期
之后我们开始分析节假日及特殊日期
可以发现节假日的交易量要低于平时,在618电商举行活动时购买和赎回量增大。
可以发现,在这些节假日中,购买和赎回量要低于平时的量。
分析大额交易
在分析异常值的时候,我们通过箱型图来分析
存在这一个异常交易记录
画出交易额
可以发现最大交易记录在2014年2月非常多,但是之后的大额交易次数开始趋于稳定。
分析银行拆解利率与余额宝利率
余额宝利率与购买量和赎回量的时序图:
下面为银行利率时序图可与余额宝利率的时序图:
总结
从以上数据分析过程中,可以大体了解了如何对时间序列做数据分析,比如通过什么图形进行分析,通过什么指标等。
此外,也大体上摸清了时间序列数据挖掘的步骤,从月、周、天分别进行分析差异性、周期性、异常等。