Task1 数据探索与分析
Task1 数据探索与分析
1.赛题介绍
1.1赛题背景信息和赛题要求。
使用已有数据,精确预测在2014 年 9 月每天一行的申购总额和赎回总额。
1.2掌握赛题的数据情况和结果评估方法。
赛题数据提供了2013年7月-2014年8月每天的申购赎回数据,28041位用户,共有2840421条记录。计算所有用户在测试集上每天的申购及赎回总额与实际情况总额的误差为评估方法,最后公布总积分 = 申购预测得分 *45%+ 赎回预测得分 *55% 。
2.数据可视化基本知识
2.1基本图表
2.1.1-直方图
2.1.2-密度曲线图
2.1.3-箱线图
2.1.4-小提琴图
2.2变量相关性分析与独立性分析
2.2.1变量相关性分析
相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。
2.2.2独立性分析
独立性检验是统计学的一种检验方式,与适合性检验同属于X2检验,即卡方检验,它是根据次数资料判断两类因子彼此相关或相互独立的假设检验。
3.数据探索与分析
3.1时序图
此图表现了2013年7月-2014年8月的申购总额和赎回总额,发现申购总额和赎回总额的变化趋势相同,在特殊的时期才会有较大的差距。
从2014年4月以后发现波动趋势大致相同。
从4-8月的图中可以看出,每月有四个波峰和四个波谷,并且在月末时赎回高于购买,月初时购买高于赎回,并且具有一定的相关性。
小提琴图和分布图
发现申购总额和赎回总额在工作日分布的较高,特别是周三。支付宝首次收益显示时间也分布在工作日,特别是周三显示次数最多,有三天存入的钱都在周三显示收益。
用中位数绘制柱状图
发现还与余额宝收益计算方式有关。
箱线图
同上,发现还与余额宝收益计算方式有关。
构造热图分析申购总量与赎回总量间的相关性
看出线性相关较弱。
申购和赎回总量间独立性
发现存在依赖关系。
分析每月的分布
发现13年7-10月与其他月份差异明显;14年5月6月购买量接近,14年7月和8月有差异;13年9月与8月差异较大,13年9月与10月很接近。
利用直方图分析14年8月
发现每周开始倾向购买,每周中期倾向于赎回;周末不倾向交易,猜测与余额宝收益计算方式有关;赎回波动性比购买大。
分析13年9月申购总额与赎回总额
发现16号-中秋前为购买峰值;28号-国庆前为赎回峰值;11号和25号为赎回峰值(周三)
特殊节日
特殊节日的交易量明显低于平时。
时序图
发现节日前交易量下降,节日后交易量上升。