DW数据挖掘学习笔记-01 探索性数据分析
DW数据挖掘学习笔记-01 探索性数据分析
数据来源:https://tianchi.aliyun.com/competition/entrance/231573/information 阿里天池资金流入流出预测-挑战Baseline
研究问题:蚂蚁金服资金管理下预测未来每日的资金流入流出情况(Redeem/Purchase)
-
数据科学库:numpy、pandas、scipy
-
可视化界面库:matplotlib、seaborn
-
载入数据:pd.read_csv(‘文件地址’)
-
数据总览:describe()/info()/head()/tail()/dtypes()
-
时间序列问题先为数据集添加时间戳:data_balance[‘date’] = pd.to_datetime(data_balance[‘report_date’], format= “%Y%m%d”)
-
数据分布可视化:
- 直方图:sns.barplot()
- 密度曲线图:sns.distplot()
- 箱型图:sns.boxplot()
- 小提琴图:sns.violinplot()
-
查看是否存在缺失值:.isnull().sum()
-
查看是否存在重复值:.duplicated().sum()
赛题分析:
- 读取数据文件夹:
-
- 用户信息表:user_profile_table
- 用户申购赎回数据表:user_balance_table
- 收益率表:mfd_day_share_interest
- 上海银行间拆放利率表:Shibor
一、 时间序列分析
- 首先分析目标的总体趋势图观察数据分布情况,
- 单独提取2014.4-2014.9的数据,因为2013年蚂蚁金服刚刚建立,在2014年4月之后数据分布逐渐趋于周期性分布
蚂蚁金融服务集团(以下称“蚂蚁金服”)起步于2004年成立的支付宝。2013年3月,支付宝的母公司宣布将以其为主体筹建小微金融服务集团(以下称“小微金服”),小微金融(筹)成为蚂蚁金服的前身。2014年10月,蚂蚁金服正式成立。
二、 时间特征分析
- 翌日特征分析
- 月特征分析
- 日期特征分析
- 对于节假期及其周边日期分析
针对数据集:user_balance_table
三、 其他分析
- 数据异常值分析
- 分析用户交易记录表中的其他变量
- 对于银行及支付宝利率的分析
针对数据集:mfd_day_share_interest、Shibor
四、 用户特征分析
- 分析大小额用户
- 分析用户的交易频次
- 分析用户的其他属性
- 其他用户特征
针对数据集:user_profile_table、user_balance_table
**变量间相关性分析与独立性分析部分待补充