DW数据挖掘学习笔记-01 探索性数据分析

DW数据挖掘学习笔记-01 探索性数据分析

数据来源:https://tianchi.aliyun.com/competition/entrance/231573/information 阿里天池资金流入流出预测-挑战Baseline

研究问题:蚂蚁金服资金管理下预测未来每日的资金流入流出情况(Redeem/Purchase)

  • 数据科学库:numpy、pandas、scipy

  • 可视化界面库:matplotlib、seaborn

  • 载入数据:pd.read_csv(‘文件地址’)

  • 数据总览:describe()/info()/head()/tail()/dtypes()

  • 时间序列问题先为数据集添加时间戳:data_balance[‘date’] = pd.to_datetime(data_balance[‘report_date’], format= “%Y%m%d”)

  • 数据分布可视化:

    • 直方图:sns.barplot()
    • 密度曲线图:sns.distplot()
    • 箱型图:sns.boxplot()
    • 小提琴图:sns.violinplot()
  • 查看是否存在缺失值:.isnull().sum()

  • 查看是否存在重复值:.duplicated().sum()

赛题分析:

  • 读取数据文件夹:

DW数据挖掘学习笔记-01 探索性数据分析

    • 用户信息表:user_profile_table
    • 用户申购赎回数据表:user_balance_table
    • 收益率表:mfd_day_share_interest
    • 上海银行间拆放利率表:Shibor

一、 时间序列分析

  1. 首先分析目标的总体趋势图观察数据分布情况,

DW数据挖掘学习笔记-01 探索性数据分析

  1. 单独提取2014.4-2014.9的数据,因为2013年蚂蚁金服刚刚建立,在2014年4月之后数据分布逐渐趋于周期性分布

蚂蚁金融服务集团(以下称“蚂蚁金服”)起步于2004年成立的支付宝。2013年3月,支付宝的母公司宣布将以其为主体筹建小微金融服务集团(以下称“小微金服”),小微金融(筹)成为蚂蚁金服的前身。2014年10月,蚂蚁金服正式成立。

二、 时间特征分析

  1. 翌日特征分析
  2. 月特征分析
  3. 日期特征分析
  4. 对于节假期及其周边日期分析

针对数据集:user_balance_table

三、 其他分析

  1. 数据异常值分析
  2. 分析用户交易记录表中的其他变量
  3. 对于银行及支付宝利率的分析

针对数据集:mfd_day_share_interest、Shibor

四、 用户特征分析

  1. 分析大小额用户
  2. 分析用户的交易频次
  3. 分析用户的其他属性
  4. 其他用户特征

针对数据集:user_profile_table、user_balance_table

**变量间相关性分析与独立性分析部分待补充