贷款违约预测---Task2 数据分析

使⽤EDA完成数据分析的过程如下:

  • 读取并分析数据质量;
  • 探索性分析每个变量;
    • 变量是什么类型;
    • 变量是否有缺失值;
    • 变量是否有异常值;
    • 变量是否有重复值;
    • 变量是否均匀;
    • 变量是否需要转换;
  • 探索性分析变量与target标签的关系;
    • 变量与标签是否存在相关性;
    • 变量与标签是否存在业务逻辑;
  • 探索性分析变量之间的关系;
    • 连续型变量与连续型变量;
      • 可视化:散点图、相关性热⼒图;
      • ⽪尔逊系数;
      • 互信息;
    • 离散变量与离散变量;
      • 可视化:柱状图、饼图、分组表;
      • 卡⽅检验;
    • 检查变量之间的正态性;
      • 直⽅图;
      • 箱线图;
      • Quantile-Quantile (QQ图);

原文获取方式如下:
贷款违约预测---Task2 数据分析