机器学习之零基础入门金融风控---贷款违约挑战赛(数据分析)

机器学习之零基础入门金融风控—贷款违约挑战赛
比赛链接见上一篇贷款违约挑战赛赛题理解

一、本期目标

  1. 数据总体了解:
    a. 读取数据集并了解数据集大小,原始特征维度;
    b. 通过info熟悉数据类型;
    c. 粗略查看数据集中各特征基本统计量;
  2. 缺失值和唯一值:
    a. 查看数据缺失值情况b. 查看唯一值特征情况
  3. 深入数据-查看数据类型
    a. 类别型数据
    b. 数值型数据
    离散数值型数据
    连续数值型数据
  4. 数据间相关关系
    a. 特征和特征之间关系
    b. 特征和目标变量之间关系
  5. 用pandas_profiling生成数据报告#

二、针对特征数据进行分析

我的数据分析代码是在Anaconda上跑的,绘制图形非常方便:

机器学习之零基础入门金融风控---贷款违约挑战赛(数据分析)

分析特征发现违约与不违约的用户,在工作年限、信用等级、债务比、年收入、delinquency_2years、公共记录没有明显的关联
机器学习之零基础入门金融风控---贷款违约挑战赛(数据分析)
接下来提取n0~n14的特征进行观察:违约与不违约用户的分布规律差异不大,如下是n9/n10的数据分布:
机器学习之零基础入门金融风控---贷款违约挑战赛(数据分析)
到这里个人感觉先补充缺失值、消除异常值后交给模型来解决吧!