贷款违约预测-数据分析
- EDA价值主要在于熟悉了解整个数据集的基本情况(缺失值,异常值),对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模。
- 了解变量间的相互关系、变量与预测值之间的存在关系。
- 为特征工程做准备。
1.总体了解
-
查看数据集的样本个数和原始特征维度
训练集:(80w,47);测试集:(20w,47) -
通过info来查看空值情况;通过describe查看各个特征一些基本统计量
2.查看数据集中特征缺失值,唯一值等
-
查看缺失值并进一步查看缺失特征中缺失率大于50%的特征
22列有缺失值,且缺失率均小于50% -
具体查看缺失特征及缺失率
通过可视化nan值看出,缺失值比较多的是匿名特征及就业年限 -
查看训练集中特征属性只有一值的特征
policyCode只有一值
3.查看特征的数值类型和对象类型
-
注:1、特征一般都是由类别型特征和数值型特征组成。2、类别型特征有时具有非数值关系,有时也具有数值关系。比如‘grade’中的等级A,B,C等,是否只是单纯的分类,还是A优于其他要结合业务判断。3、数值型特征本是可以直接入模的,但往往风控人员要对其做分箱,转化为WOE编码进而做标准评分卡等操作。从模型效果上来看,特征分箱主要是为了降低变量的复杂性,减少变量噪音对模型的影响,提高自变量
和因变量的相关度。从而使模型更加稳定。 -
划分数值型变量中的连续变量和分类变量
连续变量33个,分类变量9个 -
数值类别型变量分析,通常观察类别出现的次数,若次数相差悬殊,则考虑是否需要进一步分析
-
数值连续型变量分析,通常观察每个特征的分布可视化图形,若不符合正态分布,则log后再观察
-
非数值型类别变量分析,通常观察类别出现的次数,若次数相差悬殊,则考虑是否需要进一步分析
变量分布可视化
- 类别型变量在不同y值上的分布
- 连续型变量在不同y值上的分布