零基础入门金融风控-贷款违约预测之TASK1_赛题理解
赛题以预测用户贷款是否违约为任务,根据借款人的数据信息预测其违约概率,提交结果为每个测试样本是1的概率。评价方法为AUC评估模型效果(越大越好)。
赛题链接:https://tianchi.aliyun.com/competition/entrance/531830/information
1、数据概况
数据包含47列变量信息,其中15列为匿名变量,总数据量超过120w,为了保证比赛的公平性,将从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。
针对现有的借款人未匿名数据信息,初步理解主要包括以下几个方面的信息:现有贷款基本信息、信贷额度相关信息、个人基本信息、个人资产负债信息、外部征信数据等。我们将利用这些数据来衡量借款人的偿还能力和还款意愿,预测违约概率。
2、评价标准——AUC
针对二分类问题,
TP:代表实际是正样本,预测成正样本的样本数。
FN:代表实际是正样本,预测成负样本的样本数。
TN:代表实际是负样本,预测成负样本的样本数。
FP:代表实际是负样本,预测成正样本的样本数。
设定X轴为假正率(FPR),即FP/(FP+TN),表示负样本中预测错了(预测成了正样本)的占比;设定Y轴为真正率(TPR),即TP/(TP+FN),表示正样本中预测对了(预测成了正样本)的占比。
模型预测的是概率值,将所有样本的预测值由大到小排序,可将每个预测值依次作为阈值,每一个阈值对应一个由假正率和真正率构成的点,当阈值变化时,点的位置相应变化,将所有点连接即构成了ROC曲线,AUC即ROC曲线以下与X轴围成的面积。真正率越大,假正率越小即越好。AUC也可以理解为对于任意一对正负样本,模型将正样本预测为正的可能性大于将负样本预测为正的可能性的概率。
AUC取值一般介于0.5-1,AUC越接近于1,效果越好。AUC=0.5时,说明该模型与随机分类模型效果一样。
AUC相比于准确率、精确率、召回率、F1 Score等依赖于某个较佳阈值的指标,其直接使用模型预测的概率值本身,不会受到因阈值选择不同而判定类别结果不同的影响,相对更加稳健。另外,AUC对正负样本的比例不敏感,当样本极端不平衡时,AUC依然能够做出合理的评价。
3、扩展知识——评分卡
简单来说,评分卡就是一张有分数刻度和相应阈值的表。针对任一客户,均能根据其个人相关信息得到对应的评分。
针对整个贷款流程,有不同的评分卡。如贷前:申请评分卡,用于预测客户的还款能力及还款意愿;欺诈评分卡,用于预测客户的借款目的的不正当程度。贷中:行为评分卡,用于动态调整客户贷款期间的额度;客户流失预警评分卡,用于预测存量客户未来流失的概率;贷后:催收评分卡,通过催收评分对不同的客户制定不同的贷后管理策略。