[Datawhale学习小组]_金融风控_Task1赛题理解
学习目标
先给自己定一个学习目标:
- 再锻炼锻炼分类建模的数据挖掘/代码/调参/可视化报告
- 很有正式的打过比赛,想尝试一下,积累经验
- 培养手感
赛题概况
数据概况
- 数据量 超过120w,包含47个特征,其中15个事匿名变量。80w作为训练集,20w作为测试集A,20w作为测试集B。一些信息进行了脱敏(没有变量名)
预测指标
采用AUC 作为评价指标
- ROC曲线:True Positive Rate(TPR) v.s. False Positive Rate (FPR)
- 如果 R O C A ROC_A ROCA 完全包住 R O C B ROC_B ROCB,说明A的性能优于B(相同的FPR下,A的TPR更高)
- 两条线发生交叉,就没有办法直接比较,所以用AUC
对于金融风控预测常见的评估指标
-
KS统计量
-
定义:KS统计量是指通过衡量好坏样本累计分布之间的差值,来评估模型的风险区分能力。
-
KS曲线又叫洛伦兹曲线。以TPR和FPR分别作为纵轴,以阈值作为横轴,画出两条曲线。KS曲线则是两条曲线的在每一个阈值下的差值。
-
K S = m a x ( T P R − F P R ) KS = max(TPR - FPR) KS=max(TPR−FPR)
-
KS不同代表的不同情况,一般情况KS值越大,模型的区分能力越强,但是也不是越大模型效果就越好,如果KS过大,模型可能存在异常,所以当KS值过高可能需要检查模型是否过拟合。
KS 鉴别能力 <0.2 模型无鉴别能力 0.2-0.4之间 模型勉强接受 0.41-0.5之间 模型具有区别能力 0.51-0.6之间 模型有很好的区别能力 0.61-0.75之间 模型有非常好的区别能力 KS>0.75 模型异常,很有可能有问题。 -
转载:https://blog.****.net/qq_34535319/article/details/100032154
- ROC
- AUC