[Datawhale学习小组]_金融风控_Task1赛题理解

学习目标

先给自己定一个学习目标:

  1. 再锻炼锻炼分类建模的数据挖掘/代码/调参/可视化报告
  2. 很有正式的打过比赛,想尝试一下,积累经验
  3. 培养手感

赛题概况

数据概况

  • 数据量 超过120w,包含47个特征,其中15个事匿名变量。80w作为训练集,20w作为测试集A,20w作为测试集B。一些信息进行了脱敏(没有变量名)

预测指标

采用AUC 作为评价指标

  • ROC曲线:True Positive Rate(TPR) v.s. False Positive Rate (FPR)
  • 如果 R O C A ROC_A ROCA 完全包住 R O C B ROC_B ROCB,说明A的性能优于B(相同的FPR下,A的TPR更高)
  • 两条线发生交叉,就没有办法直接比较,所以用AUC

对于金融风控预测常见的评估指标

  1. KS统计量
    • 定义:KS统计量是指通过衡量好坏样本累计分布之间的差值,来评估模型的风险区分能力。

    • KS曲线又叫洛伦兹曲线。以TPR和FPR分别作为纵轴,以阈值作为横轴,画出两条曲线。KS曲线则是两条曲线的在每一个阈值下的差值。
      [Datawhale学习小组]_金融风控_Task1赛题理解

    • K S = m a x ( T P R − F P R ) KS = max(TPR - FPR) KS=max(TPRFPR)

    • KS不同代表的不同情况,一般情况KS值越大,模型的区分能力越强,但是也不是越大模型效果就越好,如果KS过大,模型可能存在异常,所以当KS值过高可能需要检查模型是否过拟合。

    KS 鉴别能力
    <0.2 模型无鉴别能力
    0.2-0.4之间 模型勉强接受
    0.41-0.5之间 模型具有区别能力
    0.51-0.6之间 模型有很好的区别能力
    0.61-0.75之间 模型有非常好的区别能力
    KS>0.75 模型异常,很有可能有问题。

转载:https://blog.****.net/qq_34535319/article/details/100032154

  1. ROC
  2. AUC

导入数据

分类指标评价计算示例