贷款违约预测赛题理解

贷款违约预测赛题

赛题明显是个二分类问题,可能建立回归模型?判别贷款者是否会出现违约行为。

数据集中包含47个变量,其中32个有特征定义变量,15个匿名变量。

其中包含三个脱敏变量

赛题采用AUC作为评测指标,AUC是ROC曲线与x轴围城面积。ROC曲线横坐标为假正例率(FPR),纵坐标为正例率(TPR)。其中TPR定义为在所有实际为正例的样本中,被正确地判断为正例之比率。FPR定义为在所有实际为负例的样本中,被错误地判断为正例之比率。
贷款违约预测赛题理解

在模型中,我们需要设定不同的阈值score作为预测点分类判别标准。如设置score为0.6,若预测点概率值大于等于0.6,则判别为正类,设值为1,否则判别为负类设值为0。然后得到相应的TPR,FPR。通过设置不同的score,我们得到一系列的TPR与FPR值。将这些画成ROC曲线。

根据定义,当AUC等于一时,证明曲线过(0,1)点,因此模型存在一个score使得模型分类完美。当0.5<AUC<1,优于随机分类;AUC=0.5,等同于随机分类;AUC<0.5,差于随机分类。因此AUC越逼近于1,模型分类效果越好。

其中分类问题回归建模可参考https://blog.****.net/weixin_43630413/article/details/103504704