金融风控数据挖掘 · Task 1 赛题理解与评分规则
金融风控数据挖掘 · Task 1 赛题理解与评分规则
一、赛题理解
比赛地址:https://tianchi.aliyun.com/s/88d2efb10daf79a9aa69f9a79db4107d
-
这一次新人赛的题目以金融风控中的个人信贷为背景,给所给的47列特征中,根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过贷款。
-
这本质上是一个多分类问题,最简单的方法就是直接用单线性模型,因为之前的一些比赛经历,线性模型在多分类问题上有着不错的效果。进行优劣比较后,再利用集成学习,对一些比较好的模型进行融合。
-
预测指标:
-
C o n f u s e Confuse Confuse M a t r i x Matrix Matrix 混淆矩阵
对于一个二分类问题而言,混淆矩阵是一个 2 × 2 2\times 2 2×2的矩阵,分别由真正例 T P TP TP、真反例 T N TN TN、假正例 F T FT FT和假反例 F N FN FN构成.
而对于一个多分类模型,混淆矩阵更多反映的是真实的类别,被预测为其他类别的个数形成的矩阵。对于一个 m m m分类问题,它的混淆矩阵是一个 m m m阶 ( m × m ) (m\times m) (m×m)方阵.
由此,我们可以在混淆矩阵的基础上,得到一些常见的模型评估指标:
-
准确率 A c c Acc Acc: A c c u r a c y Accuracy Accuracy
准确率反映了所有预测准确的样本,占所有样本的比例。但是这个指标不适合样本不均衡的样本,因为万一一个训练集的所有正例就是 98 % 98\% 98%,而一个模型我们将其定义为,所有样本都分为正例,那么显然这个模型是一个偷懒模型,他是没有工作的。
A c c u r a c y = T P + T N T P + T N + F P + F N Accuracy=\frac{TP+TN}{TP+TN+FP+FN} Accuracy=TP+TN+FP+FNTP+TN
-
查准率 P r e c i s i o n Precision Precision:
查准率反映了这个模型,对于所有预测为正例中多少是对的,所以我们把它定义为
P = T P T P + T N P = \frac{TP}{TP+TN} P=TP+TNTP
-
查全率 R e c a l l Recall Recall
查全率反映了一个模型,对所有预测为正例的样本中,占所有预测准确的样本的比例,所以
R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP
-
F 1 − S c o r e F1-Score F1−Score
由于查全率与查准率之间是互相制约的,所以要想查准率高,就势必会牺牲查全率,反之亦然,所以我们提出将两者合并的一个指标,权衡一个模型这两方面的性能:
F 1 = 2 1 P + 1 R F1=\frac{2}{\frac{1}{P}+\frac{1}{R}} F1=P1+R12
-
P − R P-R P−R曲线
在不同阈值下将模型的查全率和查准率绘制到一个二维坐标系下,并用光滑曲线将他们连起来,这种曲线称为 P − R P-R P−R曲线.
-
R O C ROC ROC与 A U C AUC AUC
首先我们重新构造两个评价指标,
T P R TPR TPR:在所有实际为正例的样本中,被正确地判断为正例之比率,即
T P R = T P T P + F N TPR=\frac{TP}{TP+FN} TPR=TP+FNTP
F P R FPR FPR:在所有实际为负例的样本中,被错误地判断为正例之比率,即
F P R = F P F P + T N FPR=\frac{FP}{FP+TN} FPR=FP+TNFP
将 T P R TPR TPR与 F P R FPR FPR描在二维平面上,最终对不同阈值进行连接,该曲线为 R O C ROC ROC曲线,越贴近左上角,说明该模型效果越好。
而 R O C ROC ROC曲线的右下方的面积成为 A U C AUC AUC,显然这个面积的数值不会大于1。又由于 R O C ROC ROC曲线一般都处于 y = x y=x y=x这条直线的上方,所以 A U C AUC AUC的取值范围在0.5和1之间。 A U C AUC AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。
-
金融风控环境下的预测指标—— K S KS KS曲线
K − S K-S K−S曲线将真正例率和假正例率都作为纵轴,横轴则由选定的阈值来充当.
K − S = m a x ( T P R − F P R ) K-S=max(TPR-FPR) K−S=max(TPR−FPR)
- K S KS KS不同代表的不同情况,一般情况 K S KS KS值越大,模型区分能力越强,但是也不是越大模型效果就越好,如果 K S KS KS过大,模型可能存在异常,所以当 K S KS KS值过高可能需要检查模型是否过拟合。以下为KS值对应的模型情况但此对应不是唯一的,只代表大致趋势。
- K S < 0.2 KS<0.2 KS<0.2,一般认为模型没有区分能力;
- K S ∈ [ 0.2 , 0.3 ] KS\in [0.2,0.3] KS∈[0.2,0.3]:模型具有一定区分能力,勉强可以接受;
- K S ∈ [ 0.3 , 0.5 ] KS\in [0.3,0.5] KS∈[0.3,0.5]:模型具有较强的区分能力;
- K S > 0.75 KS>0.75 KS>0.75:往往表示模型有异常.
-