一、赛题理解

比赛地址：https://tianchi.aliyun.com/s/88d2efb10daf79a9aa69f9a79db4107d

这一次新人赛的题目以金融风控中的个人信贷为背景，给所给的47列特征中，根据贷款申请人的数据信息预测其是否有违约的可能，以此判断是否通过贷款。
这本质上是一个多分类问题，最简单的方法就是直接用单线性模型，因为之前的一些比赛经历，线性模型在多分类问题上有着不错的效果。进行优劣比较后，再利用集成学习，对一些比较好的模型进行融合。
预测指标：
1. C o n f u s e Confuse Confuse M a t r i x Matrix Matrix 混淆矩阵
  
  对于一个二分类问题而言，混淆矩阵是一个 2 × 2 2\times 2 2×2的矩阵，分别由真正例 T P TP TP、真反例 T N TN TN、假正例 F T FT FT和假反例 F N FN FN构成.
  
  而对于一个多分类模型，混淆矩阵更多反映的是真实的类别，被预测为其他类别的个数形成的矩阵。对于一个 m m m分类问题，它的混淆矩阵是一个 m m m阶 ( m × m ) (m\times m) (m×m)方阵.
由此，我们可以在混淆矩阵的基础上，得到一些常见的模型评估指标：
1. 准确率 A c c Acc Acc: A c c u r a c y Accuracy Accuracy
  
  准确率反映了所有预测准确的样本，占所有样本的比例。但是这个指标不适合样本不均衡的样本，因为万一一个训练集的所有正例就是 98 % 98\% 98%,而一个模型我们将其定义为，所有样本都分为正例，那么显然这个模型是一个偷懒模型，他是没有工作的。
  
  A c c u r a c y = T P + T N T P + T N + F P + F N Accuracy=\frac{TP+TN}{TP+TN+FP+FN} Accuracy=TP+TN+FP+FNTP+TN
2. 查准率 P r e c i s i o n Precision Precision:
  
  查准率反映了这个模型，对于所有预测为正例中多少是对的，所以我们把它定义为
  
  P = T P T P + T N P = \frac{TP}{TP+TN} P=TP+TNTP
3. 查全率 R e c a l l Recall Recall
  
  查全率反映了一个模型，对所有预测为正例的样本中，占所有预测准确的样本的比例，所以
  
  R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP
4. F 1 − S c o r e F1-Score F1−Score
  
  由于查全率与查准率之间是互相制约的，所以要想查准率高，就势必会牺牲查全率，反之亦然，所以我们提出将两者合并的一个指标，权衡一个模型这两方面的性能：
  
  F 1 = 2 1 P + 1 R F1=\frac{2}{\frac{1}{P}+\frac{1}{R}} F1=P1+R12
5. P − R P-R P−R曲线
  
  在不同阈值下将模型的查全率和查准率绘制到一个二维坐标系下，并用光滑曲线将他们连起来，这种曲线称为 P − R P-R P−R曲线.
6. R O C ROC ROC与 A U C AUC AUC
  
  首先我们重新构造两个评价指标，
  
  T P R TPR TPR：在所有实际为正例的样本中，被正确地判断为正例之比率，即
  
  T P R = T P T P + F N TPR=\frac{TP}{TP+FN} TPR=TP+FNTP
  
  F P R FPR FPR:在所有实际为负例的样本中，被错误地判断为正例之比率,即
  
  F P R = F P F P + T N FPR=\frac{FP}{FP+TN} FPR=FP+TNFP
  
  将 T P R TPR TPR与 F P R FPR FPR描在二维平面上，最终对不同阈值进行连接，该曲线为 R O C ROC ROC曲线，越贴近左上角，说明该模型效果越好。
  
  而 R O C ROC ROC曲线的右下方的面积成为 A U C AUC AUC,显然这个面积的数值不会大于1。又由于 R O C ROC ROC曲线一般都处于 y = x y=x y=x这条直线的上方，所以 A U C AUC AUC的取值范围在0.5和1之间。 A U C AUC AUC越接近1.0，检测方法真实性越高;等于0.5时，则真实性最低，无应用价值。
- 金融风控环境下的预测指标—— K S KS KS曲线
  
  K − S K-S K−S曲线将真正例率和假正例率都作为纵轴，横轴则由选定的阈值来充当.
  
  K − S = m a x ( T P R − F P R ) K-S=max(TPR-FPR) K−S=max(TPR−FPR)
  - K S KS KS不同代表的不同情况，一般情况 K S KS KS值越大，模型区分能力越强，但是也不是越大模型效果就越好，如果 K S KS KS过大，模型可能存在异常，所以当 K S KS KS值过高可能需要检查模型是否过拟合。以下为KS值对应的模型情况但此对应不是唯一的，只代表大致趋势。
  - K S < 0.2 KS<0.2 KS<0.2,一般认为模型没有区分能力;
  - K S ∈ [ 0.2 , 0.3 ] KS\in [0.2,0.3] KS∈[0.2,0.3]:模型具有一定区分能力，勉强可以接受;
  - K S ∈ [ 0.3 , 0.5 ] KS\in [0.3,0.5] KS∈[0.3,0.5]:模型具有较强的区分能力;
  - K S > 0.75 KS>0.75 KS>0.75:往往表示模型有异常.

金融风控数据挖掘 · Task 1 赛题理解与评分规则

金融风控数据挖掘 · Task 1 赛题理解与评分规则

一、赛题理解

相关推荐