评分卡的建立方法——分箱、WOE、IV、分值分配

本文主要讲“变量选择”“模型开发”“评分卡创建和刻度”

变量分析

首先，需要确定变量之间是否存在共线性，若存在高度相关性，只需保存最稳定、预测能力最高的那个。需要通过 VIF(variance inflation factor）也就是方差膨胀因子进行检验。
变量分为连续变量和分类变量。在评分卡建模中，变量分箱（binning）是对连续变量离散化（discretization）的一种称呼。要将logistic模型转换为标准评分卡的形式，这一环节是必须完成的。信用评分卡开发中一般有常用的等距分段、等深分段、最优分段。

单因子分析，用来检测各变量的预测强度，方法为WOE、IV；

WOE

WOE(weight of Evidence)字面意思证据权重，对分箱后的每组进行。假设good为好客户（未违约），bad为坏客户（违约）。

WOEi=ln(pgoodpbad)=ln(good占比bad占比)=ln(#goodi#goodT#badi#badT)

#good(i)表示每组中标签为good的数量，#good(T)为good的总数量；bad相同。

IV

IV(information value)衡量的是某一个变量的信息量，公式如下：

IV=∑i=1N(good占比−bad占比)∗WOEi

N为分组的组数；
IV可用来表示一个变量的预测能力。

IV	预测能力
<0.03	无预测能力
0.03~0.09	低
0.1~0.29	中
0.3~0.49	高
>=0.5	极高

根据IV值来调整分箱结构并重新计算WOE和IV，直到IV达到最大值，此时的分箱效果最好。

分组一般原则

组间差异大
组内差异小
每组占比不低于5%
必须有好、坏两种分类

举例说明

例如按年龄分组，一般进行分箱，我们都喜欢按照少年、青年、中年、老年几大类进行分组，但效果真的不一定好：

Age	good	bad	WOE
<18	50	40	ln(50/33040/220)=−0.182321556793955


18~30	100	60	ln(100/33060/220)=0.105360515657826


30~60	100	80	ln(100/33080/220)=−0.182321556793955


>60	80	40	ln(80/33040/220)=0.287682072451781


ALL	330	220

IV=(50330−40220)∗ln(50/33040/220)+(100330−60220)∗ln(100/33060/220)+(100330−80220)∗ln(100/33080/220)+(80330−40220)∗ln(80/33040/220)=0.0372027069982804

根据IV值可以看出，预测能力低，建议重新调整分箱。

建立模型

先进行数据划分，一般70%训练集、30%测试集。训练集用于训练模型，测试集用于检测训练后的模型。
一般采用Logistic Regression建立模型，训练模型。将建好的模型对待测样本进行预测。
评分卡的建立方法——分箱、WOE、IV、分值分配

评分卡

评分卡计算方法

odds为good用户概率（p）与bad用户概率（1-p）的比值。

odds=p1−p

评分卡设定的分值刻度可以通过将分值表示为比率对数的现行表达式来定义。公式如下：

score总=A+B∗ln(odds)

注：若odds是坏客户概率好客户概率，odds应取倒数，再经过ln转换则B前面是减号。所以有的地方此公式B前为负号。

设置比率为θ0

（也就是odds）的特定点分值为P0，比率为2θ0的点的分值为P0+PDO

。带入上面公式可得到：

{P0P0+PDO=A+Bln(θ0)=A+Bln(2θ0)

求解上述公式，可以得到A、B值：

{BA=PDOln2=P0−Bln(θ0)

和 PDO 的值都是已知常数，可计算出A、B值带入score公式，得到不同θ0下的评分卡分值。
而θ0也就是odds，可由Logistic Regression模型评估的结果 p

计算得到。
到这个地方，一个样本的评分结果已经计算得到。

分值分配

在实际的应用中，我们会计算出每个变量的各分箱对应的分值。新用户产生时，对应到每个分箱的值，将这些值相加，最后加上初始基础分，得到最终的结果。
如果用户某个变量发生改变，由一个分箱变成另一个，只需将更新后所在分箱的值做替换，再重新相加即可得到新的总分。

我们都知道，假设模型结果为p，根据Logistic Regression计算公式有：

p=11+e−θTx

经过转换得到

ln(p1−p)=θTx

所以

score总=A+B∗(θTx)=A+B∗(w0+w1x1+···+wnxn)=(A+B∗w0)+B∗w1x1+···+B∗wnxn

这里w1,w2,...,wn是Logistic Regression中的x1,x2,...,xn的系数。
(A+B∗w0)为基础分数，B∗w1x1,···,B∗wnxn为每个变量对应分配到的分数。

之前步骤中每个变量都有进行分箱操作，分为若干类。所以下一步的话，把每个变量对应的分数，分别乘以变量中每个分箱的WOE，得到每个分箱的评分结果。

变量	分箱类别	分值
基础分数	-	(A+B∗w0)

1
2
…
i

(B∗w1)∗WOE11

(B∗w1)∗WOE12
···
(B∗w1)∗WOE1i

1
2
…
j

(B∗w2)∗WOE21

(B∗w2)∗WOE22
···
(B∗w2)∗WOE2j


···	···	···
xn

1
2
…
k

(B∗wn)∗WOEn1

(B∗wn)∗WOEn2
···
(B∗wn)∗WOEnk

以上步骤都完成后，假如新产生一个用户，我们只需将此用户每个变量对应到各分箱中得到其对应的WOE值，再根据上面的公式计算出这个样本在每个变量下的分数。最后将所有变量对应的分数相加，即为最终评分结果。

最后说一下，特征选择方面，并不是维度越多越好。一个评分卡中，一般不超过15个维度。可根据Logistic Regression模型系数来确定每个变量的权重，保留权重高的变量。相关系数大于0.7的变量一般只保留一个。