金融信贷风控(一)——申请评分卡
互联网金融业申请评分卡介绍
申请评分卡的重要性和特性
评分卡:
- 以分数的形式来衡量风险几率
- 对未来一段时间内违约\逾期\失联概率的预测
- 通常分数越高越安全
- 申请环节:反欺诈评分卡,申请评分卡;监控环节:行为评分卡;逾期环节:催收评分卡
评分卡类型 | 含义 | 意义 |
---|---|---|
申请评分卡 | 用在申请环节,以者当日及过去的信息为基础预测未来放款后的逾期和违约概率。 | 用于风险控制(借贷生命周期的第一个关口)、营销(识别优质客户)、资本管理(可作为PD模型的一个因子) |
申请评分卡的特性
- 稳定性
- 还款能力和还款意愿在短期内不会发生剧变。当总体违约/逾期概率不变时,分数的分布也应该不变
- 区分性
- 违约人群和正常人群的分数应该有明显差异
- 预测能力
- 低分人群的违约率更高
- 评分和逾期概率等价
- 可以精准的反映违约/逾期概率,反之亦然
评分卡模型开发步骤
- 立项:确定应用场景、对象和目的
- 数据准备与预处理:账户、客群、内部/外部数据
- 模型构建
- 模型评估:区分度、预测性、平稳性
- 验证/审计:是否有计算错误、逻辑错误、业务错误
- 模型部署:从开发环境到生产环境、容量、并发度
- 模型监控:性能是否减弱,是否需要优化甚至重新开发
申请评分卡常用特征
- 个人信息:收入、年龄、性别
- 历史行为信息:历史逾期记录
- 负债信息:在本金融机构或者其他金融机构负债情况
- 消费能力:商品购买纪录,出境游,奢侈品消费
- 新兴数据:人际社交 网络足迹 出行 个人财务
非平衡样本问题的定义和解决方法
信用风险:正常用户远多于逾期/违约用户
流失风险:留存用户多于流失用户
平衡的定义:在金融评分数据领域中的负正样本比例在1:20内都算数据样本平衡。其他领域具体分析。
解决方法
一些阅读材料
干货|如何解决机器学习中数据不平衡问题
Comparison of balancing techniques for unbalanced datasets
python工具包 imbalance-learn
机器学习中非平衡数据处理
因为下采样会丢失信息,如何减少信息的损失呢?第一种方法叫做EasyEnsemble,利用模型融合的方法(Ensemble):多次下采样(放回采样,这样产生的训练集才相互独立)产生多个不同的训练集,进而训练多个不同的分类器,通过组合多个分类器的结果得到最终的结果。第二种方法叫做BalanceCascade,利用增量训练的思想(Boosting):先通过一次下采样产生训练集,训练一个分类器,对于那些分类正确的大众样本不放回,然后对这个更小的大众样本下采样产生训练集,训练第二个分类器,以此类推,最终组合所有分类器的结果得到最终结果。第三种方法是利用KNN试图挑选那些最具代表性的大众样本,叫做NearMiss,这类方法计算量很大,感兴趣的可以参考“Learning from Imbalanced Data”这篇综述的3.2.1节。