外部数据源的使用汇总

     关注 “番茄风控大数据”,获取更多数据分析与风控大数据的实用干货。

数据征信成本已经成为成为一家公司重大的费用支出,我们先看一份笔者之前从事过的一个现金贷的业务,也是在当时刚起步的项目,因为刚起步所以接入的数据源不多,那自然所用的费用也不多,也算是在该项目的所有的流程中最便宜的一次费用了:

 

外部数据源的使用汇总

 

从上面的数据,可以看出来,一个客户所有全查到数据的情况下,所花费的费用是九块五。九块五是什么概念,是非常便宜的数据费用。因为在正常的线上贷款公司而言,需要核查一家公司从线上到获客有效的整条产业链中,需要花费的费用大概就是20-50元的范围。

 

据笔者了解到,单单征信成本就占到整个金融公司的2%-5%的费用支出。征信成本太高,加上公司本来固定的运营成本、资金成本、人力成本各种乱七八糟的费用,一个产品的利息不达到24%以上,更有一些短期现金贷公司直到36%或以上,才能盈利,否则根本不赚钱了。

 

也基于这样的业务的逻辑催生出那么多的高利率的产品。征信成本太高了,也是目前整个行业的通病。

 

目前也因为征信成本过高,长期居高不下,每家公司在竞争角力上也一直在考虑如何优化相关的征信费用,毕竟利润已经有限,优化征信成本已经是必须要调整的内容。

 

想了解如何优化目前的数据源,进一步思考,追源溯本,就该深入了解目前所用能用的数据。只有对比完相关的数据源才能了解这些数据是否属于同质性的数据,源头的数据是否雷同或者相似,是否互相能取代,只有一个一个地了解熟悉,才能知道哪些可以交互和取代。

 

从今天开始的系列开始,我们将会对这些外部征信数据源,进行分析:

外部数据源的使用汇总

本系列的文章将分为几个部分为各位读者梳理目前市面上,常见的数据源,我们先从最常用的几个数据源开始梳理:

 

 

TongDun

 

TongDun的数据无疑是目前市面上最能查到最全面的数据源了,因为他们家做数据产品相对较早。所以数据覆盖率,在所有的数据厂家中最高的。但查得率是一回事,准确率是另外一回事。因为目前很多三方数据,其实都是无法考究真实性的。

 

央行征信数据,权威、真实、合规,这些都是三方数据都无法比拟的,难怪说实名上的数据之分两种,一种是央行征信数据,另一种就是第三方,无论第三方征信数据里的第三方有多大。

 

比如对于银行的大部分客群而言,银行间只查询银行间的数据,很少或者较少会查询非银机构的数据情况。因为非银机构的数据如何考究真伪就是个很重要的问题。但也不是每一家银行对待三方数据的角度都一样。从数据的参考来看,有些冒进些的银行会加大对第三方数据的使用,但也仅仅是对方必须也同样是持牌,受监管的单位。

相对地,非银机构也是类似。一位客户之前在小贷中申请过产品,在银行间的数据中是非常好的客户标签,但是等到去非银机构的时候,去发现该客户的借款行为已经是强苍百孔。

 

回到tongdun的征信数据本身,其征信接口是通过身份证和手机号码所对应的内容,便能反馈到具体用户的风险情况了,详情如下:

 

外部数据源的使用汇总

 

再介绍以上相关的数据维度的之前,我们先介绍一个权重分的概念。

 

 

权重分

 

目前世面上所涉及到规则的使用情况,对于某些规则比如命中多头或者黑名单类的强规则,我们一般不会一条规则名字就直接拒绝,一般会将每条规则赋予一个权重分。

 

同样的,如果权重分的累加大于某个值之后,才会真正去拒绝该客户,那权重分该怎么赋分?

 

如果一般有贷后数据的就参考贷后数据,这个之前在我们的文章有提及(传送门:重磅分享--基于违约概率跟odds的经验评分),而如果是新产品或者新的业务,没有具体的数据,就参考业内的方法,比如我们以身份证命中规则,整理汇总,情况如下:

 

身份证负面情况:

 

外部数据源的使用汇总

 

 

1.在强规则中第一梯队的规则,其权重占比也最高:

 

外部数据源的使用汇总

 

身份证格式校验错误

身份格式有误是在所有规则中权重排序最高的规则,因为格式有误证明该身份证持有人身份无法识别,证明该身份证信息连信息都无法查找,所以需要重新拒绝进件。

 

身份证命中欠款公司法人代表名单

欠款法人有重大负债,已经无法再继续经营项目,其他几条在这里的权重排位大致相同,就不明细

 

2.再继续分析第二梯队的身份证信息数据

外部数据源的使用汇总

 

存在欠费信息而且没有尝还,所以也跟第1级想类似,当然稍对比对应的权重仍弱于第一梯队的规则

 

3.第三梯队,涉及到较高风险,所以也是算较高风险的客群

 

外部数据源的使用汇总

 

4.较低风险的客群,对应如下:

 

外部数据源的使用汇总

 

这里的得分情况为稍微最低,因为最低的得分不太有相关的金融属性,所以所占权重比相对较低

 

在梳理相关的权重的时候,我们能按照这样的逻辑思路梳理:

身份证>手机号码>其他联系方式>联系人>测试数据

 

下面再展开的这些项,大概也是按照这样的方式进行梳理,请看——

 

二.我们继续分析手机号跟其他内容的信息如下,手机号负面:

 

外部数据源的使用汇总

 

 

三.座机/QQ号/邮箱负面

 

外部数据源的使用汇总

 

 

四.其他类负面

外部数据源的使用汇总

 

五.关联信息:

外部数据源的使用汇总

 

六.联系人近亲黑名单

外部数据源的使用汇总

 

七.联系人一般身份黑名单

外部数据源的使用汇总

 

八.其他类风险:

外部数据源的使用汇总

 

九.多次申请风险:

 

外部数据源的使用汇总

 

十.申请人关联信息过多:

 

外部数据源的使用汇总

 

十一.  测试类与预先埋伏类:

 外部数据源的使用汇总

 

外部数据源的使用汇总

 

最后关于这份数据,会上传到知识星球上,请有需要的学习的同学自行下载这份最全面的数据,谢谢。

 

 

外部数据源的使用汇总

报名星球请添加小番微信,备注下行业+风控从业模块,谢谢您!

外部数据源的使用汇总

番茄学院管理员:小番
备注请填写行业岗位,谢谢啦!