做风控的你,GPS数据有没有这样用?

GPS数据是日常特征构建时极为重要的原始数据。我们可以从GPS数据中获得申请人的地理位置信息,从而通过对应城市的信用情况和申请人周围地理特征来建模。更多风控干货学习,关注【金科应用研院】,回复****,还可领资料礼包一份。

然而,在爬取GPS原始数据时,传输过来的通常是经纬度。因此,我们需要对申请人的经纬度进行处理,从而得到:

经纬度对应的省市区
经纬度周围的商业店铺情况

有一些付费的第三方API可以帮忙解决以上两个问题。但是,GPS数据的量通常都很大,这一笔费用并不划算。

并且,如果在大数据spark环境下,对GPS点进行一个一个query也是非常花时间的。

为了低成本且快速地解决GPS的地理对应问题,本文将会介绍两种GPS地址编码方法。它们是Geohash和Hexagon编码。

1、Geohash和Hexagon编码简介

Geohash和Hexagon都是地址编码。其中,Geohash是一个在地图上的四方格子,只要处于这个格子内部的GPS点,通过调包计算就可以得到格子的编码。

如图1所示,格子内部就是这个格子的Geohash编码。如果有格子的Geohash编码,想要转换成GPS经纬度也是非常方便的。简单的调包计算就可以得到格子中心点和四个角的GPS经纬度。做风控的你,GPS数据有没有这样用?图1:Geohash格子

Hexagon是在地图上的六边形格子。也是通过调包计算就可以得到Hexagon编码,有Hexagon编码则可以反向计算得到格子中心点和六个角的GPS经纬度。

2、Geohash和Hexagon的编码级别

Geohash和Hexagon这两个地图编码都是有级别的。如图二所示,7个低级别的Hexagon格子可以拼接成一个更高级别的格子。而Geohash的是四个低级别格子可以组成一个更高级的格子。
做风控的你,GPS数据有没有这样用?
图二:Hexagon格子

关于Geohash编码的级别和其对应的每个级别格子的面积大小如表1所示。

Geohash编码一共有8个级别,我们平时使用的是级别6,范围大概是方圆500米。如果是想要防范某个集体欺诈团伙可以使用级别7的格子编码。

表1:Geohash格子级别与面积对照表做风控的你,GPS数据有没有这样用?
Hexagon编码一共有15个级别。我们通常使用级别8,大概方圆700米的范围。如果想更精确些,可以使用级别9或者10。

表2:Hexagon格子级别与面积对照表做风控的你,GPS数据有没有这样用?

3、使用Geohash和Hexagon地址编码的优点总结

将GPS点转换成Geohash和Hexagon地址编码的优点:

1.可以极大减少call收费的地理数据API的次数。例如,有100个GPS点都处于一个Geohash级别6的格子里面。我们就可以只query一次收费的API,找到这个Geohash编码的地理信息。

2.更高速且效率地对GPS数据进行计算。例如,我们需要对1万个GPS点进行两两地距离计算。直接计算的话,计算量非常大的。如果是先将这1万个GPS点mapping到1百个Geohash格子上地话,再计算两个格子直接地距离,计算量就会大大下降。

因此,本质上,使用Geohash和Hexagon地址编码就是为了低成本和高速地对GPS点数据进行操作与计算。同时,我们也需要放弃一些精度。

以上,本文介绍了Geohash和Hexagon地址编码。在下一篇分享中,我会展示如何具体通过这两种编码进行高速,低成本地mapping出经纬度的各项数据。