2016年的G20峰会正式发布了《G20数字普惠金融高级原则》,该报告认为数字金融服务与有效监管对缩小普惠金融差距至关重要。数字技术能够为无法获得金融服务的群体以能够负担的方式提供金融服务。同时,该原则鼓励新型数据(如电信及公共事业账单数据、电子钱包及电子货币使用数据、电子商务交易数据)在征信行业中的应用。
作为互金行业的大数据从业者,我认为新数字技术和新型数据精准破题了互联网金融大数据风控的两个核心课题,要想在互金风控领域有所建树,两者缺一不可。本文将着重阐述新数据在金融风控关键环节 - 反欺诈中的应用场景。
新数字技术广义上包括云计算,人工智能,程序化的模型规则,大数据整合分析平台以及各类提供基础支撑能力的开放平台等。
新型数据是指区别于传统金融机构在信贷审核过程中使用的征信类数据的补充数据类别。比如,移动互联网在塑造了全新的社会生活形态的同时,大量用户拥有了丰富的强时效性通信行为数据,社交行为数据和互联网行为数据等,这些数据都可以用作个人信用风险评估,为解决普惠金融之困提供了信息渠道、策略手段和创新思路。
风险管理重要的课题是解决信息不对称的问题,而欺诈行为的发生本身即是由于信息不对称造成的。目前在线营运的小贷平台主要面临的欺诈风险主要包括以下几类:
身份欺诈
身份欺诈是欺诈者最常用的手段,简单点说就是冒用他人身份,贷款申请资料中的主体和提交申请的主体不是同一个人。
防范身份欺诈的杀手锏当然是个体特征识别技术,比如率先应用的人脸识别,可以将用户的动态图像特征进行提取与公安系统留存照片库数据进行比对,在错误率十万分之一的情况下能够实现98%以上的准确率。
其他类似的手段还有虹膜识别和声纹识别,因为识别准确率,终端设备普及率以及基础样本数据储备率方面的原因,目前尚未形成规模应用,但应用场景依然可期。
问题库是一种比较有特色的方式,之前常见于互联网产品密保问题设计。在身份验证环节合适的问题设计,有效性也会非常的高。比如,利用近几个月的航旅数据可以要求申请者回答“最近一次乘坐飞机出行的目的地/始发地是哪里”,利用运营商数据可以让用户选择“上个月的账单总金额在哪个金额范围”,利用银行数据可以询问“某张信用卡的额度范围”等。根据掌握的申请者的实际数据情况,优选问题库中合适的问题组合可以将盗用身份者通过的概率降低。
团体欺诈
近几年互联网小贷平台如雨后春笋,风控水平不一,加之欺诈借贷造假、违约低成本,越来越多的中介机构、助贷机构参与到这个盛宴中来。团体反欺诈成为大数据风控的新课题。
其实,群体问题的突破点就在于识别群体行为,可以通过大数据建立实体关系网络。关系网络的建立可以简单的中心化拓扑,也可以复杂的去中心化,使用数据的数据范畴也有所区别。
简单的做法是使用贷款平台自身能够获取的和不断积累的数据,甚至可以打通多个平台的数据进行关联。网络拓扑可以将用户申请数据的各个具体值作为节点,然后通过属性种类进行关联。属性种类主要包括:
来自申请数据的姓名、身份证号、手机号、工作单位、单位电话、单位地址、联系人、家庭住址,家庭联系电话等
上网接入的IP地址,Cookie信息,mac地址
通过信息的关联和交叉比对,很容易会发现联系人之间的可疑关联、基本信息之间的相互矛盾等情况。
复杂一点的做法是需要用到第三方的数据。不仅包含上述简单做法提到的数据种类还包括各种其他关系:
来自不同借贷平台的数据
来自运营商的短信和语音通讯行为,结合常出入位置信息可以有效的标记家人、朋友、同事等通讯社交圈,自然也可以让团伙无所遁形
来自互联网的社交行为,是通讯圈的有效补充;网络浏览类别,是否经常查阅借贷申请攻略相关的资源。
移动地理位置轨迹信息,甚至是需要转换为坐标信息之后进行距离计算,发现坐标距离上相近的申请进件集合
这些数据的体量更大,维度更丰富,作假的成本也更高,挖掘的效果也会更突出,对一些申请信息做的天衣无缝的欺诈行为可以进行更有效的进行识别。
另外,家庭成员合作借贷,全家老小齐上阵,分头申请贷款,很容易造成平台的过度授信,也是某种意义上的团体欺诈行为,关系网络对于这种亲密关系的识别非常有帮助。
上述关系网络建立之后,可以立竿见影的实现三个功能:
团体欺诈关系网络识别,他们可能同处一隅,可能用相互关联的甚至是相互不符、矛盾的申请信息,可能有多人的联系网络闭环,有心型或三角型的网络拓扑结构,可能同时对多个平台进行申请等等明显的特征。
风险标识扩展,将已知的高危实体标识在关系网络的对应节点上,根据传播算法,可以预测无标记节点的风险概率,从而建立违约预测模型。
多头借贷,通过结合多个平台的申请信息,可以实时识别多头借贷的申请人在各家平台信息汇聚不足的情况下,申请用户移动终端借贷类APP装机量,装机时间,访问情况,甚至是短信服务提供商中关于借贷类短信的文本挖掘信息都是借贷情况评估的有效手段。
养卡欺诈
正所谓,道高一尺魔高一尺二,在风控策略与欺诈手段不断的较量过程中,成长的不仅仅是平台本身,欺诈者也在不断的钻研新的招数,从短平快逐渐转成长线作战 -- 养卡欺诈。
养卡是指申请人在获得整套的假身份信息之后,使用三个月甚至六个月的时间来将这个身份的各项数据培养成信用良好的正常申请人。养卡虽然提高了欺诈者的成本,但是对于借贷平台来讲依然是不小的风险。识别养卡行为难度很大,唯有不断的提高养卡者的成本来杜绝这种行为。可以利用这些数据来进行一些建模和规则的尝试:
电信入网时长,通话频率,上网频率,位置变换频率,手机号码对应终端变换频率,月账单金额
关系网络交叠重合程度,长周期多个手机卡的培养很容易产生通讯行为的无规则交叠
银行卡开卡时间,银行流水,刷卡消费金额,消费位置统计,消费类别统计,公用事业缴费统计
航空、铁路、公路出行次数
网络浏览行为模式,终端APP装机,激活,卸载频率
更重要的是延长以上这些数据的获取周期,至少在半年以上
小结
大数据的应用千变万化,在变的不仅仅是场景,新的数据类型也在不断的开放和涌现。借贷平台在持续的引入新型数据的同时,也要做好自身数据的积累和循环检测,不断的关联已经通过或放款的用户数据与新用户的申请数据,同样可以及早发现存量用户的隐藏风险和有效拒绝高危增量用户。
金融风控反欺诈是一项复杂的系统工程,数据的引入只是开端,如何更合理的分析和利用这些数据同样至关重要。携技术和数据的坚盾,做好充分的预案和缜密的部署,在实战中砥砺前行是当下金融科技借贷平台最好的选择。
版权声明
本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。
发表评论