
《金卡生活》杂志
中国银联 主管主办
理论研究 实务探讨
长按二维码关注我们
作者供职于上海承泰信息技术有限公司
大数据:I'M BIG,I'M QUICK!
数据作为一种资源,单个的存在很难体现其拥有什么价值,而作为一只由无数数据信息聚合而成的Big data,它所拥有的就不只是“大”而是有用又灵活。简单地说就是小数据时代随机采样,大数据时代用数据说话、凭数据决策。
在不断释放创新技术的当下,“大数据”作为一个术语的身份显得尤为漫长,人们将它渐次比喻为信息时代的“石油”“金矿”“土壤”,将它的独特公之于世。它以数据库和后台分析为根基,即便身形庞大,它也能轻松地将身形化于无形,只要在你需要的时刻,它会从“沉睡”中苏醒,用它壮大的“身躯”以迅雷不及掩耳的速度为你“奔跑”。
大数据的概念时代已经进入尾声,作为商业基础设施的各类信息来源,无论是“无纸化”时代的开启,还是金融风控的应用,以及征信行业的大踏步,都向世人昭示着大数据已然迎来了一个掷地有声的落地阶段。
数字化时代的数据量非常大,大得就像动物世界的一头大象,而这头“大象”却偏要迎风奔跑,它好像想用行动告知天下:I'm big,i'm quick!
——编者按
“囚徒困境”下的数据孤岛
如今制约大数据产业发展的一个重要瓶颈就是数据孤岛。一方面,数据可以看作企业或者机构自有资产的一部分,在没有预期利益的场景下,企业或机构并不愿意拿出数据;另一方面,数据中可能包含着企业或者个人的隐私信息,出于隐私保护考虑,企业往往对分享、使用数据持保守的态度。
以个人征信数据为例,中国人民银行征信系统已收录8.7亿自然人,但其中仅有3.7亿人有信贷记录,并且仅仅覆盖了传统金融信贷产品。近几年,随着互联网金融行业的快速发展,个人征信信息也成为了互联网小额贷、消费贷或P2P产品开展业务、风险控制的重要参考。目前中国人民银行征信系统对小贷公司、融资性担保公司并不完全开放,这些公司只能转为线下实地调查,获得一个借款人信用数据的成本为100元至200元。中国人民银行的征信数据不能获取、借款人自己拿来的征信报告可信度存疑、自己组建团队线下调查获取信用数据成本居高不下,于是在获取借款人信用的环节,出现了一条征信代查的灰色产业链。银行工作人员利用职务之便帮助*款贷**平台查询借款人的中国人民银行征信报告,这样的操作虽然提高了放贷效率,降低了调查成本,但是由于缺乏规范的管理,代查过程中极易造成借款人信息泄露,甚至有不法人员将个人信息进行买卖甚至冒名申请信用卡等违法行为,造成金融诈骗。
其次,征信平台之间数据不共享、不流通也是造成现在互联网金融“一人多贷”问题的根本原因。用户借新还旧、借东墙补西墙,窟窿越补越大,导致最后无法偿还借款。据有关数据显示,小额现金类*款贷**的共债比例已经超过60%,部分平台甚至达到80%。但是用户行为、信用数据对任何一个平台而言都取之不易,各方都想尽可能多维度、海量地收集数据以获得竞争优势,能够共享他人信息而独享自身掌握的信息,这也导致了如今国内个人征信市场“囚徒困境”的竞争格局。
突破数据共享的技术壁垒
美国有着完善的信用信息共享体制,对我国个人征信市场发展有示范作用。在美国,征信公司能够收集和汇总全面的个人信用信息,因其有完善的法律体系来规范保障,个人任何正负面数据都能做到企业之间共享,征信业内基本不存在“信息孤岛”的情况。特别是随着互联网等现代信息技术的大量应用,征信公司能够方便、及时地为银行提供信用信息和相关的信用报告,从而大大减少了银行的授信成本。信用信息的共享能够促进信用资源的优化配置,一方面,使信用资源向信用状态好的企业和个人集中;另一方面,对失信者具有惩戒效应。
为解决国内互联网征信、风控行业的数据孤岛问题,玛娜金科以大数据存储、分析以及云计算技术开发的企业级建模平台,旨在突破数据共享的技术壁垒。企业级建模平台(Enterprise Model Builder)是一个以企业共享数据为基础、建立信用评分卡模型、输出个人信用分产品的云计算平台。
信用评分卡(Scorecard)模型是在信用风险评估以及金融风险控制等领域广泛应用的预测模型。从二十世纪发展开始,现在的信用评分卡理论、技术以及应用都已十分成熟。在美国,每个借款人的信贷报告上都会有一个FICO分,这个FICO分就是通过信用评分卡模型得出的。个人信用评分是预测*款贷**申请人违约可能性的一种统计方法,其基本原理是借由分析技术、由过去的数据来研发能预测未来授信客户表现的分数,其假设在授信审核时有一些已知的客户特性,会与授信客户未来是否准时还款有关联,一旦找出这些关联性,在假设未来情况会与过去相类似的情形下,可以套用现在的数据,作未来的预测。利用信用评分进行决策,可以实现审批过程自动化,节省信贷审批时间,提高审批效率;依赖于客观数据作决策,可以减少*款贷**审批过程中的主观性;此外,模型中变量的修改可以将借款人的多方面影响因素考虑在内。信用分数的范围一般介于500-800之间,分数越高,说明借款人的信用风险越小,将来逾期、违约的概率越低;相反,分数相对较低时,*款贷**方会慎重考虑是否发放*款贷**,或者要求增加担保。图1为美国P2P公司LendingClub的违约率与FICO评分的分布关系,真实的数据反映出随着FICO评分的升高违约率越来越低。
图1 信用分与违约率

图2 评分卡建模过程

为评分卡模型建立做准备,数据获取、整合与存储是最基础的步骤。在数据获取过程中,企业级建模平台(EMB)使得机构可以在一个安全的环境下共享变量,创建评分卡模型。一方面对于个人身份证、手机号或其他敏感信息会采用哈希算法进行加密;另一方面,所有原始数据会被转换为只包含数学和统计特征的新序列,隐藏掉了所包含的敏感的物理特征。在数据整合过程中,所有结构化数据(可以用二维表结构来逻辑表达实现的数据)和非结构化数据(文本、图片、语音等无法用数字或统一结构表示的数据)会以键值对的形式,分布式存储于NoSQL数据库中。
图3 数据抽取、映射、加载过程

数据准备完成的下一步便进入变量选择、建立模型的过程。在现如今的大数据风控应用中,信用分除了包括传统金融交易、还款数据之外,第三方的非金融数据、移动互联网行为数据、社交网络数据等更多维度的数据被作为变量包含在内。企业级建模平台的变量共享,使得各个机构之间能够共享自有的数据,更全面、更合理地从多个方面考察个体的信用风险。
在处理模型变量时通常采用WOE(Weight of Evidence)编码方式来提取变量信息,反映变量取某个值的时候对违约比例的一种影响。WOE转化后的变量可以提升模型的预测效果,提高模型的可理解性。WOE编码之后,自变量其实具备了某种标准化的性质,也就是说,自变量内部的各个取值之间都可以直接进行比较(WOE之间的比较),而不同自变量之间的各种取值也可以通过WOE进行直接的比较。
图4 评分卡建模过程

模型建立的基本原理是,以历史违约情况和个人特征数据来预测有相似特征的借款人未来违约的概率,最后对概率进行比例转化,输出信用分。模型的基本框架是朴素贝叶斯算法,与逻辑回归相比,朴素贝叶斯算法的优点在于不需要进行矩阵运算,运算速度更快,因此更适应于大数据计算。此外,朴素贝叶斯算法在变量相互独立的情况下性能更优,因此,朴素贝叶斯算法更加适应企业级建模平台对于各方都可上传变量、毫秒级计算速度的要求。
信用分可以作为一个规则加入规则引擎中,例如对于信用分高于700的用户可以实时放款,650分以下的用户则人工干预。信用分的引入可以提高信贷风控的决策效率,作出更科学更客观的决策,做到真正的用数据说话,凭数据决策。