如何掘金 (如何在大数据中掘金)

“如果有一个词更能定义未来的社会,那就是数据社会。”在日前举办的全球互联网经济大会上,阿里巴巴集团副总裁刘冰表示。

日前,国务院印发《促进大数据发展行动纲要》(以下简称纲要),其中业内呼吁已久的一点就是,推动政府信息系统和公共数据互联开放共享,加快政府信息平台整合,消除信息孤岛,推进数据资源向社会开放。

不久前,央行等十部委发布了“关于促进互联网金融健康发展的指导意见”,其中明确提到了数据共享合作。而此次纲要提出的目标是,要在2017年底前形成跨部门数据资源共享共用格局,在2018年底前建成国家政府数据统一开放平台。

而对于金融领域来说,政府大数据价值几何?

政府数据量级几何?

“就像每个城市只会建一套自来水管道,不可能建第二套。” 金融大数据公司九次方王叁寿指出,在金融活动中,不管是从哪种渠道获得,来自政府方面的数据都是必不可少的。

政府手里握着的数据有多大的体量?也许有人认为BAT在这方面更胜一筹。然而,用王叁寿的话来说就是:“阿里巴巴的数据容量也就是100PB左右,而仅一个北京市政府就拥有几百个PB的数据容量,相当于10个阿里巴巴。”这还仅仅是一个北京市政府。截至2014年,中国共有664个城市,2852个行政县,40446个行政乡。当前,中国中央和省级政务部门主要业务电子政务覆盖率已经达到70%。由此来估算,全国政府大数据加起来至少也该有数百甚至上千个阿里巴巴的体量。

而政府大数据的质量也不容小视。还是以BAT举例,百度拥有庞大的用户搜索记录,腾讯的优势在于拥有数亿的QQ和微信用户量以及更庞大的社交数据,阿里的交易数据更多在电商领域以及外延应用。由此可见,这三家BAT企业的短板共同点在于数据种类的单一化程度较高。

相比而言,政府大数据涉及工商、税务、司法、交通、医疗、教育、通信、金融等领域,数据的种类繁多,关联性强、统计规格较为统一,便于应用处理。“政府的数据事关百姓生活的方方面面,数据的利用价值也最高。”王叁寿认为。

据中国互联网络信息中心统计,截至2014年6月,使用“.gov.cn”域名的政府网站总数发展到近1.2万个。目前,96%的国务院部门建成了政府网站,约90%的省级政府、96%的地市级政府、77%的县级政府都拥有政府网站。政府网站不仅会将部分政府信息数据公开,同时开展网上办事和政民互动等服务。

自2014年3月“大数据”首次出现在《政府工作报告》中以来,国务院常务会议一年内6次提及大数据运用,大数据产业已经成长并成为新的经济增长点。据《2015年中国大数据发展调查报告》预测,2015年中国大数据市场规模将达到115.9亿元,增速达38%。未来随着应用效果的逐步显现,一些成功案例将产生示范效应,预计2016年至2018年中国大数据市场规模还将维持40%左右的高速增长。

如何掘金政府大数据

谁能在15秒内知道北京市内有多少家投资公司?谁能立马查出某个人是多少家公司的股东?谁知道一个企业上个月有没有按时发工资?这是九次方可以做到的事。

互联网金融的发展趋势已经不可阻挡,不论是传统金融机构还是互联网公司,大数据在其中的应用已经越来越广泛。实际上,不论是对于哪一类金融机构,数据来源都是首要并且关键的问题。目前金融领域已经在尝试的应用,包括客户画像、精准营销、风控管控,以及识别欺诈和股价预测等。

王叁寿的大数据创业始于2010年,其时大数据理论和实践都尚未成熟。而王叁寿早就嗅到了政府大数据中的商机。九次方和各个地方政府合作,通过建立大数据管道,搭建各地征信大数据平台,利用互联网大数据挖掘技术采集互联网全部与企业相关的信用指标。经过5年的大数据沉淀,汇集分析了40多个产业链、8000多个行业、40000多个细分市场、500多个城市、5600个区县、2500个高新园区、30多万条街道、12万个写字楼的1500万家企业。目前旗下的客户囊括了交通银行、农业银行、陆金所、平安信托、招商贷等金融机构。

在风险控制方面,王叁寿举了一个例子:“有一次,北京银行在我们的系统里发现它贷过款的一个公司有一些负面讯息,于是赶紧让他们人员去企业查,结果那个企业已经连续三个月没发工资了。”王叁寿介绍,目前九次方的系统可以实时监控企业的行政处罚、工商处罚、税务处罚、环保处罚、海关处罚、法院诉讼、正在执行和执行状态,已经结案的情况都实时监控,只要有负面讯息,一发现就自动报警给金融机构客户,客户就可以做好预警。“我们系统一个端口才30万元,但是可以帮他控制一千万的风险,这个价值是无限的。”

此外,九次方还利用大数据做精准营销。利用九次方的数据库,银行可以像创新开发新业务。由于对企业财务、经营数据的掌握,九次方可以对接私募、信托产品、保险产品、债券等多种产品,实现B2B级的自动撮合交易。

目前,银行、小贷公司和互联网金融对政府数据的需求都非常大。王叁寿坦言,目前公司收入来源的一半以上都来自银行。

而相比银行,P2P行业对权威数据的需求更甚。拍拍贷风险总监顾鸣坦言,相较于传统金融,互联网金融P2P在风险管理上要面临缺乏央行征信、信贷数据有限的挑战。目前,拍拍贷自建了自己的大数据风控模型,而数据的来源,包括黑名单、网络行为、还款记录、搜索引擎、各类认证、社交关系和消费数据等,其中大部分数据是通过跟第三方数据合作商合作得来。

今年4月,全国乃至全球第一家大数据交易所贵阳大数据交易所成立。目前已有包括贵阳、宁夏、武汉、苏州、海南、广东等在内的11个省市在贵阳大数据交易所开通了政府数据公开账号。国务院副总理马凯在贵阳数博会上提出,要加快数据资源开发利用和产业化、商品化。这标志着全球的大数据可以作为一种资产、一种商品进行交易,把大数据这座金矿的价值释放出来,最终将数据的价值变现。

开放、整合、共享是关键

对于作为金融业基础设施的征信环节来说,大数据也是重中之重。而在作为征信类目的各种数据中,政府方面的数据是缺席最多的。

以首批获准的八家民间个人征信机构之一芝麻信用为例,其数据源三分之一为阿里巴巴的电商和蚂蚁金服的电商数据;另外还包括政府、法院等公共机构的数据,以及合作商户的回流数据,例如蚂蚁金服与神州租车和酒店合作,这些商家会向芝麻信用反馈用户信用信息;此外,还有部分是用户自己提交的数据。

虽然央行不久将会正式向首批民营征信机构发放牌照,届时获得牌照的个人征信机构可以接入央行的信息平台,实现信息共享,但目前央行征信报告只能查到信贷业务和个人基本信息,而政府各类公共服务部门如税务、水电、物业、通讯、法院民事判决、欠税等信息,都没有接入征信系统。此外,这些可以作为征信维度的各类信息散落在不同部门和行业,彼此割裂,要想真正流动起来并得以合理利用,并非朝夕。

不久前,央行等十部委发布了“关于促进互联网金融健康发展的指导意见”,其中也明确提到了数据共享合作。而此次《纲要》提出的目标是,要在2017年底前形成跨部门数据资源共享共用格局,在2018年底前建成国家政府数据统一开放平台。

“大数据行业市场还不成熟,连60分都不到。” 王叁寿指出,这是一个非常大的市场。王叁寿一直认为,数据只有交易才能体现价值。“数据作为资产并不像石油、黄金一样,作为有限资源只能交易一次,数据就像空气无处不在,可不断挖掘,反复交易,是无限资源、绿色资源。”

“央行的数据就像以前的国道,民间征信数据就像省道,不管是国道还是省道,一定要互通互联,才是长期健康发展的数据和征信生态。”融360CEO叶大清表示。

“蚂蚁的金融数据可能是央行或者传统金融数据的有益补充,比如高端人群中可能用支付宝的比例并不大,就这部分人群的信用数据,银行和传统金融机构的积累更有说服力。”蚂蚁金服首席运营官李波认为,各家数据一定是一个相互补充、相互印证的关系,没有可替代性,单靠某一方面的数据可能会出现偏颇。

此外,在保证数据开放的同时,对数据的数量、质量和价值加以筛选和评价也是必不可少的。业内人士建议,应该制定相关法律法规,设立跨机构的专项领导小组等来作为政务信息开放的制度保障。(北京参考记者 彭梁洁)