
霜降杀百草,再过2天就是霜降了,意味着即将进入冬天。2019年10月21日,港股上市公司“51信用卡”位于杭州西溪谷的办公地点突然遭警方调查,警方直奔15楼,该楼是其爬虫技术团队。10月22日,北京金融局今天窗口指导摸排区内所有大数据企业是否存在违规爬虫业务。如果没有要求企业出承诺函;如果存在违规爬虫业务,要上报并尽快整改。
一、大数据公司挟“爬虫”以令公民,一路野蛮生长!
“不管是网站还是APP,只要有账号密码就可以爬,连央行的征信报告都能爬”,某数据负责人声称,“技术好,就没有爬不到的数据”。这其中最火的产品,是通话记录(运营商数据)爬取。在这一波浪潮中,崛起了众多爬虫公司,其中做得最大的是“聚信立”。
“爬取通讯录,主要是用于用户失联后,可以找他们的亲朋好友催款”,某平台的风控负责人平元鑫称,但通讯录的伪造成本较低,“将联系人改一个号码就行”,有时候可能会失效。
而通话记录的数据,则可靠得多。而爬取方式也很简单,只要用户提供手机号码和服务码,就可登陆各大运营商的系统爬取。
聚信立爬取数据后,提供给客户的“个人用户报告”极为细致:包括通话号码、次数、时长等信息。
根据亿欧智库2018年11月发布的《2018中国智能风控研究报告》(下称《报告》)显示,截至当时,金融风控企业已经达到573家,其中超过六成企业成立于2014~2016年。
野蛮生长的浪潮中,依靠爬虫技术违规爬取和使用数据的公司迅速壮大,凭借丰富的数据来源和极低的操作成本,跻身行业前列,市场份额甚至大大超过合规数据公司。
王浩的公司从事现金贷,数个月前,他在市面上四处寻找风控系统和数据源,此时,摩羯科技的商务人员,给他推荐了这个最新的“爬虫产品”。
“对方说,这是一款特别讨巧的产品,用了之后,你基本可以不用其他风控”,当王浩明白其背后的逻辑后,“不得不服”。
如何检验借款人是一个好用户?最简单的办法,就是看这个用户在其他现金贷平台上的授信额度,“别人放款多少,我就放款多少”。王浩称,这就相当于别的现金贷平台,帮你做了风控。
中关村大数据联盟副秘书长陈新河在接受《中国新闻周刊》采访时表示“如果通过爬虫抓取网络公开信息或授权信息,并不违规;但如果抓取的是未公开、未授权的个人敏感信息,且违规留存、使用、买卖这些隐私数据,就属于违规行为。
“真正合规的公司数据来源都是有官方授权的,能获得这类授权的公司少之又少。”一位长期与大数据公司打交道的甲方公司高管告诉《中国新闻周刊》,大数据风控行业门槛低,业内鱼龙混杂,且监管难度大,“行业混沌,监管层只能先一刀切”。
二、大数据公司“爬虫”一直行走在法律的边缘
“未经授权的爬取、使用、贩卖数据相当于偷窃。”深圳中兴飞贷金融科技公司副总裁孟庆丰说,“一些数据公司既没有获得授权,又擅自利用爬虫技术去违规采取外部数据,这就是不被允许、不合规的。”
大成律师事务所合伙人肖飒每天都要接待来自大数据行业从业者的来访和来电,大家关注的焦点话题是:什么情况下会被警方带走?怎样就算是涉嫌犯罪?哪些产品存在问题?
“大家关注的焦点就在于自己行为是否合规,而且更关心是否刑事合规。因为一般的合规而言只是罚款,而一旦刑事不合规,则会面临牢狱之灾。”
中国法律文书裁判网公示信息,目前违规使用爬虫技术,会触犯侵犯公民个人信息罪、非法获取计算机信息系统数据罪、非法侵入计算机信息系统罪、侵犯著作权罪等。
从近年来审判的案例可见端倪,上海市金山区人民法院查明,2018年2月至同年4月期间,被告人马某为牟利,使用自己编写的爬虫程序窃取APP及网站的用户信息,后使用微信聊天的方式出售给苏某某 (另案处理)包括姓名、联系方式等内容的公民个人信息约20万条,非法获利共计2.4万元。金山区人民法院认为,被告人马某违反国家相关规定,窃取公民个人信息后向他人出售,情节特别严重,其行为已构成侵犯公民个人信息罪。
2014年杭州市余杭区法院查明,两被告人利用淘宝店铺源码存在的漏洞,非法获取淘宝用户cookie达2600万余组,并将获取的cookie存放在虚拟队列中,再利用网络爬虫程序读取虚拟队列中的cookie并获取淘宝用户的交易订单数据。余杭区法院认为,两被告人违反国家规定,侵入计算机信息系统,获取该计算机信息系统中存储、处理、传输的数据,情节特别严重,其行为均已构成非法获取计算机信息系统数据罪。
三、大数据公司“爬虫”业务已若秋后寒蝉
这一轮强监管从深圳、杭州、上海等地开始,已经迅速席卷了整个大数据风控行业。整顿力度之大,令业内和相关合作方人人自危。
从9月下旬开始,多个业内闭门交流会紧急召开,每个会场都摆出严防死守的架势。“参会者中不乏近期被查或有关联的大数据公司高管。”这些闭门会严格保密参会名单,拒绝外部报名,会场门口都会严格逐一核验参会者身份,尤其严禁媒体进入,“大家都是来讨论以后怎么办,能不能活下去都是个问题。”
“现在行业内基本暂停了爬虫业务,很多之前做爬虫的也都在清理数据库,就怕被查。”一位大数据金融业内人士告诉《中国新闻周刊》,不仅是互联网金融公司,连与大数据公司只有过零星合作的招聘公司、风控公司最近也纷纷切断了合作,“数据公司被查,相关行业都会受到波及。”
大数据风控公司头部企业同盾科技、百融云创、聚信立、集奥聚合等平台在2013年前后成立。此次,这些头部平台均不同程度卷入调查,尤其是同盾科技两名爬虫业务负责人被拘捕更为引人关注。
9月27日,同盾科技相关负责人向《中国新闻周刊》确认,公司旗下爬虫业务负责人童保华、徐斐为配合警方调查曾经服务的某第三方单位,正在协助警方调查取证,具体被带走时间不清楚。
就在十天前,有消息传出“同盾科技爬虫部门已解散,该部门员工集体待岗,并被建议不要离开杭州,否则有被抓风险。由于局面失控,同盾科技实控人兼CEO蒋韬已出国避风头”。
四、监管部门紧锣密鼓立法约束大数据公司“禁爬”
在大数据行业中盛行的爬虫技术,主要分为公开爬虫和授权爬虫两类。前者只能爬取机构或网站公开发布的信息数据,如工商信息等;而后者则需要取得用户的个人授权,以爬取个人通讯录、邮箱、网银、电商平台等个人隐私数据。
根据全国信息安全标准化技术委员会于今年6月发布的《个人信息安全规范》征求意见稿,个人信息控制者在收集个人敏感信息前,应征得个人信息主体的明示同意,并应确保个人信息主体的明示同意是其在完全知情的基础上自主给出的、具体的、清晰明确的意愿表示。
“所有数据授权都需要明显明确地告知消费者,授权获取数据是关键。”深圳中兴飞贷金融科技公司副总裁孟庆丰在接受《中国新闻周刊》采访时表示,“不可否认的是,数据行业内确实存在许多不合规的做法,尤其是未经授权的爬取数据。”
“这次事件之前,正常情况下,即使是已获得用户授权的爬虫,在爬取数据并合规使用后,数据就消失了。”北京银保监局2019年10月12日公布的《关于规范银行与金融科技公司合作类业务及互联网保险业务的通知》为代表,其明确规定“严禁与以‘大数据’为名窃取、滥用、非法买卖或泄露客户信息的企业开展合作。”中间服务商的合规评估、认证需要时间,为降低风险,A银行将多采用“断代购直”,采用直连数据源的模式,中间数据服务商的模式将大大受到限制。