2019年11月赛博研究院发布的《数据爬取治理报告》指出,2018年全球流量中机器人流量总共占比37.9%,数据爬取已经成为部分行业中数据获取和流通的主要方式,2020年初以来,新冠疫情冲击全球,而数据经济成为对抗疫情冲击、重塑经济体系和提升治理能力的重要力量。在大数据时代,数据象征着互联网企业的核心竞争力,坐拥庞大用户群体的企业天然地享有数据资源上的优势,而没有数据生产能力的企业或个人也需要采集数据,目前网络爬虫技术则是其采集数据的主要技术手段。由此引发的数据争议问题层出不穷,带来了关于网络爬虫电子物证取证业务量的增加,作为发现和证明数据信息的电子物证取证也越来越重要。

网络爬虫是一段能够自动运行的程序或脚本,实现按照一定规则,自动访问目标网站、抓取网页、进行解析、进行存储,实现数据信息的自动化转移。在非法获取计算机信息系统数据罪的框架下,网络爬虫是否构成犯罪的关键在于判断突破反爬虫措施的行为是否属于《刑法》第285条规定的“侵入”或者“采用其他技术手段”。网络爬虫非法对计算机信息系统功能进行删除、修改、增加、干扰等破坏,影响计算机信息系统正常运行的行为,对应的是《刑法》第286条“破坏计算机信息系统罪”有关内容。
1
案例分析
上海浦东某公司非法爬取个人信息出售牟利案中,刘某等12人都是上海某信息科技公司员工,该公司在没有取得国家有关部门的批准下,开发了一个征信网站,有偿为客户公司提供个人信息查询服务。据刘某等人供述,该公司的个人信息数据来源主要有两种,一是从上游公司购买;二是利用公司开发的爬虫技术爬取各类网站、社保、公积金、手机App等网络上的个人数据信息。而客户使用该网站也十分便捷,根据需要查询的内容,输入相应的身份证号码、姓名、手机号码、手机验证码后进行查询,后台通过爬虫技术获取相应的信息之后给出反馈。在使用该网站查询信息时,会弹出一份授权协议让被查询人点击“确定”表示同意。
案例审查中,该公司通过签订合作协议等方式和3000余家上下游公司达成合作框架,用自行开发的爬虫技术在互联网上爬取身份证、社保、公积金、出行、社交、消费能力、通信记录、电商消费记录等各类公民个人信息共计308万余条,通过有偿提供查询服务违法所得共计1750余万元。经上海市浦东新区检察院提起公诉,法院以侵犯公民个人信息罪判处被告人刘某、黄某等8人有期徒刑三年,缓刑三年至有期徒刑一年,缓刑一年不等,各并处罚金1万元至3万元不等,该团伙中的戴某等其余4人还在审理中。

2
网络爬虫的电子物证取证重点
网络爬虫的本质是特殊的软件程序,需要有计算机、网络等作为承载客体支撑其运行,通过网络爬虫,违反robots协议要求,获取计算机信息系统存储、处理或者传输的数据。在法律上,可能构成非法获取计算机信息系统数据罪、侵犯公民个人信息罪或侵犯商业秘密罪,对应的是《刑法》第285条第二款、第253条和第219条之规定。在网络爬虫电子物证取证过程中,应当按照运行环境、控制环境、作用环境和再生环境4个方面进行重点取证工作。
1. 运行环境
网络爬虫运行时需要服务器等计算环境的支持,如租用云服务、自己搭建服务器、防火墙、路由器、存储资源等。针对运行环境取证,应针对以下两个方面重点开展工作:一是运行的服务器环境。由于云计算资源往往是虚拟化的,难以在某一台或几台物理服务器上实现取证工作,需要在基础设施IaaS层、平台服务PaaS层、软件服务SaaS层进行取证,必须征得互联网数据中心(InternetDataCenter,简称IDC)服务商的支持,综合运用云取证工具,对爬虫运行的整体环境进行在线备份。在对云计算服务资源取证的过程中,由于协调部门较多,甚至需要异地、跨国办案,重点防止其远程毁灭数据。同时注意云计算环境下提取的与证据相关的数据可能包括大量的日志、环境以及多用户共享信息,做好对日志数据的时间轴分析,包括时间戳同步工作。
二是网络爬虫运行的网络环境,包括IDC服务商提供的防火墙、IDS、路由器等安全、网络设备等,取证重点主要是相关设备的管理日志、网络流量、异动信息等。
2. 控制环境
控制环境指犯罪嫌疑人操纵网络爬虫所使用的计算机终端、智能手机等设备,以及相关的WiFi、网络接入等。在这些终端上会留存使用云计算资源的相关记录,主要包括本地终端的日志、网页缓存、网站Cookie、index.dat等云应用信息,以及Ftp、P2P等文件传输服务、Chrome、Mozilla、IE等浏览器、QQ、微信、Skype等即时通信、Foxmail等电子邮件、teamview等远程控制、Vmware等虚拟机应用软件的使用记录,应注意提取其所使用的云应用名称、用户名、使用的日期和事件以及用户文件、文件夹的名称和内容;对于云设备分布地域广、数据量大、数据结构类型复杂的跨地域、跨国案件,注重生成调查清单,以利于对云服务提供商和犯罪嫌疑人网络行为轨迹的调查;很多用户会采用本地数据与云端数据的同步机制,在调查取证时,应注意对照云端调查数据,相互佐证和补充。

3. 作用环境
作用环境指被爬取的网站的计算环境、存储环境以及相关的网络设备等。对于网络爬虫的妨害、侵入、破坏、获取行为,即涉嫌非法侵入计算机信息系统犯罪、破坏计算机信息系统犯罪、非法获取计算机信息系统数据犯罪的,应证明爬取的数据与来源数据之间的对应关系。按照通常网络访问的方式进行访问,通过截图、拍照、录像等进行证据保全;如果网络爬虫爬取了网页上不可见的内容,仍然需要对云计算资源进行取证。如,在王某、黄某破坏计算机信息系统案件中,通过天津开发区先特网络系统有限公司出具了全运会接待系统数据统计材料,相关的证人证言证明了全运会信息技术系统包括相关比赛项目、参赛运动员及技术官员抵离信息、住宿信息及身份信息,证明了系统瘫痪造成无法登录、信息丢失等情况,电子取证提取的QQ聊天记录证明了黄某与王某聊天过程中提到了删除了数据,同时删除了操作日志和登录日志等情况,相互印证构成了完整证据链。
4. 再生环境
再生环境指网络爬虫获取数据后的再存储、再利用环境,包括爬取数据的来源、数量、内容、存储的位置、方式以及是否转存等。犯罪嫌疑人获取数据并进行牟利时,会搭建新的运行环境进行数据再利用,包括软件系统,服务器、存储设备、网络设备等。重点掌握爬取淫秽物品的数量、类型并进行保全;同时要对其制作、复制、出版、贩卖、传播的行为,以及会员注册信息、访问地址、时间、缴费情况等进行取证分析;对利用聊天室、论坛、直播平台等方式实施犯罪的,要对注册、登录等情况进行取证分析。对于涉嫌出售、非法提供公民个人信息犯罪、侵犯商业秘密犯罪、非法获取国家秘密犯罪、非法获取军事秘密犯罪的,应重点对爬取数据的数量、类型进行取证并保全,还应注意及时将相关数据送检,判定特殊范围数据的属性;对不正当竞争犯罪、非法出售公民个人信息犯罪的还应对出售、牟利的相关情况进行取证。
电子物证取证的重点应当着眼于网络爬虫爬取数据的数量、类型,以及犯罪嫌疑人利用数据提供服务的相关证据,可以采用截图、拍照、录像等方式对犯罪嫌疑人经营网站页面进行取证。电子物证取证作为发现犯罪事实、证实犯罪行为的重要手段之一,在信息化社会下刑事犯罪侦查中具有更加重要的作用。对于网络爬虫电子物证取证,在注重技术手段的同时,要更加注重依据法律的规制有重点地进行取证工作,从而确保取证工作能够提高效率,增强证据的完整性、可靠性、针对性,更加有力地保障司法工作开展。
*文章部分内容引用其他(自)媒体文章,
如有侵权请告知海存科仪,我们将及时删除。
往期回顾
案例 | 侵犯公民个人信息权益案—浅谈电子物证在司法侦查中的作用
案例分析 | 浅述电子数据司法鉴定在网络诈骗案件中的重要作用
案例分析 | 区域区块链技术助力司法取证
热忱欢迎您添加和回复司法鉴定中心头条号。您如若想了解更多、更详细的有关司法鉴定情况和相关法律条款规定请与我们联系。
中心采取“线上”预约;“线下”面对面沟通。
中心将以特别敬业、特别勤业、特别专业的精神竭诚为您服务!