10 使用“网络爬虫”程序获取数据行为的刑事责任认定
——上海某网络科技有限公司等非法获取计算机信息系统数据案
【案件基本信息】
1.裁判书字号
北京市海淀区人民法院(2017)京0108刑初2384号刑事判决书
2.案由:非法获取计算机信息系统数据罪
【基本案情】
被告单位上海某网络科技有限公司系有限责任公司,经营计算机网络科技领域内的技术开发、技术服务、电子商务、电子产品等业务。被告人张某某系该公司法定代表人兼CEO,负责公司整体运营;被告人宋某于2016年8月至2017年2月任职该公司联席CEO,系产品负责人;被告人侯某某于2016年8月至2017年2月任职该公司CTO,系技术负责人;被告人郭某系该公司职员。被告人张某某、宋某、侯某某经共谋,于2016年至2017年间采用技术手段抓取被害单位北京某网络技术有限公司服务器中存储的视频数据,并由侯某某指使被告人郭某破解北京某网络技术有限公司的防抓取措施,使用“tt_spider”文件实施视频数据抓取行为,造成被害单位北京某网络技术有限公司损失技术服务费人民币2万元。经鉴定,“tt_spider”文件中包含通过头条号视频列表、分类视频列表、相关视频及评论3个接口对××头条服务器进行数据抓取,并将结果存入到数据库中的逻辑。在数据抓取的过程中使用伪造device_id绕过服务器的身份校验,使用伪造UA及IP绕过服务器的访问频率限制。2017年2月27日,被告人宋某、侯某某被公安机关抓获;3月4日,被告人张某某、郭某被公安机关抓获。后四人均如实供述了上述事实。本案审理期间,鉴于被告人张某某、宋某、侯某某、郭某真诚悔罪、认罪,坦白相关犯罪事实,被害单位北京某网络技术有限公司出具刑事谅解书,对被告人张某某、宋某、侯某某、郭某的行为表示谅解。
【案件焦点】
1.“网络爬虫”技术的使用边界;2.“网络爬虫”获取数据是否属于“侵入”计算机信息系统的手段行为;3.“公开信息”是否属于非法获取计算机信息系统数据罪的犯罪对象。
【法院裁判要旨】
北京市海淀区人民法院经审理认为:被告单位上海某网络科技有限公司违反国家规定,采用技术手段获取计算机信息系统中存储的数据,情节严重,其行为已构成非法获取计算机信息系统数据罪,应予惩处;被告人张某某、宋某、侯某某作为直接负责的主管人员,被告人郭某作为其他直接责任人员,亦应惩处。
北京市海淀区人民检察院指控被告单位上海某网络科技有限公司及被告人张某某、宋某、侯某某、郭某犯有非法获取计算机信息系统数据罪的事实清楚,证据确实充分,指控罪名成立,量刑建议适当。在单位犯罪中,被告人宋某、侯某某作用相当,但相对被告人张某某较小,被告人郭某较之宋某、侯某某作用次之,在量刑时酌情考虑。鉴于被告单位上海某网络科技有限公司及被告人张某某、宋某、侯某某、郭某能够如实供述自己的犯罪事实,认罪态度较好;被告人张某某、宋某、侯某某、郭某获得被害单位谅解,加之本案适用认罪认罚从宽制度,故依法对其均从轻处罚,并对张某某适用缓刑。
依照《中华人民共和国刑法》第二百八十五条第二款、第四款,以非法获取计算机信息系统数据罪,判处被告单位上海某网络科技有限公司罚金人民币二十万元;判处被告人张某某有期徒刑一年,缓刑一年,罚金人民币五万元;判处被告人宋某有期徒刑十个月,罚金人民币四万元;判处被告人侯某某有期徒刑十个月,罚金人民币四万元;判处被告人郭某有期徒刑九个月,罚金人民币三万元。
【法官后语】
本案被“互联网法律大会”列为全国首例利用“爬虫”技术侵入计算机系统抓取数据案,[2]由于案件涉及网络爬虫技术获取网络“公开信息”受到刑法规制而备受IT界和互联网法学界关注和广泛讨论。讨论的争议核心涉及三个问题:一是网络爬虫技术的使用边界;二是“网络爬虫”获取数据是否属于“侵入”计算机信息系统的手段行为;三是“公开信息”是否属于非法获取计算机信息系统数据罪的犯罪对象。笔者认为,本案“网络爬取”行为已经超过了合法边界,属于侵入计算机信息系统的手段行为,并且本案“公开信息”并非“共享数据”,被告单位的行为已经侵犯了被害单位计算机信息系统和数据的安全性中的“保密性”这一法益,其行为完全符合非法获取计算机信息系统数据罪的构成要件,应当追究刑事责任。
1.考察“网络爬虫”程序的爬取行为是否获得合法授权
“网络爬虫”(web crawler,又被称为网页蜘蛛、网络机器人、网页追逐者),是一种按照一定规则自动抓取万维网信息的程序或者脚本。“网络爬虫”技术有利于信息的交流和共享,但并不是所有的网站都希望自己的网页被“爬虫”提取,或者并不希望自己所有的网页信息被“爬虫”提取。为此,网站会采取一些反“爬虫”措施来防止网页信息和数据被爬取。比如有些网站通过对端口、接口等禁止访问限制或通过网页访问口令、JS脚本(如设置验证码、滑动解锁等)、User-Agent[3]、robots协议等来阻止“爬虫”。
本案中,被害单位就设置了参数验证即用户身份认证机制来防止“爬虫”程序抓取网页信息和视频数据。被告单位通过分析被害单位计算机信息系统的数据接口,然后使用脚本程序模拟被害单位计算机信息系统的软件接口的方式访问被害单位计算机信息系统的数据库,从而将被害单位的视频下载到自己的服务器。现有证据足以认定被告单位破解了被害单位的反“爬虫”措施,属于未取得被害单位的授权非法获取网页信息和数据的行为。同时,被告单位的“爬虫”程序不仅提取了网页信息,而且还下载了网页信息背后计算机信息系统的数据,这也显然超越了“爬虫”技术爬取网页信息的通识边界,恶意明显。
2.考察网络爬取行为是否属于非法获取计算机信息系统数据罪的侵入行为
非法获取计算机信息系统数据罪的手段行为有两种,一种是“侵入”行为,一种是“其他技术手段”。《中华人民共和国刑法释义》认为侵入是指“未经授权或者他人同意,通过技术手段进入计算机信息系统。”[4]似乎侵入行为必须要求是“技术手段”。但是司法实践中确实出现了单位内部人员将计算机信息系统的用户名和密码告知外部人员,由外部人员多次通过互联网登录单位计算机信息系统而获取数据的案件。此案行为人显然无权进入计算机信息系统,但是确实也没有任何技术含量地进入了计算机信息系统,并且获取了大量数据,所造成的对数据安全的侵害结果,与通过暴力破解计算机信息系统获取数据的行为后果没有任何区别。如果这种行为不依据非法获取计算机信息系统数据罪认定,显然过于机械地理解了法条。如果能够认识到非法侵入的实质内涵是违背他人意愿进入他人计算机信息系统,既包括采取技术手段进入,也包括未征得他人同意或者授权进入,就能够实质性地理解法条并正确适用法条。最高人民检察院第36号案例(卫某某非法获取计算机信息系统数据案)便肯定了这一实质性理解思路。
那么“爬虫”程序是否进入了被害单位的计算机信息系统?在案证据显示,被告单位是通过分析被害单位计算机信息系统的数据接口,然后使用脚本程序模拟被害单位计算机信息系统的软件接口的方式访问被害单位计算机信息系统的数据库。被告单位是伪造了device_id绕过了服务器的身份校验,并使用伪造UA及IP绕过服务器的访问频率限制才实行了对被害单位服务器数据库的访问。涉案数据库只允许被害单位APP用户或被害单位视频APP用户访问。不是通过被允许的身份验证机制获得的权限访问,不是通过真实的UA和IP进行的访问,均是无权限的非法访问。
按照《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》规定,计算机信息系统是指“具备自动处理数据功能的系统,包括计算机、网络设备、通信设备、自动化控制设备等。”APP客户端与被害单位网站服务器端通过网络链接在一起进行信息和数据采集、加工、存储、传输、检索,这当然属于计算机信息系统的一个组成部分。被告单位绕过APP客户端与被害单位网站服务器端的身份验证系统,行为性质实际就已经属于非法侵入被害单位的计算机信息系统了。
当然,退一步讲,即使被告单位的行为不属于非法侵入行为,也属于其他技术手段的非法获取行为,同样符合非法获取计算机信息系统数据罪的手段要件。
3.考察“公开信息”是否属于“共享数据”
有观点认为,信息都公开了,信息的数字化形式就没有保护的价值了。其实不然,信息的数据化技术水平越高,数据的存储、传输和处理可能越快捷、数量越少、质量越高、效果越好。数据化技术水平的提高实质上代表着计算机技术的创新。至少从这个层面来讲,数据具有区别于信息的独立价值。当前,人们已经认识到,对于信息可以通过个人信息权、隐私权、知识产权、国家秘密等法益予以保护,而对于数据则还可以通过可携带权、删除权、更正权、知情权、数据主权等法益予以保护,并可以通过收集、加工数据获得和增加价值,通过交换实现价值。特别是在大数据时代,数据的独立价值和权利属性已经越来越得到广泛重视。
正是从数据独立于信息的视角分析,笔者认为,获取了信息,或者信息公开了,绝不意味着数据也被获取了或者失去了保密性,更不意味着数据也失去了保护的价值。数据与信息的机密性,应该分别定义:数据的机密性,应该是指个人或团体的数据不为其他不应获得者获得;而信息的机密性,应该是指个人或团体的信息不为其他不应获得者获得。
因此,本案中,即使认为视频信息公开了,也不能认为视频数据公开了,不能认为被告单位没有侵害到被害单位计算机信息系统的安全性和数据的保密性,不能据此否定被告单位获取视频数据行为的非法性。同时,依据前述定义,无论是信息还是数据,一定范围内的有权获得也并不一定意味着数据失去了保密性。数据失去法益保护的必要性,只有在数据权利人或者控制者允许公众获得数据或者允许他人获取数据并且不限制他人再提供给公众,也即允许公众共享时才存在。比如网站允许APP用户下载视频,同时不禁止用户将视频复制给他人。
那么何谓非法获取计算机信息系统数据罪中的“获取”?对此刑法和司法解释没有定义。但ISO/IEC 27037:2012《信息技术、安全技术、电子证据识别、收集、获取和保存指南》将获取定义为,“在定义的集合中创建数据副本的过程(process of creating a copy of data within a defined set)”。可见,获取是主体在主观意志支配下复制和创建数据的行为,主体获得了信息但没有复制数据,不代表获取数据。比如视频,观看了视频,意味着获得了视频信息,但并不一定意味着获取了视频数据,只有将视频数据下载存储到自己可以控制的介质上,才意味着获取了视频数据。
具体到本案,被害单位允许APP用户观看视频获取视频信息,不意味着APP用户获取了视频数据。被害单位的视频是采取流媒体技术播放,用户边缓存部分数据边观看视频。播放结束完后,缓存的数据文本也随之消失,即一般用户在观看视频时并不能永久性下载复制视频,除非掌握一定计算机专业知识的用户才有能力运用技术手段对视频数据副本进行复制和创建。缓存技术在知识产权领域得到世界公认的许可,是基于对计算机技术发展的需求作出的安排。但是缓存与下载复制是有区别的,缓存意味着“断电既无”,而下载复制则意味着可以永久保存。也因此,被害单位采取流媒体播放技术并结合APP身份认证技术,是对视频数据免于下载复制的技术保护。而本案被告单位绕过了APP身份认证机制,下载复制视频数据,是破坏了被害单位对视频数据的技术保护措施,是对视频数据的非法获取。
申论之,如果本案视频数据可以由APP用户复制下载,则意味着视频信息的公开,即使不允许用户使用开发者程序分析获取数据,也意味着视频数据的公开;如果视频数据禁止APP用户复制下载,但没有对数据本身采取保护措施,而允许用户使用开发者程序或不禁止其他方式获取数据,也意味着视频数据的公开;而在视频数据不可以由APP用户复制下载,不允许用户使用开发者程序或禁止其他方式获取数据时,但允许用户使用录播工具复制视频时,也意味着视频数据的公开。当然,在也不允许用户使用录播工具复制视频时,如果录播获取了视频信息,则意味着实质性复制了视频数据,也属于非法获取。
综上所述,本案视频信息在APP用户范围内的有限公开,并不代表视频数据可以为公众所共享而进一步认为数据失去了安全保护的必要性。本案被告单位未经被害单位授权,使用“网络爬虫”程序绕过APP用户认证系统获取被害单位网站服务器内的视频数据的行为,侵害了计算机信息系统和数据的安全法益,完全符合使用侵入手段非法获取计算机信息系统数据罪的构成要件,理应受到刑法规制。
编写人:北京市海淀区人民法院 游涛