法律沙龙

content

本期目录

一、准确理解:数据爬虫的概念、技术原理

二、应用风险:数据爬虫的产业应用和产生的问题

三、行业规制:数据爬虫的行业自治规范

四、法律规制:数据爬虫的合法性边界和法律适用

本期召集人 涂龙科

杨浦区检察院副检察长

数据爬虫技术作为一种重要的数据采集手段,已经广泛应用于互联网的诸多领域,也引发了越来越多的争议,例如互联网企业之间不正当竞争以及相关刑事犯罪争议。以上争议已然成为数据产业发展中亟待解决,法律实务中需要进一步厘清的重要问题。本次“75号咖啡·法律沙龙”聚焦“数据爬虫的法律合规”主题开展研讨交流。

大数据时代,数据资源是互联网企业发展的重要基础。企业想要持续发展壮大,往往需要不断采集数据资源。当下,数据爬虫是企业采集公开数据的常用技术手段之一。通过爬虫技术,可以实现对文本、图片、音频、视频等互联网信息的海量抓取。那么数据爬虫到底是什么,其技术原理又是什么?

高富平

华东政法大学教授

我简单谈一点认识。爬虫是互联网数据利用的一种非常重要的手段,是为了便捷获取海量数据信息而产生的一种技术。当下的数据爬虫主要分为三个流程,即网站解析——网站爬行——数据组织,其中网站解析与网站爬行阶段属于单纯的数据获取阶段,而数据组织则有了数据再利用的生产性意味,一定程度上具有数据(集)生产的价值。

曾翔

小红书总法律顾问

数据爬虫是一种按照一定规则自动抓取互联网信息的程序或者脚本,通过编程自动实现对目标站点和目标信息的批量获取,包括信息采集、数据存储、信息提取,技术价值在于提高信息采集和传播速度。

刘煜晨

欧莱雅中国区数字化负责人

我非常赞同前面两位嘉宾的观点。从技术角度总结,数据爬虫就是用程序模拟人类通过浏览器(或者App)上网,高效地去网上抓取它需要的数据信息的过程。爬虫可以抓取所有数据(如早年搜索引擎常用的爬虫技术),也可以按条件抓取所需要的数据。根据使用场景中的分类,爬虫可分为以下三类:一是通用爬虫,搜索引擎抓取整张页面里面的所有内容;二是聚焦爬虫,建立在通用爬虫的基础之上,抓取的是页面中特定的局部内容;三是增量式爬虫,检测网站中数据更新的情况,只会抓取网站中更新出来的数据。爬虫的技术原理基于人类上网的基础原理,模仿人类上网行为。当人类访问浏览器网站的时候,第一步先在网页输入网址;第二步浏览器会把网址发到电信DNS[1]服务器上。电信DNS服务器会映射一个映射表,每个网站或者每个APP在互联网世界当中对应一个IP地址;当浏览器拿到网址之后,第三步去网站服务器“说”:“‘你的内容在这里’,网站服务器请把‘你的内容返回给我’”;第四步是网站服务器接收到需求之后,把信息再返回。到了第四步,就会产生一段HTML[2]加上其他数据的代码,返回到用户电脑里面。用户电脑拿到这串数据后,通过浏览器转化成用户看得懂的一张网页,呈现在用户面前。而爬虫主要出现在第四步做抓包和信息处理。APP的逻辑是一样的,不同的点在于APP是装在手机里,中间通过类似API内部交互数据。但是爬虫依然在中间节点把这部分数据抓走,并对数据进行分析,用到自己需要的地方。

邵旻

杨浦区检察院检察官

正如各位嘉宾所述爬虫是一种自动化浏览网络程序,其按照设置的规则通过模拟人工点击来自动地抓取互联网数据和信息,从而自动、高效地读取或收集互联网数据。我补充一点,该技术运行的基本原理是根据搜索目的建立待爬行的URL[3]队列,从中取出URL,访问该URL对应的页面,并进行页面解析,提取此页面上所有的 URL 并存入待爬行队列中。如此循环爬行,直到URL队列中的所有URL爬行完毕或满足系统的一定停止条件为止。

所有数据爬虫基本上都是遵循上述原理。

二、应用风险 :数据爬虫的产业应用和产生的问题

数字经济时代通过爬虫技术获得的海量数据资源的开发利用,可能产生颠覆性的创新产品,或者商业模式的重大创新。实践中数据爬虫技术的商业应用具体是什么,想听听各位嘉宾的意见。

总体上看,爬虫技术为网络用户提供了器官与思维上的获取半径的扩展。信息获取的便捷加速了网络产品的使用和扩散,调整着网络的信息市场和信息价值结构,增加了网络用户的获取价值收益。数据爬取是实现数据流通的重要方式。毫不夸张地说,没有数据爬虫技术,现阶段的大数据产业可能会限于停滞。

我赞同高教授的观点。数字经济时代,随着各种商业模式的不断创新,经营者运用爬虫技术开发的应用场景和商业模式越来越多。一些比较常见的方式包括:一是爬取电商网站里面的商品评价数据,按正面负面关键词做分析,整理出商品市场研究报告,卖给品牌方赚钱;二是爬取故事网文网站的数据,然后发布到自己的APP里面,吸引流量,并通过广告变现;三是爬取裁判文书网的文书,通过人工智能语意学习构建一个能够更好识别自然语言的判例索引,上线并收费。

有观点认为,数据爬虫技术的应用为数据经济发展带来便利的同时也带来了风险,数据安全、隐私权保护、不正当竞争等问题日益突出。对此,各位嘉宾怎么看?

爬虫技术应用产生的问题主要表现为:一是干扰网站的正常运营。机器过多请求让服务器崩溃,影响网站的正常运营;二是爬到了不该爬的信息。如网站或者APP内部数据,这些数据网站和APP运营商本身没有打算公开给用户。爬到这些数据再应用这些数据,很有可能触发法律红线;三是不正当竞争问题。如爬取到相关信息之后,将商品信息直接链接到另外一个商品平台,就会产生竞争上的问题。再如转卖爬取到的图片、文字等数据信息。这些数据信息被利用成竞争者的竞争优势,这也是很典型的不正当竞争行为。

我也谈两点看法。爬虫技术的应用产生的危害性还有:第一,侵犯个人和平台权利。个人的信息应该被保护,不应该未经允许被他人爬取及后续使用。同时,于平台来说,平台内的内容等数据是其重要资产,其使用权和所有权不应被侵犯;第二,刚才专家也提到了可能导致不正当竞争。爬取一般都具有目的性,基于实践考察,对于爬取到的核心商业机密,可能直接用到其他地方形成竞争优势,导致不正当竞争。如短时间获取一些网站或平台长时间积累的数据或者内容做相似业态竞争;第三,导致社会资源浪费。为了反对爬虫行为,互联网企业或平台往往采取一定的措施,尤其对于通过伪造端设备、破解企业或平台协议以及通过群体控制真机群控抓包的方式爬取数据的爬虫行为,需要互联网企业采取攻防措施。最终结果不仅是对企业资源的浪费,也导致社会效率降低;第四,破坏互联网公共管理秩序。互联网企业在数据安全、个人信息保护等各种各样合规维度上,都有相应的建设和基础设施投入,以保证国家法律法规的实施以及保障权利人利益。爬虫技术的不当应用是对以上管理秩序的破坏。

张勇

华东政法大学教授

我赞同各位嘉宾的观点,也提一点不同的看法。爬虫技术作为一种搜集数据的手段,本身并没有合法与非法之分。但是对互联网上众多的数据不加以限定任由随意爬取,势必会对互联网生态造成影响,因此,爬虫技术的应用具有违法性边界。如果突破边界滥用网络爬虫技术获取数据,会威胁保存在网站服务器上的用户个人和互联网服务提供商数据的安全,侵犯用户隐私和服务提供商的商业信息,带来数据权属、知识产权和商业机密保护、个人信息隐私界限、不正当竞争等方面的数据安全风险。

正如刚才张教授所说爬虫技术是中立的,但技术应用不一定是中立的。技术应用往往都带有一定的目的,甚至是不合法的目的。为了防止爬虫技术被滥用,有必要采取相应的技术手段和法律手段加以应对。目前就互联网行业而言,对数据爬虫技术有哪些行业自治规范?

网站通常会采取适当措施,如运用Robots协议、爬虫检测、加固 Web 站点、设置验证码等限制爬虫的访问权限,以防止爬虫对数据进行抓取。例如其中Robots协议由于简单高效,成为国内外互联网行业普遍通行、遵守的技术规范。Robots协议主要是限制网络爬取数据的行为。被爬取数据方将写有可爬取信息范围的Robots协议文件放到该网站,仅允许数据爬取方在协议范围内爬取数据。

对爬虫技术的行业自治规范确实如邵检察官所说主要依靠Robots协议。该协议是行业内普遍遵守的规则,违反Robots协议抓取网站的内容可能会被认定为违背公认的商业道德, 在正当性评判上可能给予一定的负面评价,从而构成不正当竞争。但是Robots协议不能解决爬虫后的使用行为是否合法的问题。Robots协议和行为正当性虽然有关联,但是即使符合Robots协议抓取数据,也可能因为后期使用行为被判定具有不正当性。

我补充一点,Robots协议(也称为爬虫协议、机器人协议)全称是“机器人排除规则”(the robots exclusionprotocol)。其核心思想是网络机器人通过自动检索网页来获取信息,而网页主可以使用robots.txt文件指导网络机器人的访问对象。这个文件告诉来访的搜索引擎哪些房间可以进入和参观,哪些房间可能涉及住户及访客的隐私而不对搜索引擎开放。但robots.txt不是命令,也不是防火墙,无法阻止窃贼等恶意闯入者。另外Robots协议并非官方文件,也并非由商业组织签署,没有任何强制性,无法保证所有的网络机器人都遵守此协议,只是大多数程序员为万维网[4]提供的一个保护万维网服务器免受骚扰性访问的通行做法。

从Robots协议的产生和规范效果上来看,Robots协议是在搜索引擎诞生并且发展壮大的背景下应运而生的,它是互联网企业间相互博弈的结果,是最终在商业利益、用户个人利益和网站自身安全的基础上达成的一种妥协。规范效果上主要是起到一种排除作用,当某些网站不愿意被搜素引擎所抓取时,这些网络机器人就会自动排除这些不愿意被抓取的内容。对于Robots协议约定不能爬取的范围是爬虫的红线,不能超过这个红线边界爬取。

非常赞同各位嘉宾的观点。就Robots协议在现实应用情况来看,该协议对于防止网站信息、个人信息和商业机密的泄露具有天然的防护作用,该规则几乎为所有的搜索引擎所承认并且引用,如谷歌、微软、百度、搜狐、搜狗等都遵守这一规则。

从行业规制角度数据爬虫要遵守Robots协议,各位专家认为从法律规制角度爬虫合法性边界如何判断?

爬虫是支撑数据经济的一种手段,在这样的前提下,个人认为判断爬虫合法性边界可以参考以下因素:一是数据是否是开放数据。数据是否公开不是合法性判断的标准,是否为开放数据才是,公开数据不必然等同于开放数据;二是取得数据的手段是否合法。爬虫采用的技术是否突破数据访问控制,法律上是否突破网站或APP的Robots协议;三是使用目的是否合法。例如使用目的是否实质性替代被爬虫经营者提供的部分产品内容或服务。如果爬虫的目的是实质性替代被爬虫经营者提供的部分产品内容或服务,则会被认为目的不合法,构成侵犯合法利益;四是是否造成损害。爬虫是否实质上妨碍被爬虫经营者的正常经营,是否不合理增加运营成本,是否破坏系统正常运行。

刚才各位嘉宾也提到爬虫是中立的。要体现并保持其技术的中立性,则需要在技术的应用上对其使用的合法性进行限定,即划定爬虫技术合法使用的边界。我认为,可以从以下三个方面对网络爬虫进行合法性限定:一是赞同高教授的观点,合法的网络爬虫应限于对开放数据的获取。一般来说政府开放数据与研究数据是最重要的开放数据来源,也是合法网络爬虫获取数据的重要对象。如果网络爬虫获取非开放的政府数据或研究数据以及企业非开放的数据,便是违法甚至犯罪;二是合法使用的爬虫技术不应具有侵入性。网站或APP基于其特定目的可以开放和共享数据,同样也有权采取措施禁止或限制对数据的访问或获取。一旦爬虫技术绕开网站或APP的禁止或限制措施以及违背Robots协议允许范围爬取数据,该技术的运用就具有侵入性。可以说爬虫的侵入性是其违法性的主要体现;三是数据爬取应当基于正当目的。一般来说,利用网络爬虫获取开放数据且手段不具有侵入性的,则数据获取行为合法。但对开放数据的获取也可能因不符合正当目的而具有违法性。从开放的非商业数据和商业数据两大基本类型出发,对非商业性数据的爬取应当要求其符合公共利益之根本目的。对商业性数据的爬取则可借鉴版权法上的合理使用原则,要求其基于合理利用的目的。

我也谈两点看法。目前,我国司法实践中,对数据爬虫的法律规制其实主要适用反不正当竞争法。在用反不正当竞争法规制数据爬虫时,对数据获取和使用两个行为都要评价,即行为必须同时具备违约或不合法,评价重点是对爬取到的数据的使用行为;适用民事法律规制时获取行为和使用行为只要其中之一违约或不合法就可以适用民事法律进行评价,这是区别反不正当竞争法规制与民事法律规制的关键。一是数据获取行为。如两位专家提到的爬取的数据是否是开放的允许爬取的数据和爬取行为是否突破网站或APP的反爬虫技术设置。二是数据使用行为。爬虫行为实施者对取得的数据是否用于同业态竞争,是否利用该爬取的数据形成了竞争优势。具体为需要考虑经营者之间的竞争关系以及行为对市场竞争的影响,判断结果最终落脚在对爬取数据的使用行为是否影响了经营者之间的公平竞争。

对于超越合法边界的数据爬虫,如何运用法律进行规制?

我从民事法律规制的角度谈几点看法。首先,对于公开数据的爬取。如果数据权利方在Robots协议或网页中告知了爬取的范围以及其他应遵守的义务,爬取方没有遵守义务,应当承担相应民事责任。其次,对于突破网站或APP的反爬虫技术设置的行为。爬虫从技术上突破数据访问控制,如突破网站或APP的Robots协议以及设置的爬虫检测、加固 Web 站点等限制爬虫的访问权限,可能违法要承担相应的民事责任。再次,对于数据的使用目的不正当的行为。对于爬取到的数据,如果使用目的是实质性替代被爬虫经营者提供的部分产品内容或服务,属于侵犯权利方合法权益的行为,应当承担相应民事责任。最后,对于给权利人造成损害的行为。如果因为爬虫行为实质上妨碍权利人的正常经营,不合理增加权利人运营成本,破坏网络系统正常运行,给权利人造成损失的,权利人可以向爬虫行为人提起侵权之诉,要求获得赔偿。

我从爬虫行为和爬取数据使用两个角度谈谈对数据爬虫的刑事法律规制。一是明知没有授权而故意避开或强行突破网站或APP的反爬虫技术设置进行的爬取行为,属于“未经授权”访问或获取数据,行为人应承担刑事责任。根据我国刑法规定,突破技术屏障入侵他人计算机系统、获取系统内的数据,可能涉及的罪名包括非法侵入计算机信息系统罪、非法获取计算机信息系统数据罪、破坏计算机信息系统罪。爬取对象特定的情况下,还有可能构成非法获取国家秘密、情报罪以及非法获取军事秘密罪等。此外,如果利用爬虫技术非法获取公民个人信息,依照刑法规定,可能触犯侵犯公民个人信息罪。二是对于使用爬取的数据实施的犯罪行为,刑法也予以特别规制。如对获取的信息数据加以传播、利用或改造,有可能涉及非法传播淫秽物品罪、侵犯商业秘密罪、侵犯著作权罪等。司法实践中使用行为多种多样,需要结合具体案情综合认定。

关于超过合法边界的数据爬虫行为的刑法规制我稍作点补充。超过合法边界的数据爬虫行为,刑事上还可能涉及拒不履行信息网络安全管理义务罪、非法获取国家秘密、情报罪以及非法获取军事秘密罪等多个罪名。这些罪名承载着我国刑法对社会管理秩序、国家安全、国防利益等在内的重要数据信息予以不同程度的类型化保护,并形成了一套以数据信息法益保护为核心的罪名体系。

今天各位嘉宾从不同角度、不同层面对数据爬虫的技术原理、应用风险、行业规制以及法律规制等问题,提供了相应的观点和看法,对数字经济时代增进人民群众的数据安全感、完善企业数据合规工作、健全数据爬虫的法律规制都有所助益。感谢各位嘉宾的精彩分享!

专业术语解释

[1]DNS是域名系统(Domain Name Service)的缩写,是因特网的一项核心服务,作为可以将域名和IP地址相互映射的一个分布式数据库,能够使用户更方便的访问互联网,而不用去记住能够被机器直接读取的IP数串。

[2]HTML是超文本标记语言(Hyper Text Markup Language)的缩写,是一种标记语言。它包括一系列标签.通过这些标签可以将网络上的文档格式统一,使分散的Internet资源连接为一个逻辑整体。HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字,图形、动画、声音、表格、链接等。

[3]URL是统一资源定位器(Uniform Resource Locator)的英文缩写,它是WWW(World Wide Web)的统一资源定位标志,就是指网络地址。在WWW上,任何一个信息资源都有统一的并且在网上唯一的地址,这个地址就叫做URL。

[4]万维网,英文全称为World Wide Web(缩写为WWW ),也称为Web、3W等,是存储在Internet计算机中、数量巨大的文档的集合。

文稿整理:杨浦区检察院 肖凤

嘉定区检察院 曹俊梅

数智时代的司法观系列回顾

◆75号咖啡|“智慧检察”的可能与限度

◆75号咖啡|数字时代的司法观(一): 司法人工智能开发的原则与政策

◆75号咖啡|数字时代的司法观(二):法律人工智能的技术、理论与应用问题

◆75号咖啡|数字时代的司法观(三):深耕数据治理 赋能检察未来——“十四五”期间检察业务数据应用与发展

◆75号咖啡|未来已来!自动驾驶汽车的挑战及法律应对

◆75号咖啡|数据霸权:“大数据杀熟” 等滥用用户数据行为的检察之治

◆75号咖啡|数据安全法与检察职能作用发挥

◆75号咖啡|守护你的“刷脸”安全——人脸信息安全的公益保护思考

◆75号咖啡|不准随便动我的“脸”——生物识别技术的风险与应对

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注