概析企业数据合规策略—以网络爬虫为视角_干货_创业

一

网络爬虫的概念

网络爬虫（Web Crawler）也称为蜘蛛爬虫（Web Spider）、网络机器人（Web Robot），其在本质上是一套实现高效下载的程序，可按照指定规则，通过浏览抓取网络内容的方式，搜集、提取所需的网页数据，并下载到本地形成互联网网页镜像备份。[1]鉴于网络爬虫技术的上述技术特征，它可以帮助企业或个人更加快捷、有针对性地获取所需的网络数据信息，目前已被广泛而成熟地应用于各种互联网商业模式和应用场景，包括但不限于互联网金融、互联网新闻、互联网社交、互联网新闻、新零售等新兴领域。

但需要指出的是，不论是何种行为，都应该遵守法律和道德的边界。虽然爬虫技术本身“中立”，但不当的使用行为，却可能给行为人带来利益的同时，为其招来相应的法律风险，值得数据行业的从业者予以关注。网络爬虫-

二

网络爬虫对数据源网站或平台的不良影响

网络爬虫的使用，会对目标网站产生DDOS攻击的效果，当有成百上千的爬虫机器人与同一网站进行交互，网站将会失去对真实目标的判断，很难确定哪些流量来自真实用户，哪些流量来自机器人。

长久以往，一方面会使得数据源网站和平台的运营压力陡增，数据服务器无法承受巨量的访问要求，网站页面打开速度及信息传输速度都会产生严重的卡顿现象；另一方面，某些网络爬虫会通过技术手段，突破数据源网站和平台的技术保护措施，对其系统稳定性及数据安全产生恶劣影响。

三

网络爬虫的协议限制

（一）针对机器人协议(行业惯例)

机器人协议（robots协议）是指互联网所有者使用robot.txt文件，向网络机器人（网络爬虫）给出的网络指令协议。机器人协议里往往会设置“反爬虫条款”，限制外部爬虫访问特定信息。

（二）设置技术性障碍或通过平台服务协议来禁止访问

如腾讯公司运营的微信公众号平台，就通过协议公示的形式明确告知“未经腾讯公司书面同意，不得自行或授权以及允许或协助任何第三人获取公众平台信息内容。”

四

网络爬虫的法律限制

笔者认为，网络爬虫领域目前尚处于一种“灰色地带”，通过构造合理的 HTTP 请求头、设置 cookie、降低访问频率、隐含输入字段值、使用代理等技术手段，获取公开的数据，不影响数据源网站和平台的生产经营，一般不会被追究法律责任。但如抓取方未经许可，突破Robots协议或技术保护、恶意抓取数据源网站和平台不允许抓取的信息、公民个人信息等数据，就可能会被追究侵权并承担相应的法律责任。

（一）广义上的数据抓取

1.法理层面

笔者认为，虽然“数据权属”在我国及至世界各国都是一个有待讨论的问题。

但数据源网站或平台通过经营行为，在付出了相当的经营成本，合法、合规的收集了数据后，理应对相关数据享有利益。但行为人出于牟利目的，未经同意擅自抓取他人数据并用于自身生产经营的行为，客观上减少了数据源网站或平台的访问量、夺取了数据源网站或平台的商业交易机会。故即使抓取方与被抓取方分属于不同的营业领域，在互联网领域“流量为王”的语境下，通过截取被抓取方流量，通过引流手段争夺网络用户的行为，也往往被法院视作双方之间存在竞争关系。

2.案例解读

笔者以“百度”VS“大众点评”不正当竞争案、“酷米客”VS“等车来”不正当竞争案、“脉脉”VS“新浪微博”、“腾讯”VS“杭州快忆科技”等不正当竞争案件为例，确定数据抓取是否成立不正当竞争行为，主要依据如下要素：

序号

要点

法院裁判要点分析

数据源网站或平台对数据是否享有合法利益

数据源网站或平台付出了巨额成本，故应当对相关数据享有利益

抓取方与数据源网站或平台之间是否存在竞争关系

1.考虑行业领域、经营模式的相似度；

2.考虑消费者或用户受众需求是否存在相同或类似。

抓取行为是否正当，是否存在过错

1.考虑抓取信息是否得到许可或授权；

2.如未得到许可或授权，属于一种不劳而获的“搭便车”行为，主观上存在过错

数据源网站或平台是否存在损害

1.针对损害大小程度，考虑是否构成“实质性替代”并依据被截取流量来确定损失；

2.除此之外，占用的网络带宽及服务资源。

（二）作品信息的抓取

1.法理层面

笔者认为，当抓取方利用信息网络和爬虫工具，未经许可抓取作品[2]并通过信息网络的形式进行传播，侵犯了相应权利人的信息网络传播权[3]。

2.案例解读

笔者以“大众点评”VS“爱帮网”、“爱奇艺”VS“电视猫”等著作权侵权纠纷案件为例，确定数据抓取是否成立信息网络传播权侵权行为的主要依据如下：

序号

要点

法院裁判要点分析

抓取的数据信息是否属于“作品”

作品要求“独创性”和“可复制性”故抓取的相关信息是否属于作品，需要结合实际进行判断。

是否存在“信息网络传播行为”

判断是否利用了信息网络进行传播

搜索引擎服务是否符合著作权法的相关规定，是否能通过“避风港原则”[4]进行免责

搜索服务者是否存在“明知或应知”情形，在接到权利通知后，是否及时采取了断链措施

（三）个人信息的抓取

1.法理分析

2019年以来，随着国家工信部、网信办、公安部和国家市场监管总局等四部门联合开展的App隐私违规收集专项整治活动以来，关于个人信息的各项保护性立法工作如火如荼。而通过网络爬虫技术，未经许可抓取个人信息的行为[5]，相关法律责任的承担问题，也值得法律工作者和企业经营者的重视，尤其《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》出台后，未经许可抓取个人信息的，可能会被追究刑事责任[6]。

2.案例解读

笔者以彭某侵犯公民信息一案为例，确定数据抓取是否成立侵犯公民个人信息犯罪的主要依据如下：

序号

要点

法院裁判要点分析

公民信息

以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息，包括姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等”

抓取公民信息行为是否构成“违法获取”

违反国家有关规定，通过购买、收受、交换等方式获取公民个人信息，或者在履行职责、提供服务过程中收集公民个人信息

是否达到情节严重或特别严重的标准

收集数量或非法获利达到一定标准。

（四）其他

需要指出的是，网络爬虫技术除了能够实现数据抓取，还可以通过修改UA、修改device id、绕开网站访问频率控制等手段对数据源网站和平台实现非法控制，达到非法盈利的目的。具体表现方式包括干扰搜索引擎后台数据，提升搜索结果排名、登录社交账号自动增加好友，自动发帖等。笔者认为，这些行为破坏了数据源网站和平台的计算机信息系统数据，可能构成“破坏计算机信息系统罪”“非法获取计算机信息系统数据罪”等刑事犯罪，需要承担相应的法律责任[7]。实务领域，2017 年“秀淘”破解了“今日头条”服务器的防抓取措施，使后者损失技术服务费两万元。法庭认为涉事者行为构成非法获取计算机信息系统数据罪，相关人员被判处九个月至一年不等的有期徒刑，并处罚金。

五

关于企业数据与个人信息保护的合规性建议

笔者认为，企业数据的合规工作任重道远。无论是数据抓取方还是数据源网站或平台，都必须立足于数据提供者和数据获得者两个思路，来考虑整个企业数据合规体系的搭建。网络爬虫

（一）数据提供者

1.针对网络运行安全体系的合规建议

作为数据提供者，依据《信息安全等级保护管理办法》、《网络安全等级保护条例（征求意见稿）》、《网络安全法》及最新施行的《信息安全技术网络安全等级保护基本要求》（国家标准GB/T22239-2019）等规定可知，包含基础网络、外部业务系统、内部管理办公系统及安装在系统之上的各类应用，都被纳入了等级保护的管理范围。这些系统的所有者、管理者和依托这些系统提供服务的网络服务提供者都是等级保护的义务人，需要根据实际情况，完成自身各项系统的网络安全等级申报和搭建工作[8]。

2.针对网络信息安全的合规建议

作为数据提供者，需要按照数据安全管理办法（征求意见稿）的相关条款，网络信息安全合规工作，考虑自身网站或平台承载内容安全[9]及信息保护两个维度。目前虽然重要数据保护制度尚未落地，但个人信息保护立法已经较为完善。笔者也同步整理了部分法律法规的重要内容，供读者参阅，具体详见附件[10]，本文不做重点论述。网络爬虫

（二）针对数据抓取者

1.针对数据收集行为的合规建议

（1）抓取行为本身应予以克制，遵守数据源网站的robots协议或其他平台公示协议；

（2）抓取行为不得影响数据源服务器的正常运行，不能破坏数据源网站或平台的技术保护措施，不能严重影响其正常的生产经营。例如自动化访问收集流量超过网站日均流量三分之一，网站要求停止自动化访问收集时，应当停止；

（3）抓取个人信息时，需考虑是否满足“三重授权”原则[11]，另在数据收集过程中，需遵守《个人信息安全规范》的相关要求；

（4）抓取作品时，应注意是否获得许可。

2.针对抓取数据处理的合规建议

抓取数据后，在自身数据库进行融合过程中，数据抓取方应注意：

（1）网络运营者利用大数据、人工智能等技术自动合成新闻、博文、帖子、评论等信息，应以明显方式标明“合成”字样；不得以谋取利益或损害他人利益为目的自动合成信息；

（2）对爬取数据与原有内部数据进行融合处理后产生的信息，如（单独或结合）仍具备个人识别能力，则还应作为个人信息对待，对其处理应遵循收集个人信息时获得授权同意的范围；如融合处理后产生的是个人敏感信息，还应遵守对个人敏感信息的保护要求。网络爬虫-

快好知 kuaihz

概析企业数据合规策略—以网络爬虫为视角

金钱不但为我们创造着生存的机会，...

面对复杂销售，你ok不OK？

如何找到令人头疼有价值的网站内容...

最新