快好知 kuaihz

网络爬虫下的数据权属场景化保护思考

近年来,关于数据的争议问题层出不穷,足以彰显数据对于互联网企业举足轻重的作用。如在华为腾讯的数据之争[1]、顺丰与菜鸟之争的接口门事件[2]、新浪诉脉脉案[3]、大众点评诉百度案[4]、淘宝诉美景不正当竞争纠纷案[5]、美国的Craigslist v. 3Taps案[6]、 hiQ v. LinkedIn案[7],以及新浪微博诉微头条案[8]中,各平台方所争议的核心问题都是数据,即当一个网络平台通过技术手段获取另一个网络平台上的数据时,这种行为的合法边界在哪里?其本质上提出的问题依然是:如何在用户、网络平台之间合理分配数据的利益和权属?

一、 数据权属的四种观点及其存在的问题

通过对若干数据爬虫案例的分析,我们可以将平台数据权属的类型或观点归纳为四种:数据属于用户个人、数据属于平台、数据属于个人与平台共有、数据属于公共领域。网络爬虫-

数据权属的第一种观点是数据属于用户个人。在上文提到的今日头条与微博之争中,今日头条的意见是此种观点的典型代表。今日头条认为,爬虫是在用户授权的情形下进行的,即使头条违反了微博的robots协议,此类行为也不违法。微博对头条针对性设置robots协议反而构成不正当竞争。事实上,如果认同《一般数据保护条例》中所确立的数据携带权,那么平台将需要对个人数据的自由流转提供帮助。《一般数据保护条例》规定,“数据主体有权获取其提供给控制者的相关个人数据”,而且,这种个人数据格式应当是“经过整理的(structured)、普遍使用的(commonly used)和机器可读的(machine-readable)”,数据主体有权“无障碍地将此类数据从其提供给的控制者那里传输给给另一个控制者。”[9]按照这一数据权利,个人甚至可能可以要求微博对其他平台开放端口,以实现其个人数据的自由移转。但是,个人数据的范围、个人数据的权利均存在很大的不确定性,这使得个人数据权利的边界也存在不确定性。在不同国家和地区、不同场景下,法律对个人进行数据赋权的差异巨大。法律可能赋予个体以数据访问权、数据安全权等权利[10],也可能赋予被遗忘权、数据携带权等新型权利[11]。对此,无论是各国之间还是专家学者都未对此问题达成共识。网络爬虫

数据权属的第二种观点是数据属于平台。一般情况下是收集和使用数据的网络平台通过其与用户的格式协议,将用户在其平台上发表的内容归属于平台,如微博曾经的用户协议条款[12],这一新用户协议实质上将数据的权属界定为平台所有,排除了用户对于微博内容进行再次授权使用的权利。而这一协议也受到了用户与媒体的猛烈抨击,微博随后对这一新的使用协议进行了修改[13]。而且,从世界各国法律与不同部门的法律教义学来看,平台对其数据权利的边界不具备共识。首先,数据库法律保护与知识产权难以为平台数据权利划定边界;其次,合同法也很难为平台数据权利确定边界。robots协议是否可以构成合同要约,这在各国的司法与法律教义上均存在很大争议。再次,从侵权法与刑法的角度看,违反robots协议是否属于侵权或者侵入计算机系统,这也没有明确标准。最后,从不正当竞争法的角度来看,其需要借助其他法律规定与商业习惯来确定何谓不正当竞争,不正当竞争法本身常常具有很大的不确定性。网络爬虫

数据权属的第三种观点是数据属于个人与平台共有。例如在新浪诉脉脉一案中,法院认为,数据开放的前提是必须获得用户个人与平台的同时授权,“用户授权”+“平台授权”+“用户授权”的“三重授权”模式,即数据的提供方首先取得用户同意而收集数据,在数据提供方向第三方平台授权使用此类信息时,第三方平台还应当明确告知用户其使用的目的、方式和范围,再次取得用户的同意[15]。然而,在数据个人与平台共有的情形中,个人与平台的权力划分与权利边界仍然是一个问题。如在具有竞争关系的网络平台进行爬虫时,双重授权或三重授权的规定实际上是给用户和平台的权利进行了排序,只要平台拒绝授权,第三方平台尽管获得了用户的授权也无法爬取用户的数据,这显然有违用户的一般常识。如个人将平台的数据用复制-粘贴的方式大量拷贝到其他平台,此种行为显然没有获取平台的授权,但此种行为是否违反了数据的共有产权?此外,将数据权属配置给个人和平台共有,将存在类似的妨碍数据流通与数据共享问题。当平台进行数据交易或共享时,此时可能面临难以获取用户同意的困境。而当普通用户希望转移其个人数据时,如果需要获取平台的同意,那么这种转移也将很难实现,因为很多平台可能不愿意看到用户的流失。总之,数据个人与平台共有,这会进一步增添数据流通与数据共享的制度成本。网络爬虫

数据权属的第四种类型或观点是数据属于公众所有。这种观点认为,一旦平台介入互联网,就意味着平台数据具有了公共属性,不为任何私人或企业所有。数据的本质其实是一种言论,而言论的本质就是流通与共享,具有公共属性。因此,对数据的抓取就不需要网络平台授权或个人授权[16]。这虽然可以促进数据流通与数据共享,但却可能无法保护个人数据权利与平台的合理数据权益,存在对平台收集数据和用户创作内容激励不足的问题。一方面,互联网的公共性与互联网的联通性并不意味着公开性的个人数据就不存在隐私问题,也不意味着这类数据完全属于公共产品。在具体场景中,个人数据完全可能遭遇一系列数据隐私问题,而个人数据也可能是个人“数字劳动(digital labor)”的产物,凝结了个体的劳动与付出[17]。另一方面,平台也在平台搭建与数据收集过程中投入了大量的资金与劳动,如果对企业的正当数据权益不加任何保护,那么此种制度设计就可能出现经济学上所说的搭便车行为,无法保护和促进投资和维护市场的竞争秩序。网络爬虫-

二、网络爬虫下的数据权属分配:应场景化考虑不同的因素和利益

数据权属无论配置给哪一方都存在问题,深层次原因在于,数据的属性往往高度依赖于具体场景。数据与普通物品不同。一件具体的物品,在不同的场景下性质基本不变,都受到法律上的物权或财产权的保护,但数据在不同的场景中可能呈现完全不同的特征。同样的一组数据,在不同的场景中对于不同的对象而言可能分属不同类型的数据。以社交网络中的用户数据为例,此类用户数据对于朋友圈的对象来说无疑属于公开数据,因为这类数据的本意就在于朋友圈的传播。但对于平台与第三方企业来说,此类用户数据又属于数据隐私所保护的对象,因为其中包含了大量可识别个人的个人信息。此外,对于具有竞争关系的第三方平台而言,此类用户数据的集合又具有类似数据库的性质,具有商业价值,希望得到法律的某种保护。网络爬虫

由此可以看出,数据权属问题高度依赖场景,维护个人数据权益与企业数据权益必须采取场景化的保护方式。通过在具体场景中确定数据的性质与类型,并根据具体场景中的各方的合理预期来确定相关主体的数据权益,这是解决数据权属与数据争议的更好方式。具体而言,平台数据权属的场景化界定需要考虑以下一系列因素:

第一,应当将数据隐私保护作为最为重要的考虑因素之一。在数据隐私会给个人带来较大风险或打破个体合理预期的情形下,应坚持数据隐私合理保护相对企业数据权益的优先性。这是因为,一旦个人数据隐私得不到合理保护,不但个人的合法权益就无法得到保障,企业也会丧失来自用户与消费者的信任。[19]

第二,在保障个人数据隐私的前提下,应注重促进数据的共享与互联互通。数据的共享与互通不但无损于数据本身的价值,而且更可能发挥数据的规模化优势,真正发挥大数据的功能,并为人工智能产业提供坚实基础。毕竟,所谓的大数据,其最主要的特征就是“高容量(high-volume), 快周转(high-velocity)、 多种类(high-variety)” [20],离开了数据的共享与流通,大数据以及人工智能的发展就是无源之水。

第三,应根据爬虫平台与被爬虫平台的性质、爬虫行为的特征、被爬取数据是否公开等因素来确立不正当竞争与合理使用的边界。就爬虫平台一方而言,当爬虫平台一方具有公益性或具有公共基础设施的性质时,应当更多允许爬虫平台进行数据爬虫。例如,美国与欧盟等地区都确立搜索引擎对其的数据爬虫行为也被认为属于合理使用的范围[21]。就被爬虫平台的一方而言,应当考虑被爬虫平台一方的数据体量与数据性质。当被爬虫的一方数据体量巨大,而其中的数据又属于原始数据或基础数据时,此时应当更多允许第三方的数据爬虫与数据合理使用。这是因为,当超级网络平台收集海量数据后,此时数据的潜在垄断就会成为可能。如果赋予此类平台以过强的数据保护,其结果就可能出现所谓的数据割据或数据封建主义,无法实现数据共享与数据的普惠性。网络爬虫

当然,确定数据爬虫属于不正当竞争还是合理使用,需要考虑的因素还远不止以上因素。例如还需要结合具体场景中的商业习惯与行业惯例来判断企业的合理预期,多种因素的综合性分析将使得司法对此问题的分析更为全面与融贯,更能符合法律的整体性解释。

三、数据权属场景主义的具体应用:以个人数据与平台数据冲突为例

数据权属的确定中,目前最为棘手的一类案件是个人数据权利与平台数据权利冲突的情形。例如在微博和微头条之争中,第三方平台微头条在获得微博用户授权同意的情况下,通过爬虫将微博平台上的用户发布内容同步到微头条上,微博起诉微头条未经其同意下爬取微博用户公开数据涉及不正当竞争行为。网络爬虫

对于此类案件,首先需要确定,此类争议中的相关行为是否涉及用户隐私。如果此类案件为全部为用户公开发布、公众人人可见的公开内容,就应促进此类数据的共享和互联互通。在HiQ诉领英案中,法官正是通过用户设置其内容可被公众查看,分析得出用户期望公开的资料被搜索、挖掘、汇总、分析,进而认为如果授予像LinkedIn这样的私人实体全面的权力,使其可以基于任何理由阻止查看者获取其网站的公开信息并以CFAA的制裁作为支持,这可能会对公众言论以及互联网承诺的信息自由流动产生严重威胁。

其次,应当注重个人数据权利与平台数据权益的平衡。个人信息保护,除了防御性的权利,另一个重要目的是实现个人数据的积极性权利。就此而言,如果相关个人信息的流通不会给公民的隐私期待带来伤害,也不会侵害对方的商业秘密等法定权益,此时应当尽可能优先实现公民的积极信息权利。我们知道,欧盟和美国加州都确立了数据可携权,如果认同数据可携带权,那么平台不仅不能对个人数据进行限制,还需要对个人数据的自由流转提供帮助。按照这一数据权利,个人甚至可能可以要求微博对其他平台开放端口,以实现其个人数据的自由移转。我们未必需要完全继承欧盟和加州的数据携带权,但保护公民的积极性数据权利,也是个人信息保护的应有之义。网络爬虫

最后,我国在应用反不正当竞争法时,也应当保持慎重。我国当前对于平台数据权属的确认,主要应用反不正当竞争法。但从全球层面看,反不正当竞争法的适用范围具有缩小的趋势。很多商业行为,只要不侵害法定权利或准法定权利,一般不会被认定为不正当竞争。就此而言,在运用反不正当竞争法处理平台数据权益争论时,需要慎重应对。尤其不能简单以搭便车来认定不正当竞争,因为在一般的商业竞争中,搭便车的行为非常普遍。搭便车其实是企业寻求商业机会的正常商业行为,同时搭便车行为也往往包含了企业的成本付出与战略投入。

综上,从数据的多重属性与场景化特征出发,需要确立数据的场景化保护与场景化确权。无论是个人数据保护还是企业数据权益的合理保护,都需要注重通过自下而上的个案来推动数据保护规则的制定与演进,而非过于依赖自上而下的规则制定。此外,平台数据权属的界定需要考虑多种不同因素,既需要考虑数据隐私的优先保护,考虑合理保护平台数据权益,又要特别注意数据的共享。既需要考虑数据领域的搭便车行为与不劳而获,又要注重数据的公共性。既需要防止平台的不合理竞争,又需要防止数据垄断与数据壁垒。如此,互联网才能实现数据的合理流通与合理保护的双赢。网络爬虫-

本站资源来自互联网,仅供学习,如有侵权,请通知删除,敬请谅解!
搜索建议:爬虫  爬虫词条  权属  权属词条  场景  场景词条  思考  思考词条  保护  保护词条