【原编者按】
本文第一作者克劳迪娅•比安科蒂(Claudia Biancotti)自2002年起供职于意大利中央银行,现任该行国际经济与国际关系部高级经济学家,并自2008年10月起担任美国彼得森国际经济研究所访问学者。主要关注技术公司监管,侧重竞争政策对人工智能发展的影响。
本文认为,数据集中对集体安全、消费者权利和竞争构成负面影响,而推行强制性的数据共享,即要求市场领袖企业与其他公司和学术界共享用户数据将对竞争带来正面影响。但另一方面,数据共享可能加剧已有的消费者隐私风险和集体安全风险,推动强制性数据共享的决策者应权衡利弊得失。
本文原题“Opening Internet Monopolies to Competition with Data Sharing Mandates”,是彼得森国际经济研究所2019年4月发布的一份政策简报(Policy Brief 19-3)。
彼得森国际经济研究所(Peterson Institute for International Economics,PIIE)是一家美国的私立、非营利智库,1981年创办,位于美国首都华盛顿。据美国宾夕法尼亚大学“智库与公民社会项目”(TTCSP)2019年1月发布的《全球智库报告2018》(2018 Global Go To Think Tank Index Report),彼得森国际经济研究所在“全球顶级智库(美国和非美国)”分类排名中列第12位。
以下是对该文主要观点的摘译,具体技术细节请参考原文。文中观点只代表作者个人,请读者明察。
体量空前的数据为何重要
2009年,来自普林斯顿大学的一个计算机科学家小组发布了ImageNet,这是一个最初包含320万张数码图片、代表大约5000个真实物体的数据库。机器终于能用足够的数据去理解不同物体的外观,这标志着计算机视觉技术的转折点。到2015年,计算机在对象识别任务中的表现超过了人类。
ImageNet拉开了机器学习飞速发展的序幕,这是一种基于算法的人工智能,它通过观察样本推导出决策规则。机器学习模型需要大量数据,尽管早在20世纪50年代其数学基础就已奠定,但数十年来,数据的缺乏阻碍了模型应用。互联网和经济数字化的发展使得越来越多的数据可供研究人员和公司使用,机器学习变得司空见惯。
随着时间的推移,人工智能已从诸如区分静态物体这样的简单任务逐步发展至更为复杂的应用,这进一步增加了数据之于技术、社会和经济进步的重要性。
经济合作与发展组织(OECD)已将数据驱动型创新定义为“21世纪经济增长的关键支柱”。
相较其竞争对手而言,GAFAM(指Google、Apple、Facebook、Amazon、Microsoft五大科技巨头——译注)享有显著的数据优势。尽管这些公司之间在所收集数据的具体变量集方面存在差异,但它们大多掌握用户的以下信息:个人识别信息,包括身体特征、社交联系、地理位置、职业;信仰、观点和偏好;线上行为,可能包括浏览过的网页、购买的产品、花费的金额、点击的链接、看过的视频,以及进行的搜索。将例如实体店信用卡使用记录这样的线下活动,与线上行为打通结合的数据收集越来越普遍。
数据集中的风险
与数据集中相关的首要风险涉及集体安全。
所有计算机系统都注定存在技术漏洞,而一心要利用漏洞发动网络攻击去获取利益或实现战略目标的敌对行动方数量庞大。因它们拥有的数据价值连城,以及为其他经济活动提供服务,GAFAM成为网络攻击的头号目标。
GAFAM拥有的数据若遭大规模泄露,破坏力将远超过人们所理解的侵犯隐私。
涉及针对商业破坏的黑客攻击时,损害也会远超直接受害者所承受的损失。网络攻击的负外部性是明显的。
在这方面,GAFAM和社会上其他公司的利益是一致的:它们都希望避免遭遇攻击。
涉及数据和集体安全之间的另一种关联时,即敌对行动者可以利用GAFAM几乎无所不在的触角以及它们基于机器学习的洞见去操纵公众舆论,情况就更复杂了。
到目前为止,整个行业主要依靠自律。特别是在美国,立法者一直在发出含混的信号:他们从听证会和公众讨论中听到了对GAFAM的指控,即这些巨头给信息操纵提供了便利,甚至在这一过程中为达到自身目的而扮演了积极角色,但他们没有做出任何政策回应。
问题很难解决,这尤其是因为,在线上平台的语境下,说服他人(包括在政治活动中)的合法企图和恶意歪曲信息之间的界限,很难以具有法律意义的方式划出。此外,旨在管控发布内容的法律往往会引发审查方面的顾虑。
越来越多的证据表明存在数据驱动的误导信息,在这种情形下,无论对GAFAM自身还是对社会来讲,不作为的代价都是高昂的。公众对网络平台的信任崩塌,出现这样一个转折点是可能的。怀疑会蔓延到其他数字环境,致使人们放弃一些新技术,进而对生产力和经济增长造成损害。
与数据集中相关的第二个风险涉及消费者权利。
企业获取和使用由个人提供及与个人相关的数据时产生的部分问题由消费者保护法处理。在这种情况下,企业规模不是问题:无论拥有多少消费者,所有数据收集者都需要遵循相关法律。然而,在仍然存在的很多灰色地带,由于GAFAM的决定影响着数十亿人,它们毫无疑问是标准的制定者。
隐私作为已经达成了一些共识的一个领域,被定义为个人通过限制谁可以获取特定信息来区分私人和公共领域的能力。大多数OECD国家已经就隐私问题制订了法律,或正在进行立法。相关的立法基于如下理念:公司收集的个人数据在使用、共享和出售时须征求该人同意。在美国,尽管对这一做法的有效性存在重大疑问,联邦层面也依旧没有隐私法,但一些进程正在推进当中。
另一方面,提供数据的个人和从数据中挖掘收益的公司之间在力量和信息方面的不对称问题尚未得到广泛解决。GAFAM的普遍做法是免费提供数字服务以换取用户数据,但经济学家们质疑这样的条件是否公平地反映了信息的价值。
数据驱动的歧视是另一个值得关注的问题。
监管机构难以查明形式更微妙的算法偏见,在这种偏见作用下,族群、性别、年龄和宗教等变量都可能被不恰当地当作决策因素,而且找到证据非常困难,因为在黑箱模型中,这些变量会与其他变量混淆。
最后,数据集中会给公平竞争带来风险。
数据赋予GAFAM竞争优势的最明显渠道,是可以运用机器学习算法得出更准确预测。这将影响到:(1)旗舰产品市场,和(2)其他产品市场。
GAFAM的竞争优势会延伸到技术发展方面,这一事实通常没有被注意到,但从长远看意义更为重大。机器学习是狭义人工智能(narrow artificial intelligence, NAI)或者说能力局限于完成专门任务的人工智能的一个范例。下一步有待实现的,是像人类一样具备创造力和灵活性的机器推理[即通用人工智能(artificial general intelligence, AGI),也称强人工智能(strong AI)]。就通用人工智能未来可以走多远,以及狭义人工智能如何逐步向通用人工智能发展,计算机科学家的意见并不统一。
但无论如何,更多数据可能有助于GAFAM比其他竞争对手更快开发通用人工智能。此外,它们与顶尖研究机构一样更能吸引到数据之外的必要补充资源——科学人才。
经济学理论假定,无论是在产品市场还是研究中,竞争优势的存在本身都不是负面的。在一段时间内拥有市场支配力并获得利润的前景,是激励企业创新的一种动力。但当占主导地位的公司排斥潜在竞争对手时,问题就出现了。
牢固的市场支配地位可能导致消费者面临永久独占性定价(supracompetitive prices)和/或质量下降。也可能导致创新减少,因为占主导地位的公司不必投资就可以享受租金,但这一论点是否适用于GAFAM,目前仍无清晰证据。
2018年8月,德国社会民主党领袖安德莉亚•纳勒斯(Andrea Nahles)提出的立法倡议要求,超过一定规模的数字公司与公众共享其拥有的部分代表性用户数据。她认为,数据共享将为规模更小的公司开辟新的机会,减少不平等并促进经济增长。
此前几个月,《经济学人》杂志也曾提出过一个略有不同的方案,建议技术市场的领袖企业有偿向竞争对手提供部分用户数据。
在一篇刊登于《外交事务》杂志的文章中,牛津大学互联网治理专家维克托•迈尔-舍恩伯格(Viktor Mayer- Schönberger)和科技新闻记者托马斯•拉姆什(Thomas Ramge)提出了更为激进的版本:“……系统收集和分析数据的每一家一定规模以上公司,都必须允许拥有同样市场准入的其他公司获取其数据的子集。某家公司的市场份额越大,其允许其他公司看到的数据就应该越多。”
呼吁实行强制性数据共享(data sharing mandates, DSMs)以一种新颖且更全面的方式反映了,在竞争政策制订过程中,人们对个别公司垄断关键资源长期存在的担忧。
2008年,美国司法部批准了金融数据提供商加拿大汤姆森公司(Thomson Corporation)和英国路透集团(Reuters Group)的合并,条件是汤姆森集团将其三个专有数据库的副本和相关知识产权出售和授权给会在与合并后的实体展开竞争时运用这些数据提供产品和服务的某一家或者几家公司。司法部认为,一家公司独享数据库“可能导致价格上涨和创新减少”。欧盟委员会对该并购案也给出了类似的结论。
在汤姆森路透合并案中,数据的竞争相关性是简单直接的,因为合并双方都属于销售数据的商业领域。竞争监管当局饱受研究文献的批评,研究者们指责,它们在ImageNet取得突破后的最初几年间,在一些案例中未能权衡数据集中的潜在反竞争效应:这些案例中的公司没有出售数据,而是将数据作为投入资源,生产出其他产品。
如今,在欧盟和美国的合并审查中,这一侧面已成为例行考虑。2019年初,在一起涉及互联网巨头的反垄断裁决中,“将数据作为投入资源,生产出其他产品”首次成为一个关键因素,当时,德国竞争监管机构禁止脸书(Facebook)在未得到用户同意的情况下关联不同服务之间的数据,并明确将此举定义为滥用市场支配地位行为。
强制性数据共享要求公司对竞争对手销售数据,而不是免费给予,这也可被视为是关键设施原则(essential facilities doctrine)的一种应用。该原则认为,假如一家公司独家控制一项关键设施,而该设施对能在下游市场与之形成有效竞争的其他公司不可或缺,那么该公司就有义务以合理价格交换这项设施的准入许可。尽管在法律学者中该原则颇受争议,但在美国和欧盟的反垄断法庭上,它依旧是诸多决策因素之一。
在应对数据集中负面影响的众多可能措施中,强制性数据共享显得特别有意义,因其目标是壮大可以从信息中获取价值的经济参与者的队伍,同时不会过分约束现有企业。
在所有竞争问题上,政策制定者都必须力求取得微妙的平衡。他们必须打击滥用支配地位的行为,防止市场中的领袖企业自满,确保公平条件下的市场准入是可能的,以及必须持续创新以保持优势。同时,他们必须避免采取那种被认为粗暴随意的利益再分配措施,因为这可能打击市场领袖企业和新兴企业的投资。
对GAFAM而言,寻求这种平衡尤为重要。鉴于这些公司具备创新能力,并在数字经济中扮演着准基础设施(quasi-infrastructure)的角色,错误的激励组合可能严重削弱技术进步的整体速度,最终损害经济增长。此外,基于互联网的服务市场正在逐步全球化,但在一些司法管辖区向外国供应商开放市场准入的同时,也有地区实施了限制。美国和欧盟制定的任何旨在遏制GAFAM支配地位带来的负面效应的政策干预或执法策略,都应考虑到平等竞争环境的缺失。当下市场准入的不对称性不应有利于那些源自封闭市场的玩家。
政策权衡
如果仅依据潜在的竞争优势进行评估,强制性数据共享本质上是不错的,尽管在应用范围上受到一定程度的限制。相关要求将使得更多企业有可能在依靠分析人类行为的广泛领域中收获基于机器学习的见解,或是改进已有的见解。
设计、生产和营销选择都将得到提升,整体经济表现也将得到提升。
然而在竞争事宜之外,强制性数据共享并不是一个明确的积极解决方案。一个关键问题是隐私保护。在包括欧盟和加州在内的多个管辖区内,未经数据主体同意,企业向第三方共享其收集的个人数据是违法的,而共享匿名数据是合法的。
假设立法者并不介意为推动数据共享而放弃通行的数据保护法规,那么任何强制性数据共享举措都必定需要获得数据主体同意才能共享可识别信息,或是只能共享匿名数据。
依赖用户同意是极成问题的。个人对隐私的偏好差异很大,难以衡量,有时甚至是矛盾的。
鉴于更小型公司的保护标准与大公司相比通常更弱,增加能接触到个人信息的实体的数量一样会增加歧视的机会和黑客攻击的风险。进而,即使共享的所有参与方都遵守数据保护法规,这样的共享仍威胁到用户隐私和集体安全。
此外,共享个人身份识别符(personal identifier)的要求,使得强制性数据共享对GAFAM来说成本太过高昂。
假设机器学习算法的目标是要预测某个人喜欢什么样的新音乐,那么它不必知道该人的姓名,有关人口统计、位置和聆听习惯的匿名信息已经足够。但如果广告商希望向特定的个人推广唱片,他们就必须获取他/她的个人信息。
强制共享不含身份信息的数据,令新兴企业得以运用机器学习,由此可以促进竞争,但不会立即破坏GAFAM独占的市场影响力。出于这些原因,强制性数据共享理当要求相关企业在共享数据之前对那些数据进行匿名处理。但需要注意的是,这个方案仍远不能消除风险。
离群值移除或有限数据屏蔽(data obfuscation),在传统统计学调查中已被证明是进行匿名化处理的成功方法,但在数据库巨大、复杂且高粒度的新环境下,这一类方法表现并不好。利用多种技术,这些数据库特别容易重新识别出数据主体。(粒度,是指数据库的数据单位中保存数据的细化或综合程度的级别——译注)
就如何更好地防范这一可能并生成保护隐私的人工合成数据,相关研究正取得进展。相应地,因企业在机器学习方面已有尝试,这可以减少企业对大量用户数据的依赖,进而在一定程度上推动所谓机器学习的“民主化”。(民主化,意指减少准入障碍,对更大社区开放——译注)
然而,未来仍有很长一段距离要走。
任何基于匿名化处理的强制性数据共享都意味着要在隐私保护与信息的经济价值之间进行权衡。而经删除和处理的信息,其经济价值会减少,因此这一权衡需要仔细评估。如何确认哪些信息在经济上最有价值,当前的知识经验仍非常有限,有待拓展。
在设计政策纠正数字经济中的力量不平衡问题时,竞争与隐私之间的权衡并非唯一考量。培育数据市场,让信息回报在这样的市场中在消费者和企业之间进行更公平的分配,从理论上讲是有价值的目标。这一目标,或许可以通过实施恰当的强制化数据共享规范或不同的举措来实现。
另一方面,安全风险可能浮现。如果个人能够通过出售自己的数据获益,那么遭泄露信息的数量可能增加,能够获取信息的参与方也可能增加。在一个开放的数据市场上,GAFAM不会是唯一的可能买家:任何使用机器学习或希望拓展其业务的企业都会表现出购买兴趣。为防止敌对行动者冒充合法企业并批量购买个人数据,保护措施是必要的。
(本文由郑永妍摘译 )