【修改版。感谢《科学网》编辑的指导和建议。】
小时候,我住在近郊。我们小区有个化粪池,有农民定期开了桶车来清理。有一次我和他们聊天,问拉一车粪收多少钱?回答是不收钱。于是我和爸爸有了如下的对话。
我:为啥农民免费为我们清理化粪池?
爸爸:因为他们拿粪去做肥料。
我:啊,那不公平!我们的粪他们就这样拿走了?
爸爸:对我们又没用,而且他们还帮我们解决了处理问题,这是双赢啊。
我:那也不行!粪对他们很值钱,他们应该分些钱给我们!
爸爸:这是物业和他们谈好的条件,双方自愿,没啥不公平的。
几十年后,这样的对话仍然在发生,只不过对象不是粪便,而是当初被称为“数字废气”的用户数据。在上个世纪末互联网开始商业化时,其主流模式就是提供免费服务而用其它方式赚钱。所以那时候“眼球”是最值钱的东西。一开始是简单地吸引点击量然后卖广告。后来通过用户数据赚钱的方式逐渐兴起,而由谷歌的AdWord作为成熟的标志。(AdWord就是根据用户浏览的兴趣来推送相应的广告。)随着人工智能和大数据技术的发展,这种生意模式越来越火,花样也越来越多。其实这也不是网上服务公司的专利。食品店和百货店早就通过折扣卡等方式来收集用户信息,发送针对性广告。(2012年美国百货店塔吉特(Target)根据收集的消费数据给一个高中女生寄送怀孕用品广告,而她父母都还不知道她怀孕了。这件事成了零售店“大数据”分析的著名案例。)但是网上服务公司的客户面更广,收集数据也更全面,而且通过“数据市场”交换整合用户数据。这些做法在近几年被不断曝光,引起消费者对数据权利的关注。特别是智能手机流行之后,服务商不仅从用户使用服务的行为中收集数据,还暗中收集与其服务无关的手机传感器数据(如用户地点等),使用户倍感侵犯。于是,这个“新商业模式”遭到越来越多的反弹,导致最近欧盟和美国加州分别立法保障消费者的“数据权利”。但也有反对者(例如美国保守派)认为,就数据权利立法会遏制创新,而由市场来解决会更好。
数据权利问题涉及面很广,涉及技术,商业,法律等很多方面。所以这方面的讨论常常不得要领,形成“鸡同鸭讲”局面。本文试图分几个层次讨论一下这个问题。由于篇幅限制,本文的范围限于公司和政府合法收集和使用用户数据的做法,而不讨论非法获取用户隐私,身份诈骗,攻击信息系统,侵犯儿童权益等犯罪行为。也就是说,本文讨论的是数据权利而不是数据安全。
本来,“数字经济”是一个厂家和用户双赢的商业模式。一方面,厂家利用用户的数据创造新的价值(改善现有产品或开发新的产品)。而另一方面,厂家也需提供廉价(经常是免费)的服务来吸引用户。但问题是随着大数据技术的进步,数据的价值越来越高。这个价值应该如何在厂家和用户之间分享?用户得到免费服务是否就够了?这实际上就是个“最后通牒”(Ultimatum)游戏的情形:用户无法决定数据的价值如何分配。但是他们可以选择不参与,这样谁也得不到价值。在这种情况下,用户的理性选择是只要有一点好处(如得到免费服务)就参与,反正没有代价。但是追求公平是人性使然,所以用户还是有理由质疑这样的分配方式。
理论上说,这个问题可以通过市场来解决,因为不同的厂商会通过提供更大价值来竞争用户的参与,直到达成一个公平的价值分配。但问题是目前有关信息太不透明。厂商存取了什么数据,那些数据怎样使用,都没有经过用户准许(在技术上每项数据使用都要获取准许也不现实)。很多情况下厂商获取数据的操作方式是在用户常识之外(虽然可能包含在使用合同的小字中)。例如有手电筒APP要求获得电话通信录或用户位置信息,这完全不合常识。另一个例子是医疗保险公司把病人病历匿名化后打包卖给医药公司,这也不是通常理解中的保险服务。这种事情多了,用户自然会质疑是否被欺诈了。于是人们更加注重利益分配中的“零和”关系而不是价值创造中的“双赢”关系,从而影响整个商业模式的发展。而没有了利益公平分配的压力,厂家躺着数钱,也就缺乏了进一步把数据价值最大化的创新动力。这是数据权利中的第一个问题:数据价值如何分配。显然,这种并不是一个新的商业现象。本文开头说的化粪池清理的故事也是类似的模式。只不过以前双方的利益关系比较透明简单,而数据经济对于一般用户来说过于复杂,因而这种“价值换服务”的做法更容易招致排斥抗拒的反应。
比价值分配问题更严重的是:厂家可能利用我们的数据来损害我们的利益。推送针对性广告还算公平的,因为它不增加广告的数量。但是有些商家根据每个用户的行为特征提供“个体化”的价格,从而让懒得比价的用户支付较高的价格,就损害了消费者利益了。更阴暗的是为了让用户更喜欢网站而选择性提供投其所好的新闻信息来限制其视野,或者为用户量身定做“娱乐计划”让其对网站上瘾。即使商家是出于合理的动机(如向用户提供更感兴趣的信息),也存在着他们是否有权像父母那样“引导”用户的问题。当然,现在还没有商家承认这些做法,但媒体上有很多议论(例如可以搜寻“personalized pricing”看到有关报道)。从技术上说这些是完全可以做到而很难被公众监督。所以用户的疑虑也是完全可以理解的。
其实,操控用户心理活动也不是新东西,而是任何销售员的基本课程。但现在不同的是厂商在心理学技术,对我们行为习惯的了解,以及操控我们心理的手段等方面都占着绝对优势。买,卖双方不再是个人之间的过招,而是“云”对个人的非对称性攻击。更何况我们对心理学的了解还远非彻底,用隐藏手段影响用户心理的后果难以预料。特别是在商业利益驱使之下,那更是让人细思恐极。
第三个问题严格说不属于数据权利,但也是最近引起广泛关注的:伪新闻问题。利用人工智能技术,人们可以制作以假乱真的音频和视频,利用受众对这些媒体形式的传统信任来散布虚假消息,影响民意。伪新闻可以与用户数据结合起来,精确推送给最容易受骗的人群,以达到最大效果而不被揭穿。
但是人们对于伪新闻并非没有免疫力。两千多年前,我们的老祖宗就知道“三人成虎”,也就是说传言不可信。在现代社会中,更已经有了信息传播的“信任链”。对于大众信息来说,信息的可信度来自于其来源:有信誉的新闻机构,公众人物,政府权威等,为他们发布的新闻信息提供背书。在法庭上更有所谓证据链:对每一个呈堂证据都要追究它的来源和保管过程,以保证其可信度。然而随着互联网发展,新闻来源日益多样化,非专业的民众和机构也成为重要的信息来源。于是,人们对信息可信度的评估就更着重于媒体形式本身。音频和视频形式被认为不可能伪造,所以就更为可信。同时互联网也带来了“众包”(crowdsourcing)的概念。如果很多来源提供同样信息,那也有助于它的可信度。可是技术发展使得这两个判据都变得不可靠了。不仅音频和视频都可以被伪造,通过网军或其它操作使得伪新闻变成“热点”也不是难事。其实即使在AI伪造技术成熟之前,用断章取义的甚至和故事不相干的音频,视频材料来传播谣言也已经屡见不鲜。这种发展并不意味着新闻从此死亡,而是表示我们需要新的判断可信性标准。
***
十五世纪德国人谷登堡发明的印刷术带来了“传单”这种大众媒体形式,被认为是宗教改革运动的一个重要推力。上个世纪三十年代,美国总统罗斯福通过收音机技术直接对全国民众讲话,而削弱了精英阶层对信息的垄断。1960年美国首次进行总统候选人辩论的实况电视转播,对总统竞选中的角力互动具有深远的影响。而在互联网开始流行时,大家也都认为这种新技术给了草根大众传播信息和组织社会运动的能力。这只是政治上而言。在商业和其他经济活动中,这些技术发展同样使得更多平民百姓能参与和得益,而造成更民主,平均的社会,如二十年前的畅销书《世界是平的》所预言。那么为什么二十年后,高科技却让人害怕了?
其实这其中的关键,就是权力的集中还是分散。一个社会的权力分配,有些是通过法制法规,有些是通过资源掌控来实现的。科技的发展降低了信息流通和理念传播的门槛,就削弱了权力集中。但是最近十年来,最新技术的成果被控制在极少数大公司手里,却又给了他们史无前例的权力。数据权利的问题只是这个大趋势中比较突出的一个现象而已。
那么怎样来限制这种权力集中的趋势呢?最明显的选项就是通过法律来规范公司的行为,维持透明和公平的商业关系。在这方面,法律的确可以起到很大作用。在美国,拥有最大量公民隐私信息的其实是我们非常熟悉的部门:税务局(IRS)。税务局不光强迫我们报税时披露极为隐私的个人身份和财务信息,还从雇主,银行等机构收集我们的个人信息。这些信息不但被用来实行税法,还提供给学术机构作为研究素材。但是一个多世纪以来,这从来不是一个问题。其原因就在于法律上严格规定了税务局可以如何使用那些数据。例如,报税资料在除去身份信息后可以被用来研究国民收入分布情况。但是最顶端的收入群体不能被单独研究,因为那个群体的人数太少,不足以掩盖个人身份。虽然斯诺顿2013年披露美国政府收集公民通信数据引起轩然大波,其实这类信息的搜集和使用也都有严格的法律规定,虽然在技术上美国政府可以做得更多。
事实上,关于数字权利的立法也的确在进行中。最近欧盟和美国加州都通过了关于数据权利的法律,对公司如何使用用户数据作出了限制。这些法律可能有深远的影响,因为它可能会塑造未来的生意模式。但是另一方面,靠法律也有很多局限性。一方面,漫长的立法过程很难适应现代科技突飞猛进的发展,因而法律过多过细,会成为创新的绊脚石。再者,科技发展中很多问题超出了公众的理解能力,所以很难通过通常的民主程序来得到回答。第三,即使有了立法也很难严格实行。由于数据技术的复杂性,公司有很多打擦边球的余地,而且即使真的犯法了,被抓包的可能性也很小。
除了立法之外,政府的另一个角色就是提供有公信力的评估。上面说到,数据权利问题中的一个关键是透明度,也就是商家披露他们如何使用用户数据。但问题是:用户们是否能真的了解那些披露的信息?研究表明,很少有用户真的去读网站的“隐私政策”和“服务合同”,绝大多数人都是直接点击“同意”。这也很合理,因为即使真的认真读了,一般用户也很难在一大堆佶屈聱牙的法律用语中发现猫腻。而商家在合同中生成更多“垃圾”来隐藏他们的猫腻几乎是零成本的。更何况那些合同本来就模棱两可,诸如“协作单位”,“第三方”等词的确切含义只能靠读者脑补。所以用户真要维护自己权益,需要专业机构的两个帮助。一个是把洋洋万言的“隐私政策”和“服务合同”抽提成人类可了解,可比较的几个项目如“是否收集用户在网站上的行为并与身份挂钩”,“是否跟踪用户在其他网站的活动”,“是否将本网站采集的用户数据与其他渠道得到的用户数据整合”,“是否将用户数据提供给公司内外与本网站无关的运作单位”等,并且据此把商家的数据权利定位分成几类。另一个帮助是审核商家的实际运作情况,看其是否遵守“隐私政策”中的承诺。这种事当然私营机构或公益机构可以做,但很难有足够的资源,公信力和动力。而政府可以设立类似食品药物管理局(FDA)这样的机构来监管数据权利。
另一个解决途径是依靠技术。这其中又有很多选项。一个是靠平台的功能来阻挡恶意的应用程序。如苹果手机的操作系统对于应用程序获取感应器数据的限制越来越严格。不仅要求逐项得到用户允许,还经常提醒用户重新考虑授权。网络浏览器对于可能跟踪用户行为的技术也提供各种警告和阻断功能。另外还有虚拟私人网络(VPN)技术,让你通过一个外加服务器来进行线上活动,这样除了那个服务器没人能跟踪你的身份。但问题是平台提供者本身也是商业机构,谁去制约它的行为呢?当然话说回来,比起信任所有的应用程序来说,信任平台提供者还是相对心安一些。另一个技术是屏蔽所有身份信息(所谓“隐身模式”)。某些网络浏览器(如FireFox)提供这种服务,可以根据具体网站来切换模式。但是这样做虽然拒绝了商家的监视和跟踪,用户也不得不放弃很多方便的功能如自动记忆的账户和爱好等。所以这是一种无奈的权衡。另一个有趣但尚未普遍的技术是“大隐隐于市”,英文是Internet obfuscation。那就是产生很多随机的网上活动来掩盖自己真实的行为。
还有一些基于市场和经济的思路,例如对数据活动收税(补偿因耗费资源和能源造成的环境损失),使得很多低效率的数据收集运作得不偿失。或者建立公开的数据市场让用户可以自己出售数据获利,而使得商家收集的数据失去价值。这些想法也仅仅是在探索中,离大规模实施尚有距离。但是如果有人找到颠覆现有商业模式而同时自己获利的方式,就很可能迅速改变目前的格局。
***
那么在这些解决方法成为现实之前,咱们用户是否就只能任人宰割了?其实并不然。从上面的分析看到,在商家/政府与用户的博弈中,虽然网络,大数据和人工智能大大影响了双方的力量对比,但博弈的性质并没有变,那就是:商家试图预测和影响用户的行为,而使自己在交易中的利益最大化。而我们手中最重要的牌也没丢失,那就是“注意力”。商家对我们的影响力(个性化广告)依赖于我们的注意力。这不仅包括我们对这个广告或网站的注意,也包括我们不愿做客观研究和搜寻的“注意力懒惰”。收集用户数据的最终目的,就是为了掌控我们的注意力。
但是,毕竟我们自己仍然是注意力的最终控制者。我们可以决定它的使用和分配。而且不论技术怎样发达,用户的注意力永远是稀缺资源。所以我们在与商家的博弈中仍然占着上风。然而,注意力的分配往往是下意识的,是人类进化的结果。如果有一个洞穴人注意鸟语花香而另一个留神猛虎踪迹,那我们大概率是第二个人的后代。可惜的是进化不会在商业社会保护我们。所以我们需要有意识地追踪和训练自己的注意力,知道我们在注意什么和为什么这样做。在网络的信息洪流面前不能放弃批判性思考的能力。如果做到了这些,也就不需要太纠结数据权利的得失了。
***
数据权利是技术发展带来的新问题,但实际上是社会中很多固有机制的新表现,而不是“奇点”。这个问题是人类制造的,也是人类能够解决的。
关键是考虑生意模式,如何改变目前权利和信息严重不对称的情况而维护商品经济中商家和用户“双赢”的机制。做到这一点不仅能保护用户权益,而且会带来宝贵的商机。
即使目前商家占上风的局面下,作为消费者的个人也不完全是待宰的羔羊。我们一方面可以通过技术手段保护自己的信息,另一方面也需要在分配注意力方面有更强的纪律性,抵制商家的各种诱惑。这样才能在高科技的冲击面前保护自我,主宰自己的生活。