你在网上的用户数据可以用大约0.5美分买到,但你给互联网广告系统带来的价值约为每年1200美元!还好,迄今为止这一变现渠道并不是很通畅,但你得当心:总有一天,你的互联网服务提供商,会比你更了解你自己……
◆“你在网上所做的一切都会留下痕迹,其中包括你访问的所有网站的记录。如果有人掌握了这些痕迹,那么他对你的了解就多得惊人。他会八九不离十地知道你的朋友是哪些人,你对什么感兴趣(如果你在网上表达过你的政治观点,他也会知道),他还会知道你上网时喜欢做什么、下载了什么、读了什么、买了什么和卖了什么。”
◆"当华尔街为脸谱网、谷歌或者其他网络巨头的股票打上价签时,考量的不是它们提供的服务,很大一部分考量是它们所收集的数据以及这些数据相对于广告商的价值。"
◆“但是,我们在享受互联网的同时,也心甘情愿地帮助建立了庞大到超乎想象的监控系统。这张网让政府和企业手里有了无数的线可以操控,我们则成了——提线木偶。”
1988年,一名年轻的英国计算机科学家蒂姆·伯纳斯-李在美国军方APRANET开放架构的基础上创建了万维网,初衷是便于世界各地的欧洲核研究机构的科学家互相联系。但万维网很快不再仅限于该机构内部,甚至很快超越了学术界范畴,成了大众分享信息的不断扩大的平台。1994年,万维网用户突破千万大关。
但在那时,互联网仍然基本上与商业无缘。所谓商机,不过是美国在线等公司向用户提供网络连接罢了。这是因为还没有哪家公司摸索出网上的生财之道。以亚马逊为例,这个1995年就进军网络的先锋企业在最初的六年里都没有盈利。互联网被看做是小年轻们的游乐场,而不是正经的成年人应该待的地方。
“互联网的增长将会显著放慢,因为大多数人会发现,他们彼此之间没什么可说的。”诺奖得主、经济学家保罗·克鲁格曼在1998年是这么说的,“到2005年左右,现实会证明,互联网对经济的影响也就跟传真机差不多……十年后,‘信息经济’这个词会听起来很傻。”
克鲁格曼大错特错。在二十一世纪的头5年,互联网使用量增长了160%。2005年网络用户已经达到近10亿人。同年,网上交易网站eBay上线,亚马逊实现盈利,商户对商户的电子商务营业额达1.5万亿美元,网上消费者消费额预计在1420亿到7720亿美元之间。
与此同时,图书馆把全部图书制成电子版,面向大众开放;音乐被放到网上分享——尽管不全是合法的;业余人士开始拍视频,上传到一个名叫YouTube的新兴网站上;开源的网络百科全书“维基百科”开始利用集体智慧;医疗研究者利用互联网进行随机对照临床试验;人们彼此之间竟然真的有很多话可说——哪怕是自说自话。
2005年7月网上有1450万个博客,13亿个链接,与同年3月的数据相比竟然翻了一倍。2004年问世、起初仅面向常青藤校友的社交网络“脸谱网”在2006年向所有13岁以上的人士敞开大门。如今脸谱网已经拥有8.5亿个用户,市值约为8000亿美元。
如今,互联网的无所不在是人们在25年前乃至5年前所难以想象的:在教育界有海量公开在线课程、在出版界有电子书、在新闻界有从纸媒到电子媒体的变迁、在医学界有电子病历记录;从政治组织到政治抗议,从交通、音乐、房地产、理念传播到色情内容,从爱情、友情到评论,互联网的影响难以尽数。
2006年,韦氏词典正式将“google”作为一个动词收入词条,这无异于明确宣告:互联网已经渗透到人们的日常生活。
谷歌的搜索引擎发布于1998年,它改变了关于信息收集和传播的一切,而且远不止于此。
它改变了信息的价值来源,这种改变也许是最具颠覆性的。对询问给出的回答不再是唯一有价值的东西;价值如今蕴藏于搜索行为本身,答案则无关紧要。谷歌搜索允许广告商和推广商对他们的广告进行个性化定制,当然这样做也没什么坏处。
比如,你一搜索“夏威夷珊瑚岛”,很可能就看到关于夏威夷度假的广告。(如果前一阵你搜索“背包”和“压力锅”,则很可能在自己门口看到FBI探员。)从挖掘商机到监视隐私其实只在一线之间,只不过这一点在最初那几年还不明显。
那时候,同样不明显的是万维网将会如何演变。最初的万维网,那个由静态主页、充满“热点链接”的文件和电子商铺组成的网络,慢慢进入2.0时代——人们不需要懂什么技术就能轻松分享信息。互联网从此变成了一个由脸谱、推特、FourSquare和Instagram等网站组成的全球社交大论坛。
随着2.0时代的降临,人们开始公开自己私人生活的某些片段:让别人知道自己正在H&M购物,或者正在橄榄园餐馆腐败;让别人知道自己如何评价H&M的某个系列或者橄榄园的服务生,并且上传自己穿新仔裤或者享用餐馆美食的照片给大家看。
还有各种的分享自己女朋友、自家孩子、醉酒同学的照片,记录自己出入各种交际场合的流水账,以及发贴说担心皮肤变松啊,如何治疗失眠啊,给教授打多少分啊……。
社交网络对这种生活方式给予鼓励和奖赏,让人们养成这样做的习惯并视作理所当然,同时也降低了很多参与者的警惕性。尽管人们很可能知道这些曝光是给新的信息经济提供“饲料”,但他们并不特别在意。正如约翰·诺顿在他的《从古滕伯格到扎克伯格:关于互联网你必须知道的故事》一书中所说的:
你在网上所做的一切都会留下痕迹,其中包括你访问的所有网站的记录。如果有人掌握了这些痕迹,那么他对你的了解就多得惊人。他会八九不离十地知道你的朋友是哪些人,你对什么感兴趣(如果你在网上表达过你的政治观点,他也会知道),他还会知道你上网时喜欢做什么、下载了什么、读了什么、买了什么和卖了什么。
换言之,关于你的信息不仅是你吃了什么,还包括你想吃什么,在哪儿吃的,评价怎么样,跟谁一起吃的,在吃之前和之后分别做了什么,再来这家餐馆是否还会点同样的菜,你是否在减肥,是否考虑买一台体重秤或者做减肥手术——所有这些信息不仅你自己关心,你的邻居、同事、朋友、广告商还有国家安全局的承包商——这只是列举一小部分人——也很关心。牛津大学教授维克多·迈尔-舍恩伯格和《经济学家》“数据编辑”肯尼斯·库克耶在他们最近的《大数据时代》一书中说道:
“谷歌一天处理的数据就超过24拍(1拍相当于1024T),千万倍于美国国会图书馆中全部印刷品的信息量……人们每天在脸谱网上点‘赞’或者留言的次数接近30亿次,这创造了一种数字痕迹,公司可以从中嗅出用户的喜好。”
所有这些分享累积之后创造的价值是无法以金钱衡量的,因为社交网络是有生命的,我们不停地提供更多的个人信息,每一点信息都与其他内容有着千丝万缕的联系。
埃里克·西格尔在他的书《可预测的分析学》中说,“一名用户的数据可以用大约0.5美分买到,但一名用户对于网络广告系统的价值约为每年1200美元。”在很多情况下人们仍然不清楚如何把这种价值转化为账面利润,但思科公司不久前预测说,到2022年互联网的价值将达4.1万亿美元。
然而在当前,最关键的资金驱动力不是互联网市值将来会有多高,而是从购买个人信息的成本(并不算高)和可以从中赚多少钱之间的差额。当华尔街为脸谱网、谷歌或者其他网络巨头的股票打上价签时,考量的不是它们提供的服务,很大一部分考量是它们所收集的数据以及这些数据相对于广告商的价值。
对这些互联网企业来说,让人们能发送电子邮件、能发布高中同学聚会的照片、能找到里诺城附近一个卖墨西哥玉米卷的偏僻小馆子,都不过是诱饵,引诱用户提供更多个人生活细节——这些用户往往没有意识到,他们的个人细节会如何流传出去,又会流向何方。
《华尔街日报》一项调查发现,“50家最受欢迎的网站(占美国人浏览网页总量的40%)在《华尔街日报》的测试电脑上共计安装了3180个追踪工具……其中大多数工具的存在,用户并不知情”。脸谱网新提出的隐私政策草案规定,它“有权在(公司)提供或推广的商业、赞助或相关内容中使用你的姓名、头像、内容和信息”。
换句话说,脸谱网可以使用你或你朋友的头像为广告客户当“托儿”,而且无需征求你的同意。(这些规则尚未生效,但不幸事件已经发生过:一名少女的照片出现在脸谱网的约会广告上,从而令她在网上饱受辱骂。在女孩因不堪压力而自杀后,脸谱网被迫向其父母道歉。)脸谱网把要求用户拱手交出自己肖像权的条款称作“隐私条款”,这当然极尽讽刺。
但在互联网时代,威胁到隐私的不仅是网络企业所倡导的公开化,还有接纳这些企业的文化。正如硅谷的人种学家爱丽丝·马维克在她的新书《状态更新》中所说的,“社交媒体已经把关注经济带入了日常生活和世界各地百万民众之间的关系当中,并且让自我标注和生活记事等获取关注的技巧变得十分流行”。
人们选择使用脸谱网,尽管它的隐私条款并不尊重隐私;人们选择使用谷歌,尽管知道谷歌的Gmail邮件服务会扫描私人交流中的关键词然后发送相应的广告;人们选择在推特上发布信息,让自己成为“微名人”;人们选择携带手机,即便手机的定位功能无异于是最佳跟踪器。
这种跟踪器好用到了何种程度,德国《明镜周刊》不久前的报道说得很明白:“美国国安局不仅能获取这些智能手机里最敏感的信息,包括联系人列表、短信、备忘录,以及用户曾经去过哪里的位置信息。”但谁管国安局呢——GAP发现我们就在附近,还发来了羊绒衫打八折的信息!也别指望匿名能保护隐私。
最近,哈佛大学的兰塔尼娅·斯维尼和同事们用实例证明,要把人类基因组项目中的匿名参与者重新“挖出来”太简单了。她在报告中说,利用这些参与者留下的服用药品、医疗疗程、出生日期、性别和邮编方面的信息,然后“把人口统计学与投票者名单等公开记录联系起来,再搜索藏在附录文件中的姓名,我们成功确认并能说出姓名的参与者比例达到84%到97%。”
当然,匿名也不一定是美德——在网上,匿名往往为所谓“脑残”和蛮横滋事者提供庇护。但信息透明也给因特网带来了一系列问题。例如,曾有一伙聪明的程序员创建了一个名叫Eightmaps的网站,任何人只要向反对加州同性婚姻的运动捐赠100美元,这个网站就会显示他的姓名和住址。
于是捐款人(以及捐款人的雇主,包括著名的加利福尼亚大学)开始收到大量的骚扰电子邮件和电话。在支持同性婚姻的人看来,这些捐赠者也许罪有应得,但有了这一先例之后,政治观点已经无关紧要。下一次被骚扰的也许是支持婚姻平等者、支持控枪或者支持堕胎者。
捐赠人信息被公开也不是没有先例,但互联网的扩散面广和方便信息获取的特点可能产生了放大效应。(另一方面,活动家们也是借助这种放大效应来募集网上签名并组织示威的。)《网络的错觉》和《要挽救一切,请点击这里》等书的作者耶夫根尼·莫洛佐夫就不赞成信息透明,他指出了另一个陷阱:其他人慷慨的信息共享可能让那些决定不共享信息的人无从遁形。
比如说,很多人都在大晒特晒自己的健康数据,体重、血压和日常锻炼活动等等,而你却不这么做,你猜保险商会怎么想?莫洛佐夫说,这种透明对那些身体状况好的人有利,“因为自我监控只会让状况越来越好。如果你不属于这一类,那么这种个人说明书只会给你制造障碍:保费提高,折扣减少,就业受限”。
对自己的健康信息进行密切监控并与外界分享,这是日益流行的“量化自我”运动的方式之一。这一运动的口号是“通过数字来认识自我”。
尽管它并不是互联网的直接产物,却是互联网文化的衍生品,帮助它发展起来的是无线技术、网络、移动应用程序,以及这样一种信念:被细致分解、划分区块、并用数据描述的生活才可谓精心的生活。
如果说记录血压、心率、饮食和睡眠还不足以获得充分的自我认知的话,“量化自我”运动的粉丝还可以下载一款名为“便便日记”的程序,“轻松记录你每一次排便——包括时间、颜色、多少以及形状等”。
尽管现在人们难免觉得这有点太过了,但不太可能一直这么觉得。我们生活在“大数据”时代,正如迈尔-舍恩伯格和库克耶所说,这将会“改变我们生活、工作和思考的方式”。
网上银行、社交媒体、网页浏览、购物、收发电邮、音乐和电影播放,这些网络活动会产生庞大的数据,但互联网本身能够通过数字化和云计算对复杂且广泛的数据组进行存储和操作。
数据——特别是脸谱网分享的、佛罗里达州政府出售的、或网络零售商和信用卡公司产生的那种个人数据——有时候被称作“新石油”,这不是因为它的价值来自萃取(虽说这也是事实),而是因为它注定利润丰厚而且具有经济转化能力。
在2011年的报告中,世界经济论坛呼吁把个人数据视作“新的资产类别”,宣称这是“一种新的原材料,可以与资本和劳动力相提并论”。莫洛佐夫援引贝恩公司一名行政人员的话解释说,“我们在试图把焦点从单纯的隐私转移到我们称之为知识产权的层面上”。不难想象,谁将会从这些“知识产权”中获利。
单独来看,数据点通常是微不足道、没有连贯性的,也正因为如此,人们才每天不假思索地把他们公开共享。它们只有在以其“主人”从未想到过的方式整合起来之后,才具有了生命。
例如,一个人下载音乐和订阅杂志的记录也许会让金融机构推断出他的种族,从而拒绝给予抵押贷款。一个女人的检索词条再加上书籍和药品购买记录则能帮助推断她是否怀孕了,大型零售商塔吉特就是这么做的。
正如斯蒂夫·洛在《纽约时报》上所说,“数据测量就是当代意义上的显微镜”。谷歌通过分析流感相关词条的检索情况得出了极为准确的“谷歌流感趋势”,这正是从零碎而数量庞大的数据中发现重大规律的一个范例。在互联网出现之前,这些数据是不存在的。
电脑往往被用来跟人脑相比较,但在数据收集和挖掘方面,人脑恐怕要甘拜下风。为了让IBM的超级电脑“沃森”诊断癌症时,人们给它输入了60万条医学证据,超过200万页医学报告以及150万患者记录,而它在诊断准确性方面超过了所有人类医生。
这把我们带回了DARPA和它想要的运算法则——通过筛查似乎没有关联的互联网数据,找到可能发生的政治动荡和恐怖袭击的蛛丝马迹。诊断疾病是一回事,寻找数据关联则是另外一回事,预测事件的难度还要更大。
但无论如何,这是我们想要互联网做到的。现在,美国各地警局都用谷歌地图加上犯罪数据和社交媒体来确定巡逻范围,其中一半的警局还使用了某种预测性质的数据分析工具。不仅如此,《大数据时代》一书的作者作出了这样的设想:
“可能在不远的将来,世界上很多目前仍靠人脑判断的工作都将借助电脑系统的辅助,甚至完全由电脑来判断……甚至能在一个人真的实施犯罪活动之前就判断他是‘罪犯’。”
机器评估现实世界的海量信息之后作出的判断,比天生有弱点和偏见的人类更加准确,这种假设可能在大多数情况下是正确的,只在某些特例中才被证明是错的。但电脑其实并不“中立”,运算法则中反映了代码编写者的偏见。
也就是说,这种预测给了代码编写者太多的权力,而他们毕竟也是凡人。此外,专属的运算法则(例如谷歌、推特和脸谱网所用的那些)可能会故意倾向于得出对自家公司有利的结果。还有时候运算法则也会被愚弄。比如,有一票人就专门以“优化”谷歌搜索结果为生。
但运算法则真正的、与生俱来的偏见是:本质决定它们都会简化问题。它们的工作就是对复杂的、看似零散的信息进行筛查,从中发现某种规律,这正是简化的定义。但它做的不止这些:运算法则渗透到了我们的日常生活,把我们带到了一切凭数据说话的世界。
无论教育、医疗、金融、零售、就业还是创造性艺术领域无不如此。比如,现在有些网站会对新歌进行分析,判断它是否具有成为热门金曲的条件,但这些条件是什么呢?是它里面是否包含以前热门歌曲用过的旋律和乐段。
亚马逊会收集读者对电子书执行何种操作的信息——比如他们在哪里标记了高亮或加了书签,他们是否读完了这本书,如果没有读完,又是读到哪里放弃的。
因此,亚马逊不仅知道读者喜欢什么,还知道他们不喜欢什么,而且这种了解到了极为精细的程度。这家公司在拓展它的书籍市场时,这些信息很可能会派上用场。(亚马逊已经发现,与编辑推荐相比,它的书单推荐程序让读者实际买下推荐书目的可能性更高。于是它让编辑从这里下岗了。)
此外,一家名为Narrative Science的公司掌握了一种运算法则,能把当前发生的事件揉入固有的新闻写作套路里,为报纸和网站提供成品稿件——再也不用担心烦人的工会、员工福利和病假条了。
你们可以说我跟不上时代,但在我看来,这些案例中无不缺少个性、实验性、创新意识和深思熟虑——恰恰是这些特质让人类区别于动物。在这种文化中,只有取得过成功的东西才值得重视,成功的第一原则是它必须是“可测量”和可统计的。如此一来,除了“市场驱动下的创新”之外,其他多样选择都将枯萎。
互联网无疑改变了人类的思想、价值观和个体之间的关系。它让这个世界变得更小,同时也变得更广阔。网络已联通全世界,它让这个世界变得更为亲密,也为贫民与富人、企业与个人能站在平等竞技场上带来了希望。
但是,我们在享受互联网的同时,也心甘情愿地帮助建立了庞大到超乎想象的监控系统。这张网让政府和企业手里有了无数的线可以操控,我们则成了——提线木偶。信息在整个互联网的自由流动给我们带来了好处,但它带给某些人的好处可能更多。至于这种差别是否会造成实质性的后果?答案可能是我们从网上找不到的。
翻译:朱丽