我们的未来,会掌握在大数据手里吗?
只要遇到无法理解的事情,我们就会说那是偶然,似乎这种表面上的偶然行为推动了历史的演进,而事情发展之迂回曲折似乎如掷骰子一般。但这种偶然真正意味着什么?
而法国数学家泊松指出,一旦我们承认人类行为是最随机的,它突然之间就可以被预测了。
悖论吗?其实有一个最适合说明的例子,正是掷骰子:虽然每次掷的点数无法预测,但整体是有规律可循的。也就是,大约每掷5到7次就会出现一次6,而掷100次都不出现6的可能性几乎为零。
泊松的理论即为概率论中著名的泊松分布,而著名物理学家巴拉巴西则在《爆发》一书中进一步将观点明确为“人类行为93%是可以预测的”。
那么,当我们的电子邮件都在服务商的日志中;我们的通话记录、行踪都在运营商的存储上;我们买了什么东西、品味以及支付能力都在信用卡记录里;我们所有的微博、空间、个人主页,干脆展示在网站上……
这些记录的存在引爆了个人隐私危机,但它同时也创造了前所未有的历史机遇——它第一次毫无偏见地为我们提供了成千上万人、而不是少数人的详细行为记录。借助这些数据和强大的计算技术,物理学家、心理学家以及经济学家得以对某些问题仔细研究。他们有充分的证据证明,人类的大部分行为都受制于规律,而且它们的可重现性和可预测性与自然科学不相上下。
这些发现并不只是科学家在纸上谈兵,其中一些模型和原理已经价值数亿,像谷歌和雅虎这样以追踪人类行为为商业模式的公司都身价不菲。可以说,它们颠倒了乾坤。在过去,如果想了解人类的行为和想法,你必须去考个心理学家证书,但现在,你可能需要先拿到计算机专业的学位。
推而广之,“无论什么事,如果不断收集材料,积之十年,总可成一学者”,每天进行的事情将成为这种“爆发”的基础。这意味着,时间是我们最宝贵的不可再生资源,如果我们尊重它,就必须剔除无关紧要的事;只有优先清单确定,幂律规律和你所期待的爆发,才会不可避免的出现。
同样,“历史不会重演,却自有其韵律”,如果能洞悉其中的规律,那么我们的未来,或许就掌握在大数据的手中。
《爆发》作者艾伯特·拉斯洛·巴拉巴西(Albert-László Barabási)
本文后半部分为书摘,节选自湛庐文化《爆发——大数据时代预见未来的新思维》,作者为全球复杂网络研究权威、冯·诺依曼奖获得者艾伯特·拉斯洛·巴拉巴西。
作者或许并不为广大读者熟知,电信市场营销专家王煜全甚至在微博上发问:格拉德威尔的《引爆点》人人能懂,成了超级畅销书;凯文凯利的《失控》多数人读不懂,但人人奉为经典;巴拉巴西才是真正理解复杂网络的专家,他的《链接》同样系统而宏大,却没什么名气,这是为什么呢?有网友解释为网络时代的快餐文化,亦有人认为这是因为巴拉巴西的写作特点:大量举例描述,甚至看起来像小说,结论则需要概括才能得出。
@创事记 在此将书中主要观点列于以上,并附书中内容精选:
泊松的悖论
泊松指出,一旦我们承认人类行为是最随机的,它突然之间就可以被预测了。
这似乎是个悖论:如果不可预测性是指偶然性,那么偶然性又怎么能预测呢?答案很简单:泊松所谓的预测跟我们日常生活中追求的有所不同。跟伊斯特凡·泰勒格迪对教皇十字军的未来所做的预言不同,他的手法更像爱因斯坦推导原子运动规律。爱因斯坦知道推测出单个原子的运动轨迹是不可能的,所以转而假设原子的运动是随机的,然后推导出原子离释放点的距离遵循扩散理论。
同样,泊松根本没去想陪审员是否做出了正确裁定,而是假设每个陪审员都像掷骰子那样投票:他们大部分时间是对的,但偶尔会出错,而且我们永远无法知道他们什么时候是对的,什么时候是错的。在这一假设的前提下,泊松利用定罪率的统计数据推导出了整个陪审系统的可靠性。
虽然下次掷的点数是个谜,但在这种偶然性中还是存在某种神奇的规律。尽管存在明显的规律,但泊松过程实际上是一个再随意不过的过程了,因为它就是一系列偶然事件的累计。因而,偏离泊松预测常常代表某种隐藏的秩序,它们揭示了一种有待发现的更深层次的规律或模型。
诚然,我们观察到的很多现象都绝非偶然,比如行星运动、亘古不变的日夜交替等。但另外一些现象,比如天气,看起来似乎纯粹是偶然。不过,正如理查森极力指出的,大气受制于一系列规律和方程式。现在,各地的气象学家都能通过计算成功预测天气情况。此前,人们认为很多现象,如日食、洪灾、旱灾都是受神秘的造物主支配。但现在这些现象都能够被人类预测。这告诉我们,偏离了随机性通常意味着某种基本规律有待人类发现。
大数据时代的大机遇
我们正处于一种不断变化但却日趋精密的被监视状态中。事实上,现在我们的一举一动都能在某个数据库中找到线索。
我们的电子邮件都保存在电邮供应商的日志文件中;我们的通话记录都被加上时间标记备份在电话公司的大容量硬盘上;我们何时何地买了什么东西,我们的喜好、品味以及支付能力都被信用卡提供商编目归档;我们所有的个人网页、空间以及Facebook文件,还有博客的信息都被保存在多个服务器上;我们的即时行踪完全被手机供应商掌握;我们的长相和穿着打扮都被安装在各大商场和街角的摄像头捕捉并记录。虽然我们通常选择不去多想,但事实上我们的生活完全能被这些雨后春笋般出现的数据库所记录的信息串联起来。
毫无疑问,正是这些记录的存在引爆了个人隐私危机,而这一问题的严重性再怎么夸大也不为过。然而,它同时也创造了一个历史机遇——它第一次毫无偏见地为我们提供了成千上万人,而不是少数人的详细行为记录。在过去几年里,这些数据库为各大实验室提供了不少帮助,使很多计算机学家、物理学家、数学家、社会学家、心理学家以及经济学家得以在强大的计算机和新技术的支持下对某些问题进行仔细研究。
实验的结果令人振奋。他们有充分的证据证明,人类的大部分行为都受制于规律、模型以及原理法则,而且它们的可重现性和可预测性与自然科学不相上下。这些发现并不只是科学家在纸上谈兵,其中一些模型和原理已经价值数亿,像谷歌和雅虎这样以追踪人类行为为商业模式的公司都身价不菲。可以说,它们颠倒了乾坤。在过去,如果想了解人类的行为和想法,你必须去考个心理学家证书,但现在,你可能需要先拿到计算机专业的学位。
爆发,生命奇迹的必要因素
生命远不是流畅或随机的,而是在所有时间尺度内都具有爆发式的——从几毫秒到几小时的细胞活动;从几分钟到几周的人类活动;从几周到几年的疾病来袭;还有从几千年到几百万年的进化过程。爆发式是生命奇迹的必要因素,显示出生物为了适应和存活会进行不懈的斗争。
在美国,任何一个65岁或者更高龄的老人不管什么时候去诊所或医院就诊,都需要将就诊的详细记录,包括时间、地点以及诊断情况,递交给医疗保险计划处。在尼古拉斯·克里斯塔斯基的帮助下,我的研究小组拿到了10年的记录并汇总了200万个病人看医生的时间。
我们会在何时得什么样的病取决于众多因素,从我们的遗传基因到饮食、运动、抽烟以及喝酒的习惯,再到我们的工作性质以及环境等都有影响。所以,疾病降临的那一天应该是随机的、不可预测的。
如果你接受人类所有的行为都不是随机而是具有爆发式的,那我们对病史的发现也许就不那么令人吃惊了。不过,我们确实吃了一惊。你知道,疾病的紧急程度绝对不是依靠优先级清单做决定的。如果我们真能按照意愿给疾病设置优先级的话,我敢肯定大家都会直接将他们放在“待办事宜清单”的最底部。通过给疾病设置低优先权,我们就能保证自己永远不生病,一生都过得充实健康。遗憾的是,事实并非如此——疾病会“攻击”我们,会随心所欲、出其不意地将我们这些受害者撂倒。
一般情况下,基础科学转化成实际应用需要走的路很长。20世纪的科学奇迹量子力学在近半个世纪以来都没有发挥什么实际作用,直到发明了晶体管才打破了这种僵局。同样,尽管人类基因组的解码引发了医学革命,但10年后市面上的所有药品还是通过基因组发现之前所使用的试错法研制出来的。
基于此,当看到爆发式那么快就从基础科学转为实际应用的时候,我颇为吃惊。实际上,即使没有获得博士学位,你也能理解这一发现的潜在影响。不说别的,它们至少促进了一种简单而不受干扰的抑郁诊断方法的产生。你觉得情绪低落,而且所有症状都显示出一种潜在的情绪紊乱吗?那么就戴上能追踪你一举一动的腕表吧,医生马上会给出诊断结果,帮你赶走即将来临的抑郁感。
普遍适用的爆发式
我们越是发现自己的身体细胞容易出现问题,就越觉得我们能经常保持健康是个奇迹。但一想到两个蛋白质找到彼此的可能性要比你和最好的朋友在纽约市闲逛时奇妙的相遇的可能性小得多,你可能不禁会问我们的基因为何会做得如此成功呢?
你并不是唯一一个想不通的人。生物学家一直对细胞协调众多基因、蛋白质、代谢物以及构成组织的RNA分子的能力感到不可思议。我们之所以对这个过程知之甚少,主要是因为要想一窥细胞的内部世界真的很难。
在另外一个完全不同的时代和领域里,达尔文猜测每个新物种的出现都是一个渐进的过程,现有物种孕育出多少有些差异的后代需要经历一个漫长的过程。但这种连续变化的证据不仅过去少有,就算是现在也很少见,因而达尔文称它是“对我的理论的最有利的反驳”。