《数据之巅:大数据革命,历史、现实与未来》,涂子沛著,中信出版社2014年5月版
暌违两年,《大数据》作者涂子沛携新作《数据之巅》再出“江湖”。两年间,“大数据”概念从无到有直至滥觞于业界报端,足显见信息洪流下国人对于数据的日益追崇。至今,关于大数据战略、数据治国和开放数据地讨论仍在发酵。
对于这本书在中国引发地热潮,涂子沛直言“完全出乎意料”,细想似乎又在情理之中,“这是一本中国社会需要的书!”
赛迪顾问数据表明,中国的大数据技术和服务市场将继续增长,预计从2014年的143.1亿元增长到2016年的540.3亿元,年复合增长率为99.7%。《财富》曾撰文称,大数据被称为“新石油”,但就像石油一样,要让这些数据产生价值,就必须、加工并用合适的形式表现出来。涂子沛认为这其中蕴藏着很多新兴产业崛起地机会,“中国有后发优势,应该抓住这样的机遇。”
虽然《数据之巅》仍以数据文化和科技在美国地发展为主线,但和《大数据》一脉相承,其重心和出发点,用涂子沛的话说——“还是中国”。从追溯中国数据历史上的吉光片羽,到思考“民族复兴是否能量化”的中国话题,再到分析中美在“云、隐私和未来”上面临地不同挑战,涂试图在历史的纵轴之上,写出数据时代的全景,在和美国的横向对比中,思考中国的现况和未来。
当下图书市场冠之以“大数据”名义的书已不在少数。如果把大数据研究领域比做“江湖”,则江湖里又分为“国家治理派”和“产业升级派”。在英特尔中国研究院院长吴甘沙眼中,涂子沛显然属于前者。吴认为“这本书在美国200多年的政界商海、刀光剑影中勾勒出雄浑的数据思维、文化、价值观和方法论。”
若以名字定义,《大数据》《数据之巅》都不是严格意义上的技术书,文字阡陌间的人文哲思气质贯穿始终,这是涂子沛力求“将科技符号转化为文化符号”地努力,技术只是工具,倡导“尊重事实、强调精神、推崇理性和逻辑”的数据文化才是实质。黄仁宇在《万历十五年》中将中国明朝未能走向资本主义归结为中国人不能在“数目字上管理国家”。涂亦认为,“数据文化的匮乏,是中国之所以落后的一个重要原因。”在新世纪的大数据时代,中国能否成为参与者甚至领导者,值得思考。
长居美国,站在“他者”的角度,涂子沛自感能更客观研究中国的发展之势。中国业界对“大数据”异乎寻常的求知热情,让涂子沛感性的形容自己最初“心中像有一只蝴蝶,轻轻地扇动了一下翅膀”,而潜心写作了八个月的《数据之巅》,则让“内心的那只蝴蝶,振翅而出”。两年间,涂在某种程度上承担着数据文化“布道者”的角色,鉴于此,与兼职写作《大数据》时不同,现在的他将全部精力投入到这一领域的研究。
“写作是极其孤独的,但因为一份使命感,我要继续写下去。”涂子沛说。
对话人物:涂子沛,知名信息管理专家、科技作家,江西吉安人。本科毕业于华中科技大学计算机系,研究生毕业于中山大学和卡内基梅隆大学,获公共管理硕士和信息科学硕士学位,现居美国硅谷。在美期间,先后担任软件公司数据部门经理、数据中心主任、首席研究员等职务。曾为《南方都市报》、《时代周报》、艾瑞网等多个报刊网站撰写专栏。代表作《大数据》曾获2012年度中国十大好书,最新著作《数据之巅》。
新华网:新作《数据之巅》与《大数据》相较的共同点除了对当下中国的关照之外,还有哪些更新、更进一步地思考?
涂子沛:《大数据》写完我知道这是一本中国当下需要的书,但没预计到有这样的反响,主要还是处于时代的潮流下,切中了时代的脉搏。某种意义上这是第一本从政府治理、公共领域的角度来讲大数据的,其他一些大多从商业角度谈。以数据为线索把美国历史梳理一遍有很多素材可以选,但我选的是当下中国需要、能给中国借鉴有启发意义的。
美国是一个年轻的国家,也是一个很好的标本,我在这本书的每一章节里都把中美两国之间做对比,把中国的东西挑出来写。希望这本书能印证我的期待,能多少影响到中国的决策者和企业的管理者。
新华网:您长居美国硅谷,从“他者”外围的角度去观察中国,相较国内学者,有什么不一样?
涂子沛:我觉得能从对比中把问题看得更加得客观,你能体会到美国是怎么走过来,他的文明变迁。每当我走在北京街头总有很多体会,即熟悉又陌生,正因如此才会去思考,为什么会这样,如何改变现状,才愿意去追索、去写作、去述说。写作是能拉近我与中国距离的唯一方式,我想为中国社会做贡献,或者回馈这个社会。
这本书写了八个月,写作过程很孤独,总觉得写不下去了,没有人跟你讨论,就自己。孤独的人永远是少数。但因为《大数据》的影响力,很多人期望我将这个研究继续进行下去。我知道这背后有很厚重的历史缘由,对中国社会很重要,能够帮助中国社会认识大数据的价值意义,自然产生一种使命感,想要努力去完成他。
新华网:“数据之巅”的“巅”是指什么?为什么要用“巅”?
涂子沛:这里的“巅”有三个维度考量。首先用“巅”这个字意为我们站在顶峰之上,提供一个大数据建设的顶层设计思路;第二是站在这个数据之巅上回顾数据文明怎么兴起,纵轴上进行对比,提供一些启发;第三这既是文化维度的巅,回溯数据文明如何兴起,也是技术层面的巅,探讨使用数据的巅峰形式是什么,比如书中写到通过机器实现自我化等。
探寻客观事实最精确、最锐利的方式是数据
新华网:本书开篇谈及美国的数据文化发展肇始于“人口普查”,而在中国欲使“数据文化”深入社会肌理,是否还有类似美国“人口普查”那样影响深远的公共事务推动?或者说从哪些领域切入能更快更好地普及数据文化?
涂子沛:美国建国初始的“人口普查”为什么受到关注,是因为他把其和权力分配创新性的结合了起来,美国是联邦制国家,人口越多的州权力越大,每个州只有把人口统计出来才能更好的获得在权力体制内的发言权。所以美国重视数据最开始其实是源于权力分配需求,后来影响到政治制度、机构架设、辅助政府决策,最后波及到文化、社会、艺术层面,因为数据量太大催生了各式各样的创新。
但这些不是偶然的,美国的建国先驱很多有理工科背景,杰斐逊做过土地测量员,华盛顿也是,富兰克林更是科学家,他们经过长期的辩论确立了美国的国家制度这个顶层设计,美国宪法里有那么多的数据都是有根据的,不是拍脑袋想出来的。
目前社会统计文化已经很普及了,能够策动形成数据文化的点有很多,现在是中国社会重建、重新认识数据文化的一个很好的起点。
新华网:您特别提出“中国社会要将‘大数据’这个科技符号转变为文化符号”,两个符号的差异是什么,为什么要做这样的转变?
涂子沛:科技文化是一个小众文化,某种程度上是“高大上”式的精英文化,比如PM2.5,普通人没几个能真正搞懂这个符号或分子式是什么意思。但一说到文化符号,比如龙、长城自然而然会知道这代表中国,这就是文化符号的力量。
科技符号变成文化符号是为了把小众变成大众,大众会自觉地产生数据意识去使用、关注数据,形成“尊重事实、追求精确、推崇逻辑和理性”的文化。我们有很多方式去探寻客观事实,可以用文字、色彩,但最精确、最锐利的方式是数据。数据代表计算,是对客观世界的记录和测量。东方哲学里重视意象、意境、宏观叙事、大而化之,这是东方文化的特点,中国文化里天然匮乏数据的因子,不成系统所以逻辑性不强,太散,如果成系统就是有生命的东西。
新华网:在书中您对“中华民族复兴指数”这项曾引起广泛社会讨论的话题有专门的论述及观点,您认为“民族复兴是可以量化”,这个观点的支撑是什么?面对“大众的哄笑”,社会科学工作者如何去消解与公众观念之间的隔阂?
涂子沛:我是态度鲜明的支持量化的,关键是要建立一个正确的模型。首先要厘清一点,什么是社会科学,社会科学工作者的任务就是用数据量化社会现象,没有量化就没有科学。(新华网:任何事都可以量化么?)什么事情都可以量化,但是量化的结果取决于量化的手段,我们现在还不能做到完全精确的量化。但量化社会现象并不意味着绝对精确,而是要提供一个参考坐标。就像我在书中写到,量化民族复兴需要很多指标,当你的指标设计得足够好,足够全面、科学的时候就会有一个结果出来,可能是62.74%也可能是其他。我们嘲笑的是怎么会有0.74,这恰恰意味着我们这个社会不了解数据,不了解什么是社会科学。这个小数没什么值得嘲笑的,真正应该质询的是这个模型建得好不好,全不全面,我认为需要多个机构进行量化研究,有竞争才会有更好的数据模型出现,把这个现象量得更准。美国的数据量化文化也是经过很长时间,在互相竞争质询的过程中才逐渐形成的,
新华网:会不会产生“数据迷信”或“唯数据论”,走入另一个极端?
涂子沛:任何事情都有两面性,你说的这种现象也非常有可能发生。所以说需要多个模型而不是一个,这样才能精准。“无测度、无管理”,没有量化的东西没办法管理,中国人长久的认为混沌的东西也可以管理,怎么管理呢?凭感觉?经验?为什么说数据是科学的基础,科学化是什么,就是数据化、量化,这样才能监控他的进程。如果你认为民族复兴是项工作,需要监控那就要去量化他。
大数据本质上催生的是一场效率革命
新华网:您在书中用了较多笔墨关注了美国质量管理专家爱德华兹·戴明以数据跨界促进日本制造业崛起的案例,为什么要着重介绍这段历史?
涂子沛:戴明那套有效的质量管理方式对当下中国仍然适用。虽然Made in china成为一个标志,但我们能讲中国产品是以质量行销全球么?日本在实行戴明的管理制度之前产品在国际上的形象也是劣质、山寨的。写这章我花了很长时间,很认真的去研究,戴明这个人很了不起,很戏剧性,到上世纪八十年代80岁了才成名,美国人才知道日本是运用了这套方法制造业才崛起的,在我的书之前戴明的这段经历没有完整的介绍到中国来。观察当下中国制造业的发展,我只能说“历史总是不断重复,只是变了主角”。第五章我对这方面做了的批评,中国人应该学习日本人对先进文明的态度和胸怀,他们真心诚意的向西方学习。
新华网:通过对大数据的应用可以让企业从工业时代的劳动密集型向信息时代的知识密集型迈进,您举例的Instagram、WhatsApp、Twitter这类企业的共同特征都是“小”。中国的现实国情是人口数量庞大,人口素质不均,尤其近几年就业的压力日益剧增,过快的向知识密集型转型是否有失业率增长的风险?转型过程需要哪些配套协同推进?
涂子沛:机械自动化普及之后,机器会不会取代人,这个争论由来以久,美国的实例证明没有,因为蛋糕做大了。但现在的情况是蛋糕变小了,谷歌、facebook那么高市值的公司雇佣的人比柯达少多了,只有几千人。这是边际效应的转移,也是智能社会带来的挑战。我提得最多的解决之道是要增加教育投入,提高人口素质,培养社会需要的人才,不但要满足中国的需要,人才链条还要向高端移动,能满足世界的需要。中国的教育体系还不是很发达,近年兴起的MOOC在线教育值得大力推广。回头看美国的经验,他们也是致力于将人口素质不断提高,不断的向高端产业转移。从这个意义上讲我们面临的挑战是一样的,简单的说就是少了很多工人多了很多程序员、数据分析员。我还有一个判断,未来的企业都是IT型企业,IT是必要的手段,什么企业都离不开它。
新华网:这个过程中我们面临哪些困难?大数据在其中可以发挥怎样的作用?
涂子沛:中国目前面临很多竞争,劳动力成本不断上升是很重要的一块,越南、印度尼西亚这些劳动力成本更低的国家正在承接制造业的转移,很多企业正在往那里搬,你必须要做这样痛苦的转变,要不然你的企业没有全球竞争力,这也代表着未来的创新已经发生,机器代替人。比如谷歌推出的无人驾驶汽车完全是工业时代和信息时代结合的产品,汽车没有方向盘、没有刹车,汽车变成一个娱乐终端,那么他有可能重构保险业等很多的产业生态。
大数据本质上催生地是一场效率革命,很多事可以做得又快又好。大数据催生精细化的管理,你做事情时间成本可以更低,更加精准。
中国建设智慧城市要突破“行政壁垒”
新华网:本书最后专门用一个篇章谈及大数据对智慧城市建设的作用,章节不长看得意犹未尽,您认为在智慧城市建设过程中大数据的应用将催生出哪些新兴产业?
涂子沛:原来的信息化建设解决的是个人办公自动化,现在要解决地是一个城市自动化的问题,智慧城市建设需要数据中心、光纤、无线、感应器等等,会带动一大批产业。首先是数据收集产业,数据是人为的不是自己长出来,得布线、得有传感器,物联网产业就是传感器;其次是数据传输,无线的、有线的、光纤的;再有数据存储,数据挖掘,软件分析平台等等。我的预言是智慧城市是拉动下一波IT增长的支点,他会拉动一系列产业的发展。目前,在中国有100个城市做为试点,这个浪潮刚刚兴起。
新华网:智慧城市建设需要很多掌握数据部门的合作共享,而目前的机制有可能会遇到很多不同部门之间的行政壁垒,您怎么看这个难题?
涂子沛:行政壁垒确实是最大的障碍,可以很形象地来理解这个问题,比如交通部门收集的数据可能会应用到医疗部门、教育部门或其它,所以这个行政壁垒一定要打开。现在有一个新的提法叫“大数据布置”,想要把数据用好、整合、融合,必然牵涉到行政机构或行政流程的设置、重组。大数据浪潮不是一个简单的计算,我们看到IT浪潮不只是改变一个企业,更是改变商业流程和商业生态。智慧城市建设也要走流程重新设计、部门重新划分这条信息化的道路。