快好知 kuaihz

潘绥铭:批判大数据崇拜

   最近以来,对于“大数据”的崇拜,来势汹汹,甚嚣尘上。

   但是,崇拜者和鼓吹者,多少也应该有一点做研究的起码常识吧?

   无论在自然科学里,还是社会科学里,还是文本分析中,凡是进行数据分析,只有两种办法:

   第一种方法是:研究者自己首先提出某个或者某些假设,然后去收集数据,然后进行统计检验,以便对于自己的假设做出适当的评价,主要结论应该是:该假设是否得以成立。也就是说,“没有假设,就没有研究”或者“好的假设就是成功的一半”。这,对于任何一种遵循“科学主义”的研究来说,不但是金科玉律,而且根本就是不可突破的底线啊。

   可是,所谓的“大数据”,在收集数据之前,可曾有过任何一个假设吗?甚至,研究者究竟有没有猜测到:那些数据之间,可能存在着某种联系呢?例如,如果您把人们在网上购物时留下的痕迹,与他们在医院就诊时留下的记录,强行放在同一个数据库进行分析;那么,您就等于在假设:购物与生病之间,可能存在着某种联系。这并不是说,根本不可以提出这个假设,而是说,您事先是这么想的吗?如果没有,那么跟盲人摸象有什么区别呢?

   尤其是,无论您从这样的“大数据”中分析出什么,都只能是误人子弟。例如,早在上个世纪,美国的统计学家就发现,股市的涨落,与女人裙子的长短,存在着相关关系。可是一直以来,在任何一个国外大学里,这都被用来说明“无假设,不统计”这一常识。可是现在却又被某些人翻出来,作为“大数据之所以伟大”的证据啦。

   我的一位学生说得好:“这和去垃圾堆里翻安全套,本质上一致吧?”我再引申一下:没有假设,大数据就是垃圾堆!

   如此下去,科学还有存身之地吗?

   第二种研究方法,是从定性研究(质性研究)里的“求异法”借鉴来的,就是:不去寻找数据的“规律性”,而是通过分析,去发现“特定事物(现象)内部的多样化的存在”,或者“同一事物(现象)在不同载体中的多样化存在”。也就是说,研究者的假设是:任何事物(现象)都不可能是浑然一体,必定存在着万紫千红甚至千奇百怪的存在形式。研究者的目标,就是去发现和揭示这一点。因此,研究者全神贯注的,恰恰是数据中那些小概率的、奇异的、甚至缺失的情况。

   正是在这个意义上,而且仅仅在这个意义上,大数据才会有用。例如,哪怕只有万分之一的人,确实是在网上购物之后才有病,或者有病之后才上网购物;那么也可以提示我们:为什么仅仅是这些人才会出现这样的联系呢?其中是不是蕴含着我们现在还不知道的某种学理呢?

   所以说:这种“沙里澄金”的研究方法,主要是为了“发现”,而不是为了“检验”。但是只有这种方法,才能实现理论的独辟蹊径,而不仅仅是既有成果的“层层叠加”。

   可是,我真的很好奇:那些“大数据崇拜者”,听说过这样的“论方法”吗?

   什么叫“大”?

   数据,早已有之;因此“大数据”的买点,其实仅仅在于一个“大”字。

   鼓吹者们都在拼命宣扬:我们收集了多少多少人的,多少多少次的,多少多少种的记录,因此,只有我们的数据才是“大”数据

   可是,我就奇怪啦,大数据怎么看起来像是打群架,人多为王?

   其实,如果我在自己的电脑上,安装上足够多的各种仪器,记录下从鼠标轨迹到上网痕迹直到我的表情动作的自拍;那么只需要一天,我所收集到的、仅仅关于我一个人用电脑的数据,也肯定是成千上万个G,足以成为货真价实的“大数据”。

   如果我再给自己身上安上一大堆医学监测仪器,给自己的书房安上360度摄像头、温度计、红外线扫描甚至“地动仪”,而且24小时开动;那么您说,我这一个人的数据会有多大?

   也就是说,数据大不大,根本不在于记录了多少人或者多少次或者多少种行为,而仅仅在于:监测手段用得多不多!

   因此,现在之所以出现“大数据崇拜”,其实根本不是那些数据拥有者有什么高明之处,而是仅仅在于:人类的监测手段出现了爆炸式的增长。我们不但看到了火星上的水,还看到了我们自己的DNA!

   当然,大数据崇拜者可以说:我们意识到了大量的监测数据的价值啊。可惜,如我前文所述,如果您都不知道该怎么用,那么您发现的,究竟是大数据的价值,还是大垃圾的价值?就算是废物可以再生,您也应该想想该怎么再生不是?

   “大数据崇拜”里面,还有一个大大的猫腻,是死也不肯让别人知道的:大,是整体的大,还是片面的大?

   以购物网站记录下来的数据为例,它确实可以容纳数千万人在购物时不知不觉地留下的近乎无穷无尽的痕迹;但是,这就能反映出这些人的购物偏爱吗?难道这些人就再也不在实体商店中买东西了吗?难道他们就只到您这一个购物网站来买东西吗?难道他们的偏爱就永恒不变吗?那么,您怎么能够确定:他们在不同的渠道中,在不同的情境之中,都会做出一模一样的选择呢?可是,如果您无法证明这一点,那么您的大数据就只能是大垃圾,一点儿也不冤。

   交通监控录像、医疗记录、通讯记录等等,都足以号称自己是“大数据”。可是,所有这些数据,都仅仅是记录下了人们生活中的一个个零散的侧面。因此,这样的“大数据”再怎么大,也无法解决以下一系列常识性的问题:

   1.人在生活的某个侧面里的表现,与他/她的整个人格与人生,难道不存在紧密的关联吗?农民工吃20元的盒饭都嫌贵;富豪买上千万的汽车也不眨眼;这难道仅仅是所谓的“消费选择”吗?

   2.人类生活的各个侧面之间,难道不是相互影响着的吗?农民工吃20元的盒饭,却可以搭上200元的礼钱;富豪买上千万的汽车,却不肯做一点儿慈善;这也仅仅是所谓“购买习惯”吗?

   3.任何一个人的生活,难道不是被社会、文化、历史等因素制约着吗?吃20元盒饭的,也有IT业白领,也是来自农村,却从来不被认为是农民工。比尔·盖茨的形象中,也从来不包括他的汽车是多少钱买来的;这,难道也是“可付资金”吗?

   4.……

   5.……

   所以说,所谓的大数据,其实一点都没有超出原有的定量研究的局限性,那就是:裁剪生活,撕碎人生;非要把整体生存的“人”,视为一堆杂乱的零碎。如此这般,数据越大,岂不是错误越大?

   当然啦,大数据崇拜者已经说了:我们很快就可以把方方面面的大数据,汇总为一个包罗万象的大“大数据”,例如全方位、不间断地监测所有人,就足以最终一劳永逸地解决那个“天问”:人类为什么做什么和不做什么。

   额滴亲娘啊,这可真是道出了“司马昭之心”啦!

   “大数据崇拜”唯一的功劳,其实就是迫使我们不得不认真思考一下:

   在这种随时随地的、天罗地网般的、细致入微的、一生一世的被监测中,

   我们的生活,真的还有意义吗?

   能说明什么?

   盲目崇拜或者大肆鼓吹所谓“大数据”的那些人,或者不知道,或者刻意回避了一个根本的问题:无论数据的规模多么大,它究竟能够反映出什么样的情况,能说明什么样的问题呢?

   迄今为止,“大数据崇拜者”所列举的“丰功伟绩”,其实仅仅局限于反映出人类的某些可监测而且可记录的行为,例如各种网上活动、出行、通讯、接受各种服务等等。也就是说,如果人们不行动,或者不被监测到,那么大数据就不可能存在。

   可是,就算毫无隐私,就算监测可以天罗地网,那人心呢?灵魂呢?企盼呢?人类精神家园一切的一切,都可以被“数字化测定”吗?如果至少现在还不能,那么大数据(且不论能不能分析)就是动物学,是植物学,甚至是矿物学。君不见,冰川也会运动啊。

   当然,一些科学主义者早就发誓要突破人类精神的壁垒了。我并不怀疑他们的成功可能性;只想问:他们究竟是终于把人类精神给数字化了,还是给灵魂竖起一面哈哈镜呢?

   “大数据崇拜者”很可能不知道,或者不敢承认:在人类生活中还有一种现象,叫做“主体建构”;就是:人们对于自己的行为所做出的解释,很可能与监测者的解释大相径庭,甚至背道而驰。最常见的就是,一切人际的误会,盖源于此。“无心插柳柳成荫”也是如此。

   以网购的“大数据”为例,即使您总有一天可以把购买者的内心,全都数字化地一览无余,那您怎么知道人家就真的就是这样想的呢?科学嘛,总是需要验证的啊。

   结果,

   首先,您这种“客观测定”,离矿物学很近,可是人却是有主观意志的啊,您是怎么监测到的?连物理学还有个“测不准原理”呢,何况您老?

   第二,您知道人类还会“自我呈现”吗?说不好听一些,就是表演。如果连测谎仪的结果,法律都还不予采信,那么您怎么筛除被监测对象的表演呢?

   第三,难道您就不找被监测对象去核实一下?连司法审判还要听被告怎么说呢不是?难道真的把人当成石头?

   第四,您听说过弗洛伊德吗?您知道除了“动机”,还有“无意识”吗?如果行为者自己都搞不清楚自己是怎么回事,那么您还怎么去核实呢?根据什么来判断真伪呢?

   总而言之,一切试图用自然科学或者数字化来了解人类及其社会的尝试,不是都必然失败,而是都无法否定人类的“主体建构”的重要性;结果都必然是把真实的生活给削足适履了。

   说到底,“大数据崇拜”,其实就是“唯科学主义”在人类历史面前一败涂地后的末日哀鸣。如果科学没能阻止希特勒的统治,也没能预测出此后人类的一切发展,那么就绝不是“艺不精”的问题,而是用错了地方,是越界跑到了自己无能为力的领域。

   中国社会学,已经饱受“唯量化主义”的侵蚀,如果现在还放任“大数据崇拜”肆虐,那么可就真是泥菩萨过河自身难保了。

   因此,我才如此声色俱厉,也因为我本人已经完成第四次全国随机抽样的量化问卷调查,深谙其弊,才更加有资格如此义愤填膺。

  

本站资源来自互联网,仅供学习,如有侵权,请通知删除,敬请谅解!
搜索建议:潘绥铭:批判大数据崇拜  批判  批判词条  崇拜  崇拜词条  数据  数据词条