前两天许多人在转发关于剑桥分析通过心理侧写以及游戏法获取********用户信息并针对性投放广告来影响选举的新闻。这件事情本已是老黄历,只是最近被BBC又重新翻了老底。类似的新闻总能挑动许多人的神经,但事实上大数据时代的一切要比许多人想象地更糟,比如人们的信息要比绝大部分想象地泄露得更加彻底;不过从另一个方面来说,许多事情却也没有大家想象地那么糟糕——没有人会真正关注你,而充满泡沫的大数据宣传也没有那么多人想象地有用或者妖魔化。
剑桥分析公司所使用的方法来自于2012年的一篇题为 Private traits and attributes are predictable from digital records of human behavior的论文。该论文的数据包括了大约五万八千名********用户的信息,这些用户同意将自己的点赞信息、****给予研究人员,并完成了一份问卷。研究者通过这些数据训练了一个模型:通过点赞信息来预测用户的个人特征。下面三张图片表示的分别是分类和回归中的预测表现,以及部分预测指标(所有指标见此链接)。
二分类变量的预测准确率(以AUC表示)。
连续型变量的预测准确率(以预测值和实际值之间的皮尔森相关系数表示)。透明部分为问卷的baseline准确率。
部分预测指标。
实际上除了部分个人特征外,大部分个人特征的预测准确率远没有许多人想象的那么高。比如二分类变量的预测正确率超过百分之五十不能说明什么,因为随机选择也会有百分之五十的正确率。而且还有一点非常重要的是,这些指标只能衡量准确率(accuracy),但真正有用的其实是需要通过贝叶斯计算出来的每种分类的precision。高accuracy不能确保precision也同样高,尤其是当公司的重点目标群体是人口比重较小的群体时。更何况在准确率或者precision之外,广告或信息投放的作用又是另外一件事。
一个不容忽视的事实是,咨询公司常常夸大自身和技术的作用,无论是在商业领域还是其它。数据很容易通过操纵和展示的方式来呈现出美好的结果而回避掉真实的问题,比如咨询公司可以向客户展示accuracy而不是precision。但对于决策而言,这两者之间存在着本质的差异。当然,商业公司也掌握着不需要预测的大量资料(比如年龄、性别等),他们做targeting时当然会比通过预测相对更加有效一些,但也只是相对更加有效。
2012年其实还有另一篇论文研究了信息投放对政治动员的影响:A 61-million-person experiment in social influence and political mobilization。该研究将六千一百万********用户分成了三组,第一组不接收任何信息,第二组接收informational message(中立的信息),第三组接收social message(鼓励投票的各种信息)。其中第一组和第二组分别为六十多万人,其余六千多万都是第三组,这么分是因为********想要鼓励投票,所以不允许第一组和第二组占比过大。最后的结果所暗示的内容其实比结果本身更加有趣:
如上图所示,许多人声称自己投了票,但在这些人中,实际只有很小一部分真的投了票。在代表真实效应的这些一小部分人的对比中,没有收到信息的人和收到informational message的人没什么区别,而收到social message的人同其他两组虽然具有统计学意义上的显著差异,但实际差异却只有0.39%(95%置信区间约为0.05% - 0.73%)。即便文章说可能会有一些潜在的影响无法被观测到,但即便算上这些更加间接的影响,即便social message再煽动性,具有倾向性一些,再具有针对性一点,又能把影响扩大多少呢?毕竟当social message以这种形式出现的时候,它和这个纯粹鼓励投票的实验又非常不同,因为我们还需要除去剑桥分析所掌握的五千万用户中民主党或共和党的铁杆粉,能够分辨信息的人,要除去错误的targeting,这些影响还要放到整个大选人口中被稀释、还要考虑大选期间********上也投放或传播了许多关于川普的负面消息。在考虑到诸种因素的影响下,剑桥分析公司能通过五千万用户数据(不到美国总人口的三分之一),最终能对整个大选产生偏向共和党的百分之零点一二的净影响都要谢天谢地了。但比较一下希拉里和川普在各个州的票数,唯一能对结果真正产生巨大影响的宾州和佛罗里达州,都超过了1.3%和1.4%,也就是说把种种因素的刨去,剑桥分析公司要能够产生0.7%以上的影响才能改变选举局势。如果说这些方法能对选举产生些许影响,我当然信,但说能够左右选举,反正我是不信。
除此之外,还有一点非常重要的是,********为什么坚持再这个实验中,第一组和第二组实验群体比重必须非常之小?因为********本身也希望自己能够影响更多人去投票。那么********公司本身会因为自身政治/商业倾向选择何种人投放广告吗?答案非常清楚,只是大家在谴责剑桥分析公司而对********本身视而不见罢了。
还有一点值得注意的是,剑桥分析公司所使用的游戏法(在********上)在2010年就有研究使用:Real and Perceived Attitude Agreement in Social Networks。
剑桥分析公司其实是大数据时代的一个缩影,更多的类似咨询公司以及许多大型商业公司都在做相似的事情。我自己接触到过的大数据以及诸多论文让我相信,只要一个人在使用网络,那么这些数据全部都在被搜集,被利用。无分国别,无分领域。即便你只是使用一下共享单车,只要你打开软件,你的GPS数据就在被记录。在更多的商业领域,比如网上购物,相关账号信息会被串联在一起(比如通过google账号以及信用卡号码串联信息),最终生成上百个甚至更多的变量特征,这些变量特征会被用来建模。即便是所谓的诸如促销,targeting等等活动,都可能是商家的一次次实验,最终数据会被用来计算individual-level heterogeneous treatment effect。一系列数据会被一系列模型用来预测私人特征、喜好,也会进入到推荐系统里面被发放不同的广告、信息等等、以及差别定价。这种模式在商业领域早已被运用地非常娴熟,进入到其他领域也是早晚的事情。
不过,正如上面所说,预测准确率是一件事情(对于某些个人特征的预测的确可以达到极高的准确率)。在预测的基础上做出一些决策是一件事情。决策会产生多大的影响还是一件事。虽然不要期望自己还有什么隐私,但也不需要如此夸大隐私问题能够带来的影响。一则对于大部分人来说,根本没人关心这群人的隐私细节,大部分人都是只有聚合在一起才会变成有人关心的数字而已;二则如今的算法模型还有这诸种缺陷,远没有许多人想的那么神秘(要怪就怪CS系的人实在是太会用牛逼哄哄的算法名字做宣传,好好学习下也就那么回事);三则要把数据和算法转变成切实的影响哪有那么容易;四则如果有人要挖个人隐私来对个人产生影响,那么根本没有会过分依赖诸种算法,针对个人而言,人工调查可比算法靠谱。
至于和针对性投放伴随而来的还包括如今信息的开放性。即便有着种种限制,回想一下过去连信息都难以获取的年代,如今的很多正面负面影响也在相互消弭。即便负面影响大于了正面影响,能做的大概也只是提高自己的知识水平,不要听风就是雨:比如不好好学习算法模型,看到alpha go/zero和相关宣传就跟风幻想有一天AI统治人类,或者跟风觉得剑桥分析公司能够左右得了选举。比如偶尔嘲讽一下码农没有人文关怀也可以,但也不要被人嘲讽了什么都还没搞懂就朝着一个莫名其妙的方向人文关怀了起来(反正这类论文也是读的够够的了)。毕竟做着这些事情的人和那些被fake news煽动的人没有本质区别,只是被煽动的领域不同罢了。
最后的忠告不过就是:可以以最坏的恶意去揣度各种公司,但也要以一种最对症下药的方法来评测它们会给你带来的影响。说到底也不过就是,好好学习下算法和应用,懂的其中的基本原理也没有那么难。我想这也是豆瓣上大部分人,以及大部分宣扬人文关怀的“知识分子”最欠缺的知识。