快好知 kuaihz

你又一次被“真实数据”欺骗了

数据对于产品、运营决策来说有重大参考价值,但是在现实生活中这些精心测量的“真实数据”却往往出错,问题在于什么?又该如何针对性地解决?

当公司需要推出一个新产品(服务,管理,市场)前,我们总是需要收集一些数据来说服股东(或者我们自己),这个产品一定会大卖。

这时候,就是各种图表粉墨登场的时候了:饼状图,柱状图,条形图,折线图……

(这里本来应该有一张图,但是大家看了太多的PPT,我就不放了。)

我们讲的头头是道,下面的听众也频频点头。“看起来这个产品一定会广受好评”,我们心里想。

然而,到了真正到了产品销售阶段时,我们却发现,根本没有用户愿意买账。

我们明明是严格按照规范收集数据,仔细的进行科学分析,每个步骤也有专人监督。这些真实数据为何不能反映真实的市场需求?

我们收集的所谓“真实数据”其实是假的。

大多数人认为,假数据只有在故意造假的情况才可能出现。而我认为,有些时候,错误的收集方式也会产生“假数据”。

那么,为何我们会收集到“假数据”呢?

一、社会期许

“您喜欢喝什么口味的果汁?”我相信很多人都会如实回答。

“您和妻子/丈夫关系好吗?”这个问题就很难得到准确答案。

与之类似的还有:

您的月收入多少?

您认为自己聪明吗?

您对自己外貌评价如何?

在社会科学中,这叫做社会期许误差。人们更倾向于向他人展现正面形象,所以在回答问题时,更倾向于申报“良好行为”来符合社会的期望。

这也是为何很多真正的抑郁症患者倾向于隐瞒自己的病情,因为他们希望能够符合周围环境对他的期望。而社会期望人的性格是积极外向的,这样导致了很多抑郁症患者很难对家庭袒露心迹。

我最近看的一本书,《Everybody Lies》,就展示了这样有趣的现象:在社交网站上,在短句“我的丈夫是”之后,最常见的形容词的前五名是:“最好的”,“最好的朋友”,“最棒的”,“令人惊讶的”,“可爱的”。

而在搜索引擎上,前五名,除了一个“最棒的”以外,其他四个却变成了:“刻薄的”,“混账”,“同性恋”,“讨人厌的”。

这也就证明了上面的观点:人们在可能被他人审视的时候会更倾向突出其好的一面,而在匿名且隐私的环境中才能表达真实的自己。

二、幸存偏差

假设我们来采访一下几个名人,他们的成功有什么必经之路:

乔布斯:我辍学了。

盖茨:我辍学了。

扎克伯格:我辍学了。

布特林:我辍学了。

总结:辍学才能成功。

这里出现了什么样的错误呢?

在统计学中,幸存者偏差是一种很常见的现象。即过分关注因为某些经历而幸存的人或事物,并且将这些经历定义为常识。

我们很容易找到类似的例子:

章鱼保罗在2010年世界杯中连续7次猜对比赛结果——其他猜错的动物没有被报道。

2016美国总统大选时,CNN的民调显示:希拉里支持率更高——调查时主要选择了民族党支持者。

很多喜欢看直播的人认为:主播收入高,外表光鲜,所以自己也要当主播——头部主播占据了全部主播收入的80%以上。

三、胡乱回答

前段时间,我对YouTube上的视频进行过一个粗略统计。

结果是:一个在大多数人理解下的优秀视频,其观看量、点赞量、点踩量的比例一般为10000:100:2(这个数据只是一个预估,请不要作为考量方式)。

而且,不论是视频多么优秀,总是会有点踩的人。

这种“故意破坏他人体验的点踩”在社会心理学中叫做向下社会比较。

这种情况往往是那个人遇到了某些挫折,通过降低自我评价的参照系(即让他人的评价降低),来维持积极的自我评价。

这也是网络上的喷子和键盘侠,往往都是在现实生活中遇到了不顺心的事情的人的主要原因。

四、分析错误

在不久前,我看到某个电影院的大数据分析:看《战狼2》的观众,有89%的人购买了冷饮。而看《前任3》的观众,有73%的人购买了热饮。

数据分析得出的结论是,看动作片的观众更喜欢冷饮来清凉自己的紧绷的神经。而看爱情片的观众更喜欢用热饮来温暖自己的内心。

战狼2:2017年7月27日上映——夏天。

前任3:2017年12月29日上映——冬天。

其实分析员只要看看上映时间就知道,观众选择热饮或者冷饮的根本原因是天气问题,和电影本身没有任何关系。

这种在统计学中被称为混淆了相关性和因果性。即分析时过分注重于数据之间的关系比较,并且将这种关系直接定义为结论。

五、人为造假

就在两周前,著名心脏专家皮耶罗·安韦萨涉嫌数据造假的新闻轰动了整个病理学界。由于他的31篇学术论文造假,直接导致大量相似的研究直接作废,各种研究经费的损失高达数亿美元。

那么,他是怎么做的呢?

他在分析数据前,直接将自己的假说认定为正确的,然后用很多数据去“凑”自己的假说,如果数据不对,就换方式来重新将数据“生产”出来。

这种手法,在很多欧美政客手上就用的炉火纯青。特朗普就转发过“旧金山犯罪统计局”的统计数据。该数据显示,黑人是犯罪的主要根源。而实际上:“旧金山犯罪统计局”根本就不存在。

人们很容易相信数字所带来的权威性。而这种利用数据来说谎的方式,就是利用了这一点。

这五个问题,导致了调查数据很难真实反映出用户的需求,从而扰乱了我们的判断能力。

那么,我们如何才能减少这些问题对数据结果造成影响呢?

六、解决方法

1. 社会期许——匿名回答

社会期许误差的产生,是由于被访者担心自己的负面情绪或者状态不被社会所接受。

那么最有效的办法就是:为受访者创造一个完全匿名的,保密的环境。

正如天主教堂里的告解室一样,完全密封的匿名环境,加上神父的严格保密,让信徒可以安心的忏悔自己的罪行。

投票箱就是一个很有效的匿名方式。例如美国的国家大选,为了避免大家因为敏感的投票话题引起争执,采用了投票箱的方式,保护了投票者的隐私。

另外一个解决方式是随机化回答。

方式是将问题分为两类,敏感性问题与非敏感性问题。我们想要知道敏感性问题的答案,而我们已知非敏感性问题的答案。我们可以通过非敏感问题的答案来反推出敏感问题的答案。

举个例子,假设我们想要推出一个新式男性增高垫,但是不知道使用增高垫的人数比例,我们可以设置两个问题:

敏感性问题:“您是否使用了增高垫?”

非敏感性问题:“您的电话尾号是否是1?”

我们先在黑箱里放置两个小球,一个红色一个蓝色。在回答问题前,要求受访者在黑箱里取一个球,但是这个球的颜色只有受访者知道。

然后告诉受访者,如果他抽的是红球,就回答“您是否使用了增高垫?”。如果抽的是蓝球,就回答“您的电话尾号是否是1?”。但是回答者只用回答“是”或“否”。

那么,当我们收集到足够多的数据后,我们可以得知受访者回答“是”的比例(设为a)。

由于我们知道,电话尾号为1的可能性为10%,而抽到红球或蓝球的几率各为50%,那么我们就很容易依靠下面的公式推断出使用增高垫的人(设为x)比例。

3. 幸存偏差——用户分层

幸存者偏差是由于受访者的样本过于相似,导致了数据结果并不能代表所有的用户。

由于我们无法对于对所有的用户进行普查,那么最容易的办法,就是从每一个层次的用户抽取数人进行调查。

例如,我们想要对打车软件优惠券的使用情况进行调查。我们就需要将用户分为四类:

之前使用过打车软件,后来使用过优惠劵(老用户)

之前使用过打车软件,后来没有使用过优惠券(未涉及用户)

之前没有使用过打车软件,后来使用过优惠券(新用户)

之前没有使用过打车软件,后来没有使用过优惠券(潜在用户)

从每种类别的用户中,我们选取数人来进行抽查。在每个层级的人群中,我们也要尽量将年龄,性别,职业等等区分开来,这样才能减少幸存者偏差带来的数据偏差。

3. 胡乱回答——显示进度

大多数时候,受访者还是愿意配合采访的。让受访者不愿意配合采访的原因只有两种:外界因素和内部因素。

由于我们无法控制受访者的外部因素(心情不好,急于做事,性格内向等等),那么我们只能减少内部因素造成的影响。

所以,我们需要尽可能减少受访者对调查感到厌烦的可能性。

你们是否发现:当你安装一个软件时,就会有一个进度条显示安装的进程。而且,进度条并不是匀速前进的?

这是因为,进度条可以明确的告诉我们,我们还需要多久的等待。而非匀速前进的原因,则是经过了科学家的试验,证明相对于非匀速来说,匀速的进度条更容易让人感到不耐烦。

所以,在收集数据时,如果是访问的模式,就需要在开始访问前,告诉受访者访问的时长,并且将长问题穿插在短问题中。如果是调查问卷的模式,就需要在前面写明问题的数量,并且在其中配上进度显示(例如:已回答25%的问题)。

4. 分析错误——关注外因

我们在分析数据的时候,如果仅仅关注数据本身,就很容易出现混淆相关性和因果性的状况。

所以,在数据分析时,一定要考虑到外界因素所带来的影响。

正如第一台ATM机发明前,巴克莱银行对于用户对于ATM机的态度进行过一次调查,用户的数据反馈指出:相对于冷冰冰的机器,大家更喜欢热情服务的柜员。

然而银行发现:由于工会的强烈要求,导致银行必须考虑在周末放假。而很多领取周薪的工人只有在周末才有时间去银行取钱,那么这些工人的需求就很难满足了,所以银行依然决定推出ATM机。

结果大家都知道了,现在全球有着高达300万台ATM机为我们服务,也没有人觉得从ATM机器里面取钱有任何不妥。

所以相对于单纯的相信数据,更好的方式是将数据作为一个参考,但是根据实际情况来进行判断。

5. 人为造假——规避问题

人为造假的问题是最难以解决的,因为这个是调查者自己所决定的。

现如今在学术界,最广泛使用的办法就是让调查者签署一个保证书,利用保证书来约束调查者的行为准则。

然而在公司中,这样的的方式并不太合适。学术界出现了造假问题,那么这个人今后就无法再进行学术类工作。而公司员工的流动性更大,造假的调查者完全可以去其他公司继续工作。

我们只有从员工素质的提升和对数据的真实性进行反复检验,从而对于数据的人为造假进行规避。

总结一下:

社会期许——为受访者创造匿名调查环境

幸存偏差——将受访者分层次调查

胡乱回答——让受访者不对问题产生厌烦

分析错误——收集外界因素造成的影响

人为造假——提升员工素质,检验数据真实性

如果按照这些方式去做,我们的调查数据准确度就能够极大的提升。

本站资源来自互联网,仅供学习,如有侵权,请通知删除,敬请谅解!
搜索建议:你又一次被“真实数据”欺骗了  欺骗  欺骗词条  真实  真实词条  数据  数据词条