你又一次被“真实数据”欺骗了_产品_建站

数据对于产品、运营决策来说有重大参考价值，但是在现实生活中这些精心测量的“真实数据”却往往出错，问题在于什么？又该如何针对性地解决？

当公司需要推出一个新产品（服务，管理，市场）前，我们总是需要收集一些数据来说服股东（或者我们自己），这个产品一定会大卖。

这时候，就是各种图表粉墨登场的时候了：饼状图，柱状图，条形图，折线图……

（这里本来应该有一张图，但是大家看了太多的PPT，我就不放了。）

我们讲的头头是道，下面的听众也频频点头。“看起来这个产品一定会广受好评”，我们心里想。

然而，到了真正到了产品销售阶段时，我们却发现，根本没有用户愿意买账。

我们明明是严格按照规范收集数据，仔细的进行科学分析，每个步骤也有专人监督。这些真实数据为何不能反映真实的市场需求？

我们收集的所谓“真实数据”其实是假的。

大多数人认为，假数据只有在故意造假的情况才可能出现。而我认为，有些时候，错误的收集方式也会产生“假数据”。

那么，为何我们会收集到“假数据”呢？

一、社会期许

“您喜欢喝什么口味的果汁？”我相信很多人都会如实回答。

“您和妻子/丈夫关系好吗？”这个问题就很难得到准确答案。

与之类似的还有：

您的月收入多少？

您认为自己聪明吗？

您对自己外貌评价如何？

在社会科学中，这叫做社会期许误差。人们更倾向于向他人展现正面形象，所以在回答问题时，更倾向于申报“良好行为”来符合社会的期望。

这也是为何很多真正的抑郁症患者倾向于隐瞒自己的病情，因为他们希望能够符合周围环境对他的期望。而社会期望人的性格是积极外向的，这样导致了很多抑郁症患者很难对家庭袒露心迹。

我最近看的一本书，《Everybody Lies》，就展示了这样有趣的现象：在社交网站上，在短句“我的丈夫是”之后，最常见的形容词的前五名是：“最好的”，“最好的朋友”，“最棒的”，“令人惊讶的”，“可爱的”。

而在搜索引擎上,前五名，除了一个“最棒的”以外，其他四个却变成了：“刻薄的”，“混账”，“同性恋”，“讨人厌的”。

这也就证明了上面的观点：人们在可能被他人审视的时候会更倾向突出其好的一面，而在匿名且隐私的环境中才能表达真实的自己。

二、幸存偏差

假设我们来采访一下几个名人，他们的成功有什么必经之路：

乔布斯：我辍学了。

盖茨：我辍学了。

扎克伯格：我辍学了。

布特林：我辍学了。

总结：辍学才能成功。

这里出现了什么样的错误呢？

在统计学中，幸存者偏差是一种很常见的现象。即过分关注因为某些经历而幸存的人或事物，并且将这些经历定义为常识。

我们很容易找到类似的例子：

章鱼保罗在2010年世界杯中连续7次猜对比赛结果——其他猜错的动物没有被报道。

2016美国总统大选时，CNN的民调显示：希拉里支持率更高——调查时主要选择了民族党支持者。

很多喜欢看直播的人认为：主播收入高，外表光鲜，所以自己也要当主播——头部主播占据了全部主播收入的80%以上。

三、胡乱回答

前段时间，我对YouTube上的视频进行过一个粗略统计。

结果是：一个在大多数人理解下的优秀视频，其观看量、点赞量、点踩量的比例一般为10000：100：2（这个数据只是一个预估，请不要作为考量方式）。

而且，不论是视频多么优秀，总是会有点踩的人。

这种“故意破坏他人体验的点踩”在社会心理学中叫做向下社会比较。

这种情况往往是那个人遇到了某些挫折，通过降低自我评价的参照系（即让他人的评价降低），来维持积极的自我评价。

这也是网络上的喷子和键盘侠，往往都是在现实生活中遇到了不顺心的事情的人的主要原因。

四、分析错误

在不久前，我看到某个电影院的大数据分析：看《战狼2》的观众，有89%的人购买了冷饮。而看《前任3》的观众，有73%的人购买了热饮。

数据分析得出的结论是，看动作片的观众更喜欢冷饮来清凉自己的紧绷的神经。而看爱情片的观众更喜欢用热饮来温暖自己的内心。

战狼2：2017年7月27日上映——夏天。

前任3：2017年12月29日上映——冬天。

其实分析员只要看看上映时间就知道，观众选择热饮或者冷饮的根本原因是天气问题，和电影本身没有任何关系。

这种在统计学中被称为混淆了相关性和因果性。即分析时过分注重于数据之间的关系比较，并且将这种关系直接定义为结论。

五、人为造假

就在两周前，著名心脏专家皮耶罗·安韦萨涉嫌数据造假的新闻轰动了整个病理学界。由于他的31篇学术论文造假，直接导致大量相似的研究直接作废，各种研究经费的损失高达数亿美元。

那么，他是怎么做的呢？

他在分析数据前，直接将自己的假说认定为正确的，然后用很多数据去“凑”自己的假说，如果数据不对，就换方式来重新将数据“生产”出来。

这种手法，在很多欧美政客手上就用的炉火纯青。特朗普就转发过“旧金山犯罪统计局”的统计数据。该数据显示，黑人是犯罪的主要根源。而实际上：“旧金山犯罪统计局”根本就不存在。

人们很容易相信数字所带来的权威性。而这种利用数据来说谎的方式，就是利用了这一点。

这五个问题，导致了调查数据很难真实反映出用户的需求，从而扰乱了我们的判断能力。

那么，我们如何才能减少这些问题对数据结果造成影响呢？

六、解决方法

1. 社会期许——匿名回答

社会期许误差的产生，是由于被访者担心自己的负面情绪或者状态不被社会所接受。

那么最有效的办法就是：为受访者创造一个完全匿名的，保密的环境。

正如天主教堂里的告解室一样，完全密封的匿名环境，加上神父的严格保密，让信徒可以安心的忏悔自己的罪行。

投票箱就是一个很有效的匿名方式。例如美国的国家大选，为了避免大家因为敏感的投票话题引起争执，采用了投票箱的方式，保护了投票者的隐私。

另外一个解决方式是随机化回答。

方式是将问题分为两类，敏感性问题与非敏感性问题。我们想要知道敏感性问题的答案，而我们已知非敏感性问题的答案。我们可以通过非敏感问题的答案来反推出敏感问题的答案。

举个例子，假设我们想要推出一个新式男性增高垫，但是不知道使用增高垫的人数比例，我们可以设置两个问题：

敏感性问题：“您是否使用了增高垫？”

非敏感性问题：“您的电话尾号是否是1？”

我们先在黑箱里放置两个小球，一个红色一个蓝色。在回答问题前，要求受访者在黑箱里取一个球，但是这个球的颜色只有受访者知道。

然后告诉受访者，如果他抽的是红球，就回答“您是否使用了增高垫？”。如果抽的是蓝球，就回答“您的电话尾号是否是1？”。但是回答者只用回答“是”或“否”。

那么，当我们收集到足够多的数据后，我们可以得知受访者回答“是”的比例（设为a）。

由于我们知道，电话尾号为1的可能性为10%，而抽到红球或蓝球的几率各为50%，那么我们就很容易依靠下面的公式推断出使用增高垫的人（设为x）比例。

3. 幸存偏差——用户分层

幸存者偏差是由于受访者的样本过于相似，导致了数据结果并不能代表所有的用户。

由于我们无法对于对所有的用户进行普查，那么最容易的办法，就是从每一个层次的用户抽取数人进行调查。

例如，我们想要对打车软件优惠券的使用情况进行调查。我们就需要将用户分为四类：

之前使用过打车软件，后来使用过优惠劵（老用户）

之前使用过打车软件，后来没有使用过优惠券（未涉及用户）

之前没有使用过打车软件，后来使用过优惠券（新用户）

之前没有使用过打车软件，后来没有使用过优惠券（潜在用户）

从每种类别的用户中，我们选取数人来进行抽查。在每个层级的人群中，我们也要尽量将年龄，性别，职业等等区分开来，这样才能减少幸存者偏差带来的数据偏差。

3. 胡乱回答——显示进度

大多数时候，受访者还是愿意配合采访的。让受访者不愿意配合采访的原因只有两种：外界因素和内部因素。

由于我们无法控制受访者的外部因素（心情不好，急于做事，性格内向等等），那么我们只能减少内部因素造成的影响。

所以，我们需要尽可能减少受访者对调查感到厌烦的可能性。

你们是否发现：当你安装一个软件时，就会有一个进度条显示安装的进程。而且，进度条并不是匀速前进的？

这是因为，进度条可以明确的告诉我们，我们还需要多久的等待。而非匀速前进的原因，则是经过了科学家的试验，证明相对于非匀速来说，匀速的进度条更容易让人感到不耐烦。

所以，在收集数据时，如果是访问的模式，就需要在开始访问前，告诉受访者访问的时长，并且将长问题穿插在短问题中。如果是调查问卷的模式，就需要在前面写明问题的数量，并且在其中配上进度显示（例如：已回答25%的问题）。

4. 分析错误——关注外因

我们在分析数据的时候，如果仅仅关注数据本身，就很容易出现混淆相关性和因果性的状况。

所以，在数据分析时，一定要考虑到外界因素所带来的影响。

正如第一台ATM机发明前，巴克莱银行对于用户对于ATM机的态度进行过一次调查，用户的数据反馈指出：相对于冷冰冰的机器，大家更喜欢热情服务的柜员。

然而银行发现：由于工会的强烈要求，导致银行必须考虑在周末放假。而很多领取周薪的工人只有在周末才有时间去银行取钱，那么这些工人的需求就很难满足了，所以银行依然决定推出ATM机。

结果大家都知道了，现在全球有着高达300万台ATM机为我们服务，也没有人觉得从ATM机器里面取钱有任何不妥。

所以相对于单纯的相信数据，更好的方式是将数据作为一个参考，但是根据实际情况来进行判断。

5. 人为造假——规避问题

人为造假的问题是最难以解决的，因为这个是调查者自己所决定的。

现如今在学术界，最广泛使用的办法就是让调查者签署一个保证书，利用保证书来约束调查者的行为准则。

然而在公司中，这样的的方式并不太合适。学术界出现了造假问题，那么这个人今后就无法再进行学术类工作。而公司员工的流动性更大，造假的调查者完全可以去其他公司继续工作。

我们只有从员工素质的提升和对数据的真实性进行反复检验，从而对于数据的人为造假进行规避。

总结一下：

社会期许——为受访者创造匿名调查环境

幸存偏差——将受访者分层次调查

胡乱回答——让受访者不对问题产生厌烦

分析错误——收集外界因素造成的影响

人为造假——提升员工素质，检验数据真实性

如果按照这些方式去做，我们的调查数据准确度就能够极大的提升。

快好知 kuaihz

你又一次被“真实数据”欺骗了

天天在做大数据，你的时间都花在哪...

项目从0到1复盘总结：产品的灵魂...

做产品设计时“陷”进去了，怎么办...

最新