在本文中:利用平均数撒谎利用数据集撒谎利用图表撒谎
每个善于观察细节的人都知道,如果你没有相关的知识背景,那么有些统计数据可以非常狡猾地骗过你。看一看下面这些步骤,学习一下如何防范自己被统计数据误导,如何将数据为自己所用,同时把它作为自己的优势。
方法
1:利用平均数撒谎
1:了解专业术语。在讨论到统计数据的时候,“平均数”这个词已经被滥用了。表面上看,这个名词的表意很明显:平均值就是大致居中的一个值。但是,实际上有好几种平均值,如果你没有正确地理解它们,就会被误导。
“算术平均值”是把所有数据加在一起,再除以总体的样本量来计算出的。换句话说,如果你有3、3、5、4、7这几个数值,算术平均值就是把它们都加在一起(22),然后除以5(因为一共有5个数值)。
在这个例子里,算术平均值是4.4。
“中位数”是一组数值从低到高排列,恰好处在中间位置的那个数值。还用之前那组数值举例(3、3、5、4、7),中位数就是4,因为有2个数值比它小,2个数值比它大。
“众数”就是一组数值中最常见的那个值。在我们的例子里,众数是3,因为它出现了两次。
2:利用算术平均值撒谎。算术平均值看起来貌似是以上几种计算方式里最简单的一种,但是实际上不是这样的。因为一组数据里过高或过低的数值能对算术平均值产生很大的影响。要想利用算术平均值撒谎,你就可以在数据里加上一些极端的数值,然后再用公式计算。
例如,假如你要统计一个社区内50户家庭的收入。大多数家庭的收入是每年40000-60000美金,但是有一家每年收入是5百万美元。当你计算算术平均值时,得到的数值就会比真实的平均水平高出很多,因为5百万美元这个数值比其他数值大太多了。
相似地,如果你的数据里有9个人有1000美元银行存款,第十个人只有1美元存款,那么算术平均值就是900.10美元,几乎比最常见的水平低了10%。
在比较可信的数据调查中,在计算算术平均值之前往往会去掉最高和最低的数值。但是,并不是每一条新闻中的调查都这么可信。除非你能直观地看到所有统计数据,或者看到了关于已经去掉极值的书面保证,那最好不要对这些数据照单全收。
3:利用中位数撒谎。中位数实际上是最不容易用来骗人的,因为和其他数据相比,它不太容易过高或过低。它肯定会处于中间的位置,但是,你可以利用中位数来隐藏那些很大或很小的数值。例如,你的数据是1、1、2、3、4、5、3000,那么中位数就是3。
如果你的总体样本数量是偶数,那么你就计算中间两个数值的平均值来作为中位数。这样也不会受到极值的影响。
在用中位数描述某件事随时间变化的程度时,你要小心。如果一个公司前9年每年涨价3%,但是在今年涨了20%,那么中位数仍然是3%。
4:利用众数撒谎。有时候,众数几乎无法用来撒谎——例如,每人买球类比赛门票的张数这种数据能够用众数精确地表现出来。但是,同样地,众数也能被用来隐藏某些数值,尤其是在比较小的数据组里。
例如,如果你的数据里的数值都在1-100之间,但是1出现了3次,那么1就会成为众数,虽然平均值(这种情况下比较敏感)会接近50。
任何一项大规模的调查都可以通过过分强调众数来被操控。如果你向100个人调查针对某个产品的满意度,在1-10之间打分,大多数人都打了10分,那么即使打10分的人数比打其他分的人数只多了1个,10也是众数。
5:利用具体数字撒谎。如果你的数据比较抽象,不是具体的名数(例如,顾客满意度),那么要想撒谎实在是太容易了。如果你要求人们在1-3之间打分,那么打3分的人的满意度并不一定是打1分人的3倍。这个技巧一般用在算术平均值上,但是也能用于中位数,甚至众数。
方法
2:利用数据集撒谎
1:使用小的数据集。任何一位好的统计学家都知道,只有收集了大量的数据,才能得出一个有效的平均值,并且预测出准确的趋势。如果你能收集到100个人的信息,那很好,10000个人就更好了。你的数据集里的数值越多,那么算出的平均值就越准确。如果你使用3-5个数值的数据集,你就能得到一个并不真实的结果。
例如,如果你发现最近有两个人被愚蠢的东西弄伤了——例如一个枕头——然后你把他们作为你的数据集,你就能说枕头对每个人都很危险。无论你要选择哪一种平均值,只要不被别人看出你的总体里只有2个样本,那么别人就无法辩驳你。
2:使用控制集。最准确的数据集不仅要很大,还要很广泛。如果一个地质学家要调查一个沙漠的地址类型,那么在沙漠的不同地点收集一些数据,要比在同一个地点收集1000个数据更准确。如果你限制数据集的规模,就可以显著地影响调查结果。
有时候,这一点很有效,很多人会故意这样做。例如,做人口资料统计的人想要找出男性更倾向于从事的某种职业,那么他们就只需要调查男性人群。只要你把它在数据里明确地标注出来,就没什么见不得人的。
那些比较小的学院在做研究项目时,经常会错误地把控制集的调查结果与普遍结果划等号。这可能是因为院校水平在做研究时,没有办法针对广泛、随机的城市人口进行调查,而是更多地面向大学生人群。同样地,只要把这种情况说明就可以了,但是一些新闻机构为了发表耸人听闻的报道,就会将细节模糊化,利用院校水平的调查结果来以偏概全。
3:使用不平衡的数据集。这个做法非常狡猾,可以在一面向大家提供很多细节,一面巧妙地撒谎。其中的小技巧就是把那些其实并不能相提并论的数据放在一起比较。例如,如果你把一座原有100000人口、10年内新增加10000人口的大城市,和一个原本有10个人、10年内增多了10个人的小城镇比较,那么就可以说小城镇人口增长更快。
有时候做市场调查的人会利用这个技巧来对销售数据做出误导。例如你要调查苹果和橘子的销售量,但是调查到一半,发现橘子由于存货不足卖光了。如果你继续比较接下来的销售数据,那么苹果的销量就会远远高于橘子,即使苹果并没有真的变得更流行。
方法
3:利用图表撒谎
1:让y轴保持空白。没有什么比条形图和饼图更能直观地表达数据了,但是即使是这些,也能通过一些小技巧来人为地操纵。这是因为人们习惯于观察图表的大小和形状,但是会忽略上面的具体数字。最简单的方式就是不在y轴上做标注。
如果你的x轴上有5个柱,但是没有数字标注出它们的相对高度,那人们就难以判断它们之间是否有显著的差异。
2:在y轴上使用很大或很小的数值。比如你的数据在1-50之间,你可以把y轴的高度增加到100来隐藏数值之间的差异;如果你要凸显差异,就把y轴上的单位扩大10倍。如果是用十分位来测量,那么3和10之间的差异就很明显(相差70个单位!),但是如果你的第一个单位就是100,那么3和10之间的差异几乎看不出来(比一个单位小太多了)。
3:从总范围的中间部分开始标注y轴。如果你的数据在11-51之间,你可以从10开始标注y轴,让最小的数值看起来更小,让最大的数值看起来更大。这样代表11的竖条就只是刚刚高过x轴一点点,看起来非常不显眼,除非是特别仔细的人才能看出你的y轴是从10而不是0开始的。
这样一来,代表51的竖条比代表11的竖条高了50倍,因为最矮的竖条只有1个单位那么高。如果图表是从0开始标注的,那么代表51的竖条比代表11的只高了不到5倍。
4:使用不合适的缩放比例。每次你看到那一行“不成比例”的小字时,就是这种情况了。这并不总是故意的,有时候数据之间差异太大,无法在同一页图表里表示出来。但是,你可以利用它来达到你的目的。
举个例子,人们视觉上对大小的判断会被高度所吸引,但是会忽略竖条的宽度,如果某个东西很高(例如建筑物),就会显得比实际更窄或更宽。
5:利用图表来略去某个数据。这在那种内容涉猎广泛、会按照某种方式将结果进行分类的调查中很常见,例如著名的全美各郡最受欢迎碳酸饮料品牌统计表。乍一看,你会觉得数据统计得很细致,但是随后你就会想到:样本量有多大?判断结果的临界值是多少?使用的是算术平均数、中位数、还是众数?
如果你只使用了你调查数据中的某一个区域的结果,而不考虑剩下的,那么你就能很轻易地隐瞒你在该区域调查的样本量其实很小的事实。同样地,由于缺乏具体信息,别人很难评价你结果的好坏。
小提示
如果有疑问,检查出来。如果你不能得到统计背后样本大小、范围和抽样方法的全面、完整信息,不要相信它。
警告
一旦你知道怎么做,那么利用统计数据来撒谎就变得非常容易,但是这实际上不太道德。你要小心地运用你所学到的知识,不要利用它来伤害、欺骗、离间别人。