在电影《东方快车谋杀案》中,神探波洛利用探索性分析的思维方式完美破案,而在日常工作中,我们也可以利用该思维解决难题。
现在已经进入DT时代,海量、混乱的数据不断涌来,我们需要理清头绪,探寻数据间的内在联系,这就好像侦探办案,虽然人们总形容侦探“目光犀利、嗅觉敏锐”,似乎侦探是条犬科动物。然而侦探本人通常不会仅仅靠着自己的眼睛和鼻子办事儿。
她的做法看起来科学得多——将所有能够搞到的证据搜集到一起,所有能拿到的数据拿到手里,然后在其中寻找规律。
在《东方快车谋杀案》中,波洛侦探完美地为我们演示了一遍如何收集证据与数据,然后从中获得洞察。在一个下着雪的深夜,一个男人离奇而死。没有目击证人,身上的刀疤参差不齐,就连宿在附近车厢的侦探本人也没有在惨案发生时发现端倪。
不过,就像在旅途中也要保持得体装扮一样,波洛侦探面临谜题,表现得同样有条不紊。
首先,他挨个盘问了列车上的每一位乘客,不管对方人设是冷静缜密、还是神经兮兮。然后,他将这些人的语言与行为如拼拼图一般,拼在了一起,并理出了一个时间线。在这个过程中,他不断地思考:
哪些信息能支持自己的假设?
哪些信息互相矛盾?
我还需要回答什么问题?
还有——之后我需要做什么,才能回答这些问题?
“想来你对我这种询问方式很不以为然。”波洛侦探对玛丽说:“你原来想的不是这种,而是英国式的。凡事都该准备停当——摆出事实,按部就班。可是小姐,我这人倒有点儿与众不同。首先我得先见见证人,摸清他或她的脾性,然后再相应地提出问题来。”
波洛列出的问题足足有10条:
绣着首字母H的手帕,是谁的?
烟斗通条,是谁的?
谁穿鲜红色、绣着龙的睡衣?
谁把自己伪装成列车员,男人还是女人?
为什么死者的表针会指到一点一刻?
谋杀发生在那个时间吗?
还是在那个时间之前?
或是之后?
能确信杀手不止一个人吗?
死者身上的刀伤还有其它解释吗?
这些是否也是你的疑问?或者说,在听过各位乘客的回答后,你是否也产生了一些疑问?如果答案是“yes”,恭喜你,你已经在做探索性分析了!
探索性数据分析(EDA)是数据分析过程的第一部分。 在这个阶段有几件重要的事情要做,但归结起来就是:
弄清楚数据是什么;
建立你想问的问题以及如何表达它们,
提出最好的展示和操作数据的方式,以得出重要的见解。
EDA与IDA的区别:
探索性数据分析有别于初始性数据分析(initial data analysis – IDA)。
初始性数据分析的聚焦点是分析鉴别统计模型和科研假设测试所需的条件是否达到,以保证验证性分析的可靠性。在这个分析过程中对不符合条件的数据进行缺值填补、数据转换、异常值舍弃等处理以增强分析的准确性。
探索性数据分析包含初始性数据分析,但它的出发点不仅是确定数据质量,而且更重视从数据中发现数据分布的模式(Patten)和提出新的假设。
你在探索 – 寻找线索。 就像波洛做的那样,通过定量和可视化的方法,你不仅梳理出趋势和模式,还能发现偏离模型,离群值和意想不到的结果——它们也很重要。你现在发现的东西将帮助你决定提出的问题,研究领域,以及下一步采取的措施。
一切发现 符合假设的、不符合假设的,都是为了最后一步一步地走向真相
过去,在以抽样统计为主导的传统统计学中,探索性数据分析对验证性数据分析有着支持和辅助的作用。但由于抽样和问卷都是事先设计好的,对数据的探索性分析是有限的。到了大数据时代,海量数据从多种渠道源源不断地涌现出来,已不受分析模型和研究假设的限制,如何从中找出规律、并产生分析模型和研究假设成为新挑战。
这时候,探索性数据分析在对数据进行概括性描述、发现变量之间的相关性以及引导出新的假设方面大显身手。正如美国探索性数据分析创始人约翰•怀尔德杜克所说:
面对那些我们坚信存在或不存在的事物时,‘探索性数据分析’代表了一种态度,一种方法手段的灵活性,更代表了人们寻求真相的强烈愿望。
CDA——验证性数据分析
通常,侦探结案并不是故事的结束,还需要将罪犯以及罪证交给法庭,进行审判。
我们将这个“审判”的过程称为验证性数据分析。
验证性数据分析是您使用传统统计工具(例如显著性,推断和置信度)来评估证据的部分。
在这一点上,你真的在挑战你的假设。验证性数据分析的很大一部分就是对事物进行量化,比如,你所建立的模型的任何偏离都可能偶然发生,在什么时候需要开始质疑你的模型呢?
CDA的内容:
测试假设,以特定精确度产生估计,回归分析和方差分析。
实际上,探索性的和验证性的数据分析不是一个接一个地进行,而是不断地交织在一起,帮助您创建最好的分(破)析(案)模(套)型(路)。
我们举一个例子来说明实践中的EDA与CDA。
场景:最近几个月,流失用户的数量一直在激增。产品一直在保持更新,性能也算稳定,活动也没停,这种流失简直称得上是一桩密室丢人案了。究竟发生了什么?
发现问题:密室丢人案,比密室杀人案更让运营感到棘手的案件
你开始利用数据探索原因(EDA)。你调取了这些流失用户的所有数据然后开始寻找线索。在用了各种饼柱线气泡树从不同角度分析了数据之后,你发现丢失的用户大多都是在同一个月内注册的。
锁定异常:虽然每个月注册的用户都有流失,但很容易看出7月的问题
经过仔细调查,你发现在这个月中,虽然产品一直在保持更新,性能也算稳定,活动也没停,但是你们自己却把常用的CRM系统给换了。结果,一部分客户没有收到产品的入门教程。
现在你产生了一个大(合)胆(理)的假设:这些人是因为没有得到入门教程而流失的。要想停止这个死亡游戏,必须连夜派发入门教程大礼包!
但首先,你需要确定这个原因是正确的。根据探索性数据分析,你现在可以建立一个新的预测模型,以比较收到教程和没收到教程的差异率。 这根植于验证性数据分析。
结果显示了两者之间的广泛相关性。成功破案了!
21世纪的作案团伙可以像水滴融入大海一样藏身于庞大的数据池中。整个侦探游戏变得非常艰巨。要保证自己能够实时访问所有需要的信息,让数据跑得跟思路一样快,让案子破的时候“凶手”还没跑远——这对于销售、运营、产品、财务、HR等各种工作模块都至关重要。
为什么侦探小说这么火?
因为我们都需要知道答案,并对探索答案过程中的智力挑战而感到惊心动魄。
那为什么,不让数据侦探成为你的“第二人格”?