人类并非可靠的决策者;他们的判断受到不相关因素严重影响,比如当时的情绪。我们将这种随机变量称为“判断噪声”。对很多公司的利润而言,噪声都是一笔隐形成本。
研究表明,在股票估价、鉴定房地产、审判罪犯、评估工作表现以及审计财务报表等很多任务中,专家的决策十分不稳定。不可避免的结论是,专业人士经常做出与自己、同事以及他们声称所遵循的规则大相径庭的决策。
人们早已知道,简单统计学算法做出的预测和决策往往比专家更准确,哪怕专家能获得比算法更多的信息。但鲜有人知的是,算法的关键优势在于没有噪声:与人类不同,输入相同信息,公式得出的结果也相同。因为稳定十足,哪怕是简单甚至有瑕疵的算法,也比人类专家的准确性高。
噪声VS.偏见
当人们考虑判断和决策中的差错时,想到的总是社会性偏见,比如对少数族裔的成见、自负等认知偏差以及盲目乐观。而被我们称作“噪声”的无用变量属于一种不同的差错。
为了理解两者区别,你可以想想浴室的体重秤。如果读数太高或太低,我们可以说,体重秤出现了偏差。如果你的体重取决于脚的位置,那么可以说体重秤有噪声。如果体重秤的显示总是比准确体重少4磅,那么就存在严重偏差,但没有噪声。如果两次称重时显示不同的重量,那么体重秤存在噪声。很多计量差错既包括偏差也包括噪声。
为了能更直观地展示这种区别,请看下图。图中展示了4人团队,每人射击一次的打靶训练结果。
A队很准确:所有队员都打中靶心,弹孔离得很近。而另3支队伍都各有各的不准。
B队有噪声:弹孔在靶心四周,但彼此很分散。
C队有偏差:弹孔都没有击中靶心,但彼此离得很近。
D队既有偏差也有噪声。
正如A队和B队所示,在没有偏差时,噪声增多常会影响准确性。当偏差存在时,噪声增多反而可能歪打正着,比如D队的情况。当然没有组织愿意靠运气取胜。噪声通常不受欢迎,有时甚至具有灾难性。
显然,弄清员工决策时的偏差和噪声情况,对组织帮助很大,但很难直接收集相关信息。在评估这些差错时会出现不同问题。其中一大问题是,决策带来的结果只有在未来才能看到(如果产生了结果的话)。比如信贷员往往要在数年后才能发现他们批准的贷款结果如何。他们几乎从不知道自己拒绝申请者的后续情况。
“噪声”审查
噪声审查的意义不在于出报告,最终目的是提高决策质量。只有部门领导者能够接受不理想的结果,并有所行动时,审查才能成功。如果高管能将这种调查看作自己的分内事,目标更易达成。
最近,我们帮助两家金融服务机构进行了噪声审查。我们研究的两个团队拥有非常不同的职责和专业知识,但它们都需要评估较为复杂的材料,决定往往涉及数十万美元。我们在两家机构中都遵循了同样规则。
首先,我们让相关专业团队的负责人整理出若干个现实项目的文件以供评估。为防止实验信息外泄,整个过程在同一天完成。员工被要求用半天时间分析2到4个项目。他们将按常规估算出每个项目的钱数。为防止串通,参与者不知道本调查与可靠性有关。。
我们为每个项目设计了噪声指数,对下面这个问题做出了解答:“两个随机选择的员工做出的判断相差多大?”我们将该差异量化为他们平均值的百分比。比如两个员工对同一项目的估值为600美元和1000美元,他们估算的平均值就是800美元,他们估值的差距是400美元,所以两人的噪声指数就是50%。我们用同样方法计算了所有员工配对的估值,然后计算出了每个项目的平均噪声指数。
审查前的访问中,两家机构的高管表示他们预计专业员工决策的差异在5%到10%左右——关乎判断力,他们认为这个范围可以接受。但结果令人震惊。A机构6个项目的噪声指数从34%到62%不等,平均为48%。机构B的4个项目噪声指数为46%到70%,平均为60%。可能最令人失望的是,工作经验并没有降噪的作用。在具有5年或以上工作经验的专业员工中,平均差异为:A机构46%,B机构62%。
没有人想到结果如此。但因为他们对该审查负责,两个机构的高管都接受了结论:专业员工的判断不可靠,且无法容忍其严重程度。所有高管很快同意,必须采取措施控制局面。因为审查结果与之前对专业判断不可靠的研究结果一致,我们并未感到惊讶。我们主要困惑的是,两个机构之前都没有意识到可靠性的问题。
在商业世界其实几乎没人关注噪声问题;我们发现,专业判断力被作为问题提出,让受众很惊讶。是什么让公司没有意识到员工的判断力有噪声呢?答案能从两个常见现象中找到:富有经验的专业员工对自己的判断信心十足;对同事的专业水平评价也很高。这两点加起来,导致对共识估计过高。
当被问及同事的想法时,专业员工预计,其他人的判断和自己差不多,实际远非如此。当然多数情况下,有经验的专业员工完全不关心其他人的想法,默认自己给出的是最佳答案。噪声隐于无形的一个原因是,人们在生活中不会去思考他们做出每个决策的可行替换选项。
期待他人同意你的意见有时是合理的,尤其是当判断力十分老练,成为一种本能的时候。比如,高段位的国际象棋手和司机经过练习,判断可近乎完美。大师级棋手评判棋局,会对当前形势给出类似的判断,比如白方皇后有危险,或者黑方国王防守薄弱。驾驶也同理,如果我们不默认周围的司机和我们在路口和环岛做出的判断一致,无法想象交通会有多么危险。达到一定高度的技术鲜有或没有噪声。达到国际象棋和驾驶的高水平技术须在可预测的环境中练习多年,做出的行动须及时和清晰的回应。
可遗憾的是,专业人士很难有这样的行动环境。多数工作中,人们学习判断的渠道来自上级和同事的解释和评论——与从自己的错误中学习相比,可靠度大打折扣。长期工作经验总会增加人们对判断的自信,但如果没有迅速反馈,自信不能保证准确或达成共识。
一言以蔽之,只要做出判断,就会产生噪声,而且噪声往往比你想象得严重。一般来说,专业员工和他们的领导都无法准确估测出他们判断力的可靠性。唯一获得准确评估的办法是进行噪声审查。至少在有些情况下,噪声严重到了需要采取行动的地步。
降低噪音
解决噪声最根本的办法是,以正式规则“算法”,来取代人工判断。算法利用项目相关数据进行预测或决策。
过去60年间,人们在数百场竞赛中比拼算法的准确性,竞赛题目从预测癌症病人寿命到毕业生成功率。在大约一半的研究中,算法比人类专家更准确,而在另一半研究中与人类平手。即便是平手,实际上也说明算法胜出,因为它性价比更高。
当然很多情况下,算法并不实际。当输入数据异常,或很难形成统一形式的编码时,规则就很难应用。如果判断或决策涉及多层面或者必须与另一方谈判,也不太适合应用算法。即使当原则上可以应用算法时,组织出于种种考虑,有时也不愿实施算法。以软件取代现有员工的过程十分痛苦,除非被取代的员工有更享受的工作可做,不然他们会抵制算法。
但在条件合适时,开发和实施算法惊人的简单。最常见的看法是,算法需要对大量数据进行统计分析。例如,我们访问的大多数人认为,开发预测商业贷款违约的公式,需要数千份贷款申请及其结果的数据。但很少有人知道,不需要任何结果数据,只需少量项目的输入信息,就能开发出足够的算法。因为基于常识性论证,我们将这种不需要结果数据的预测性公式称为“论证规则”(reasoned rules)。
制定论证规则首先要选择若干(约6到8个)肯定与预测结果相关的变量。如果得出结果是贷款违约,资产和负债一定要包括在变量中。下一步是直接在预测公式中赋予这些变量同样权重,确定它们明显的方向(比如资产是有利的,负债是不利的)。然后就可以通过几种简单计算,制定规则。
大量研究得出了惊人结论:很多情景下,论证规则与利用结果数据形成的统计模型准确性相当。标准统计模型集合预测性变量,这些变量的权重由它们与所预测结果的关系,以及变量彼此间的关系决定。然而很多情况下,这些权重统计上既不稳定,现实中也不重要。将权重平均分给所选变量的简单规则依旧有效。为各变量平均分配权重,而且不依靠结果数据的算法在很多应用领域都被证实成功,例如人员选拔、大选预测、足球赛预测等等。
总之,如果你计划利用算法降噪,那么不需要等待结果数据出来。利用常识选择变量,并遵照可能的简单规则组合变量,就能大有收获。
当然,无论应用哪种算法,人必须掌握最终控制权。算法必须随项目数量进行监督和调整。管理者还要留意个人决定,并在局势很清晰时具有否决算法的权威。最重要的是,高管应该决定如何把算法的结果转化为行动。算法能告诉你,所有申请中,哪些候选贷款是前5%,哪些是末10%,但必须有人决定怎么处理这些信息。
对最后拍板的专业员工而言,算法有时是一种信息的中间来源。例如,公共安全评价(public safety assessment)公式被开发用来帮助美国法官决定在等待审判期间被告能否被保释。在肯塔基州最初使用该公式的6个月内,审前释放被告的犯罪率降低了15%,而审前释放的人数百分比增加了。这里显然人类法官必须有最终决定权:如果公正交由公式决定,舆论肯定哗然。
尽管这个建议可能令人不适,但研究显示,人类虽然能为公式提供有用信息,但算法在最终决策上表现更佳。如果避免差错是唯一评判标准,应强烈建议管理者,只有在极其特殊情况下,才能否决算法的结论。
建立判断规则
任何专业判断产生噪声时,都应考虑以算法取代人工决策。但在多数情况下,这种办法太极端,或者不现实。替代方法之一是,采取改善一致性的流程,其手段是:保证职责相同的员工使用类似方法寻找信息,将信息整合到项目概念中,并将概念转化为决策。
培训无疑至关重要,但经过集体培训的专业员工可能放任自己,自说自话。为避免类似放任,公司有时组织圆桌会议,把决策者聚在一起审查项目。遗憾的是,多数圆桌会议的组织方式过于简单,以至于很难达成一致,因为与会者很快会一边倒向首先提出的意见或最自信发言者的意见。为防止这种“伪共识”,每名圆桌与会者都应该独立研究项目,形成他们要辩护的意见,然后在会议前就把意见提交给团队领导者。这样的圆桌会议才能有效提供噪声审查,还可以增添小组讨论环节,让大家探讨不同意见。
作为圆桌会议的替代或补充选项,应该给专业员工提供方便使用的工具,比如清单和仔细设计的问题,以便指导他们收集项目信息,做出中间判断,并做出最后决定。每一阶段中都会发生不必要的变数,公司能够也应该测试出工具能降噪的程度。
如今,公众对“偏差”这个术语的了解程度,还停留在认为它和“差错”能够互换。而“噪声”比偏差还要难理解得多,但并不鲜见,企业为之付出的代价也不会更少。
本文有删节,原文参见《哈佛商业评论》中文版2016年10月《决策的隐形赋税:噪声》。