文 / 王世民,深圳尔雅总裁 | YouCore创始人,著有《思维力》《学习力》《个体赋能》
01、出人意料的最佳合作策略
无论是自然界还是人类社会,就演化论的观点来看,本质上都是一个自私自利的系统。
在这样的世界里,人为了追求个人利益最大化采用各种欺压、不诚实的策略是很正常的。而善良的人似乎更易吃亏,“人善被人欺,马善被人骑”更是一句世人皆知的俗语。
经典的囚徒困境实验,也很好地证明了人类与生俱来的这种自私性。
“囚徒困境”是1950年美国兰德公司的梅里尔·弗勒德(MerrillFlood)和梅尔文·德雷希尔(MelvinDresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(AlbertTucker)以囚徒方式阐述,并命名为“囚徒困境”。
两个共谋犯罪的人被关入监狱,不能互相沟通情况。如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱十年;若互相揭发,则因证据确凿,二者都判刑八年。
由于囚徒无法信任对方,因此宁可互相揭发坐八年牢,而不会同守沉默。
——引自《百度百科》
既然人类如此自私,善良的基因早就该在这么多年的生物演化和社会演化中被淘汰了,但为何世界各地的文化都在号召相互合作,而不是相互欺诈呢?是因为这个号召本身就是一个欺诈吗?
美国密歇根大学政治学与公共政策教授罗伯特·阿克塞尔罗德,在20世纪70年代晚期做的一个实验给我们揭示了一个出人意料的结果。
阿克塞尔罗德向全世界各地的研究者征求了各种博弈策略,然后输入电脑程序中,让这些策略程序在一个重复的囚徒困境比赛中彼此竞争。
这些策略程序不受任何限制,唯一的目标就是在与其它策略程序所进行的上百次互动中努力积累最高得分,最后得分最高者就是胜利者。
最初,很多人都以为规则复杂且倾向于不诚实的策略会获胜。
但结果出人意料:最终获得比赛胜利的程序是规则最简单的且采取合作策略的一个程序。
在第二轮的竞赛中,很多参赛者因为知道了第一轮的结果,因此开发了不少针对该程序的策略,但结果令人大跌眼镜的是,获胜的依然是这个策略。
赢得这两次比赛的程序是由多伦多大学阿纳托尔·拉帕波特教授提交的“一报还一报”(Tit for Tat)策略程序。
它是所有参赛程序中最简单的:
◆ 每当与其它程序第一次互动时,“一报还一报”程序都会选择合作。
◆ 然而如果某个程序没跟它合作,它就会报复,下一次与这个程序互动时就不会合作。也就是它会按照对方程序在上一次互动中的策略来行事。
这个合作策略的有效性相当稳定(阿克塞尔罗德后续做了6种变形实验,“一报还一报”策略5次排名第一,一次排名第二),并已被大量的经验数据证明是一个在演化上具有优势的行为模式。
在适者生存的进化生态模拟中,一直到第1000代,“一报还一报”都是最成功的策略,而且越来越占据进化中的优势。
▲ 策略的生态模拟过程(引自《合作的进化》)
“一报还一报”策略如此有效,那我们在工作或生活中应该怎样采用呢?
阿克塞尔罗德在《合作的进化》一书中给出了四个建议,我将其重新提炼为三个准则。
02、促进合作准则一:优先以善待人
“一报还一报”策略稳定成功的关键不在于征服对方,而在于引导合作。
也就是说,不管对方是倾向于合作还是倾向于背叛,在与“一报还一报”策略交往的时候,他都会发现采取合作才是最有利的交往方式。
“一报还一报”策略能稳定做到这一点的原因在于它综合了善良性、报复性、宽容性和清晰性。其中,最重要的第一点就是善良性。
阿克塞尔罗德的实验发现,决定一个策略表现是否出色的最关键特征就是这个规则是否善良,也就是是否不首先背叛对方。
在第一轮竞赛中,排名前8的策略都是善良的,后7名策略中没有一个是善良的;
在第二轮竞赛中,前15名策略中只有一个是非善良的(它名列第8),而后15名策略中只有一个是善良的。
之所以会出现这种现象,原因在于:
◆ 跟人合作中优先采取善良的行为,可以避免不必要的冲突,跟你采取合作的人也会越来越多。
◆ 跟你采取合作的人越多,想对你采取欺骗或背叛的人就越难以进入你的圈子。
你可以观察下,无论是在政治领域还是商业领域,最终的胜利者都是偏向于采用合作策略,团结一切可以团结的力量的人。
03、促进合作准则二:果断报复背叛
“一报还一报”相较于其它善良的策略,之所以能稳居第一,还在于它有非常清晰的报复性(这也是这个策略被命名为“一报还一报”的原因)。
在第一步合作后,“一报还一报”只是简单地回报对方在上一步的所为:
◆ 若对方上一步采取的是合作行为,则“一报还一报”就会采取合作行为回报。
◆ 若对方上一步采取的是背叛行为,则“一报还一报”会施以同样的报复。
这个报复性的规则既简单又非常清晰,简单清晰到任何人都不可能忽视。
如果你不折不扣地采取这样简单清晰的报复性策略,你就更容易建立起鲜明的信誉和威慑。
所有跟你打过交道的人,以及想跟你打交道的人,都知道你会怎么响应他们的行为,因此他们在考虑对你采用何种策略时,会直接受到你的这个信誉和威慑的影响。
比如,在中美贸易摩擦中,中国对美国的加征关税行为做出了既果断又明确的报复性措施,这就给美国以及其它跟中国有贸易往来的国家传递出了明确的信号和威慑。
你在采取报复措施时,不用有任何的心理负担(因为我们不少人从小就被教育要“以德报怨”),你可以善良,但不可以做“老好人”,对方一旦有背叛行为,你一定要果断地报复,而且要让对方以及其他人都清晰地感受到你就是在报复他的背叛行为。
同时,也不要觉得后发制人的报复还是会吃亏,想着是不是可以采取更多避免吃亏的做法。
其实,在“一报还一报”的合作策略之下,你在跟每一个人单独打交道的时候,都是处于不占便宜甚至是吃亏的一方的,因为你的第一步总是优先选择善良(也就是不背叛),然后下一步就是回报他的上一步(吃了亏才报复)。
但神奇的现象就在于,只要你身处一个会重复性打交道的环境中,你采取“一报还一报”的合作策略,你就有更大的可能取得最好的结果。
04、促进合作准则三:建立宽恕机制
“一报还一报”策略除了综合善良性、报复性、清晰性外,很重要的一点就是它还有宽容性。
“一报还一报”永远是简单地回报对方在上一步的所为:一个人因为背叛被你报复过后,如果他再次跟你合作,你依然会选择合作而不是报复。
所以,“一报还一报”的宽容性有助于重新恢复合作,从而引出更多长期的合作。
也许你会觉得采取“永久报复”的策略(一旦对方背叛一次,就永不合作)会更有威慑力,也更容易达到“亲君子远小人”的目的。
阿克塞尔罗德在他的实验中,也正好研究过这个策略。
由于这个策略是善良的(绝不首先背叛),因此它与其它善良的策略相处得很好(达到了亲君子的目的)。
但它与许多其它策略相遇时就表现得很差,特别对于那些偶尔背叛但准备一旦受报复就撤回的策略来说,“永久报复”的策略完全没有宽恕性,导致太快放弃合作了(不只是远了“小人”,而是远了绝大多数人)。
那些我们觉得太清高或有道德洁癖的人,采取的就是这种“永久报复”的策略,但历史和现实都已经很好地教育了我们,这种合作策略的效果是不佳的。
“一报还一报”正是因为既有果断的报复,又有宽恕机制的存在,因此才取得了更佳的表现。
但“一报还一报”也有其命门所在,那就是一旦与一个爱报复的策略结下仇恨,双方就会无休止地继续下去。
像武侠小说中的世仇就是这样形成的。一个伤害用另一个伤害来偿还,并且每一次报复都引起了新一轮的报复,即使当所有人都已经记不得最初的伤害到底如何发生的,这种世仇也会继续下去。
因此,我们可以尝试在“一报还一报”的基础上稍微再宽容一点。
比如一报还十分之九报,这样既能减弱报复的持续反射,又依然能建立让对方不敢随意背叛的威慑。
像中国针对美国贸易摩擦的报复,就很好地采用了这个策略,不是对等报复,但又让对方感受到足够的痛(所以咱们国家商务部的博弈水平还是很高的)。
到底能再宽容多少,什么样的宽恕水平才是最优的,这个跟环境有关,比如在一个擅于占便宜的恶意环境里,太多的宽恕就要付出代价。
但在真实环境中,我们又很难准确地平衡报复和宽恕的水平,因此只能靠你自己去多多尝试了。
不过无论怎么做更多的宽容,对对方背叛行为的果断报复是不能放弃的,因为阿克塞尔罗德也考察过“两报还一报”的策略(被连续背叛两次才报复一次),这个策略在竞赛中仅能名列24位。
05、小结
“一报还一报”策略成功的关键不在于征服对方,而在于引导合作。
之所以能做到这一点,原因在于“一报还一报”策略综合了善良性、报复性、宽容性和清晰性:
◆ 善良性让“一报还一报”策略能够最大程度地避免不必要的冲突。
◆ 报复性和清晰性让“一报还一报”策略建立了明确的信誉和威慑,让其他人都认识到跟你建立合作才是最佳的做法。
◆ 宽容性让“一报还一报”策略保留了一定的宽恕,有助于重新恢复合作,从而引出更多长期的合作。
“一报还一报”的合作策略如此简单有效,你是不是要考虑下好好采用它呢?
不过最后也要提醒下你,“一报还一报”的策略适用于多次打交道的环境,不适用于仅打一次交道的情境。
一旦个体判断再也不会相遇,背叛策略就是唯一稳定的策略,这就是文章开头所介绍的囚徒困境的成因。所以要特别小心从此与你再无交集的人哦。