鲍勇剑:互信缺失博弈中的合作策略

鲍勇剑 澎湃新闻 2021-04-02 17:06:54

系统越复杂,反应的方法也要多种多样,否则就难有效地以一报还一报。如果对方的招式不断更新变化,我方只有画符念咒这一招,那竞争的结果是堪忧的。

上周,紧急邀约我分析国际贸易危机的朋友倍增。隐去众所周知的背景情况,问题大约集中在下面几个方面:

1)对外方的言行,应该强势回应还是悄然无息?2)放眼未来,如果严重缺乏互信,怎样维持国际贸易合作?3)贸易的本质是互惠。互害也许是例外。斗争是否会很快结束?

我是国际贸易的门外汉。不过,仍然可以识别当前国际贸易呈现出的“囚徒困境”。对于如何走出“囚徒困境”,博弈论已经有超过30年的研究。许多时候,一个概括现象本质的经典理论有极高的实践价值。简而言之,即使身处严重缺乏互信的博弈中,如果策略得当,合作关系仍然是可能的。如果策略失当,双方陷入长久互害关系而不能自拔,它也是可能的。

第一次世界大战,敌对士兵之间的合作默契

第一次世界大战暴露政治决策者一系列误判。首先,英德为代表的对立联盟误判奥地利公爵菲迪南德(Franz Ferdinand)刺杀事件的象征意义。其次,双方以为象征性武力对峙可以在几个星期内结束。结果,第一次世界大战延续了4年,伤亡4200万人。

还有一个出乎决策者意料的现象,是敌我互动中的和平合作。在从法国一直延伸到比利时的500英里的壕沟坑道中,双方士兵演绎出军事战争历史上罕见的现象:除了间歇性的突袭,士兵可以在双方步枪射程内正常生活,而无需惧怕对方狙击手射杀。

历史学家阿什沃思(Tony Ashworth)十分好奇这一现象。通过阅读大量前线士兵的家书和日记,他以《壕沟战争1914-1918》(Trench War 1914-1918)一书记录了战争中敌对双方特殊的合作行为。

自1914年8月始,战争血腥残酷,双方介入一场你死我活的零和游戏。因为偶然的因素,在某些阵地,双方埋锅灶饭的时间点刚好差不多。战场出现奇特的宁静。偶然形成的默契,从休战吃饭延伸到起床出恭。上午8-9点钟,英德士兵保持互不侵犯的状态,让大家处理私人事务。后来,双方都不约而同地放弃对食品补给线的攻击,自己要吃饭,也让对方有饭吃。

相互克制的默契,从一个坑道蔓延到另外一个坑道。1914年圣诞节,醉醺醺的士兵甚至可以逛到对方壕沟而不担心被射杀。意外当然会出现,这毕竟是战争。当一方发动突袭时,另外一方马上予以对应的反击,一命抵一命。休战时,德国狙击手会特意瞄准英军壕沟上方的民宅,连续射击,直至打出一个漂亮的圆洞。双方士兵们用类似方式展现报复能力和意愿。一报还一报,我活也让你活,同时睚眦必报。

按照战争的逻辑,敌对双方形成典型的囚徒困境。相互背叛应该是常态。但是,壕沟战争中的士兵却表现出另外一面:突袭中背叛,休战时合作,自己求活路,也让对方有活路。坑道士兵之间的和平合作,当然引发指挥部的不满。指挥官总有方法继续战争。它是另外一个故事。但是,旷日持久的壕沟战争中,敌对士兵是怎样达成合作默契的?在后来的100年中,它一直是研究博弈论学者的热门话题。

超越囚徒困境

1950年,兰德公司(Rand Corp)开始研究美国和苏联之间冷战博弈。数学家福拉德和德雷舍(Merrill Flood and Melvin Dresher)推演出著名的“囚徒困境”(见下图)。在一个假想的犯人与犯人之间的博弈中,如果两人事先串通,都保持缄默,那么各被判1年。如果其中一位背叛,而另一位仍然拒绝招供,那么,背叛的犯人可以免刑,而抗供的犯人获刑5年。如果两位都背叛事先串供,那么各获刑3年。关押后,因为两位犯人无法沟通,理性的首选一般更倾向于背叛。在缺乏信息和可靠承诺前提下,它是个人利益最大化的优势选项。

161734566242946900_a700xH.png

“囚徒困境”影响了一代国际关系学者。苏美两个超级大国竞争过程中,背叛和对抗成为大国博弈的首选和优选。当艾利森(Graham Allison)谈论大国冲突的修昔底德陷阱(Thucydides’ trap)时,其背后的逻辑也是如此。

互信缺失就不可能合作吗?怎样才能颠倒囚徒困境下的选择?一战时,敌我双方士兵之间的自发合作只是昙花一现,还是可以长久维持?

带着上述问题,密歇根大学政治学家阿克赛尔罗德(Robert Axelrod)修改了囚徒困境的一个重要的,但被忽视的前提:假想敌对双方进入一个循环往复,一直持续下去的互动过程,什么样的选择(合作或背叛)会胜出?这个胜出的选择应该具有稳定性,应该符合选择者的长远利益。

为搞明白长期博弈背后的规律,阿克赛尔罗德设计了一个电脑游戏。游戏模仿囚徒困境,但不设立结束条件。换言之,游戏参加者不知道下一局是否为终局。1980年,阿克赛尔罗德向研究博弈论和相关社会科学的学者发出英雄帖,邀请他们自愿参与囚徒困境的游戏。

第一轮锦标赛参加者都是博弈论爱好者或专家。你来我往,博弈14轮,最后得分第一的是多伦多大学的一位教授。他使用的策略极其简洁:一报还一报(Tit for Tat),即你对我好,我回报以友善;你对我恶,我就报复反击;如此,循环往复不改变。

第二轮锦标赛有62轮博弈。来自5个国家的参加者都已经通晓上一轮博弈的结果,特别是获胜策略。参加者尝试15种不同的合作或背叛的策略组合,包括“下马威策略”(出场就连着背叛两局),“诱骗策略”(开局合作,然后连续背叛),“强盗策略”(一直背叛,从不合作),“趁机占便宜策略”(合作一次,背叛两次,再道歉求饶)。令人惊讶的是,榜上排名前列的都是使用了“一报还一报”的策略。

阿克赛尔罗德的初始研究问题是:从自身利益出发,在没有权威干预的条件下,缺乏信任的博弈双方能否形成合作关系?如果能,它的规律是什么?规律是否有长期的稳定性?

两轮电脑模拟游戏显示:当竞争双方认为会在未来反复相遇时,他们有可能采纳“一报还一报”的策略。它最终导致双方稳定的合作关系。而这种关系最符合各自的长远利益。

为了求证电脑模拟游戏发现的规律,阿克赛尔罗德找到生物进化学家汉密尔顿(William Hamilton),请他从亿万年生物进化的角度解释或证伪“一报还一报”的合作规律。汉密尔顿解释,类似的互惠原则(Reciprocity)也频繁出现在生物进化过程中。例如,海鲈(Sea bass)有两个性器官,可公可母。如果海鲈有十次交配,受精和产卵过程的任务,往往是对半承担,大约5次承担母海鲈的任务,5次执行公海鲈的角色。

类似的互惠合作现象,在物种进化过程中普遍存在。简单结构的植物和动物没有自主的、有意识的选择。但是,它们有与外部环境的反应机制。长期进化过程中,互惠反应有利于物种生存。这个本能的策略通过基因保留下来,传给后代。汉密尔顿教授的“亲缘关系和利他合作”理论被认为是对达尔文“物竞天择”生物进化理论的一个重要补充。生物进化,既有竞争,又有合作。合作是物种演变的主旋律。

“一报还一报”是不是也可能让互害关系循环下去,成为无休止的宿怨?它完全是可能的。因此,博弈论学者特别倡导传播“一报还一报”的互惠合作规律,教育人们认识到它是符合自身利益的最优策略。

缺乏互信条件下的合作策略

成为赢家,我们绝不能打左脸,送右颊。但是,只有“以牙还牙,以眼还眼”,它也不符合我们自身利益和长期目标。实践中,阿克赛尔罗德的“一报还一报”的策略有10项应用原则。总结如下:

1.待人以直, 针锋相对。你示好,我友善。你背弃,我反击。如此循环往复。2.凸显相互依存的宿命,打消零和游戏的念头。躲了初一,逃不了十五。让对方理解,这不是一次性可以了断的博弈。3.首现诚意,和善开局。博弈伊始,不出滥招,不动恶念。从做好人开始。4.敢于反击,以牙还牙。回敬要及时,反击合比例。5.宽宥只能一次,了断讨巧伎俩。最多原谅对手一次,而且是在有力的报复之后。6.承诺不首先背叛,如果失误,真诚致歉。假如因为误判而选择背叛,立即解释并补偿。7.不耍小聪明,不占小便宜。即使发现对方漏洞和疏忽,坚持第一条,待人以直。8.成全对方,超越自己。零和游戏重点在削弱对手。非零和游戏重点是自我进步。9.结盟,成为合作的少数。即使在普遍具有敌意的竞争环境中,少数结盟者之间的合作将改变充满敌意的环境,直至合作成为主导策略。10.开宗明义宣示遵守“一报还一报”的策略。当双方认识到它是必要的优选后,建立合作的过程可以加速。

在目前的国际环境下,因为地缘政策因素,国际贸易变得更加复杂。怎样理解和管理复杂系统?系统学家阿什比(Ross Ashby)建议:遵守“必要的多样性” 原则(Ashby’s law of requisite variety)。概言之,系统越复杂,反应的方法也要多种多样,否则就难有效地以一报还一报。如果对方的招式不断更新变化,我方只有画符念咒这一招,那竞争的结果是堪忧的。

长按二维码关注我们