囚徒困境及经典案例囚徒困境囚徒困境是博弈论的非零和博弈中具代表性的例子, 择虽然困境本身只属模型性质,但现实中的价格竞争、 似情况囚徒困境最早是由美国普林斯顿大学数学家阿尔伯特反映个人最佳选择并非团体最佳选 环境保护等方面,也会频繁出现类塔克(Albert tucker ) 1950 年提这个故事(A和B)作案后被警察抓住,隔出来的他当时编了一个故事向斯坦福大学的一群心理学家们解释什么是博弈论, 后来成为博弈论中最著名的案例故事内容是:两个嫌疑犯离审讯;警方的政策是 坦白从宽,抗拒从严”,如果两人都坦白则各判 8年;如果一人坦白 另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白则因证据不足各判 1年单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样在重复的囚徒困境中,博弈被反复地进行因而每个参与者都有机会去 惩罚”另一个参与者前一回合的不合作行为 这时,合作可能会作为均衡的结果出现 欺骗的动机这时可能被受到惩罚的威胁所克服, 从而可能导向一个较好的、 合作的结果作为反复接近无限的数量,纳什均衡趋向于帕累托最优囚徒困境的主旨为, 囚徒们虽然彼此合作,坚不吐实,可为全体带来最佳利益 (无罪开释),但在资讯不明的情况下,因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙 把自己招出来可为他带来利益, 因此彼此出卖虽违反最佳共同利益, 反而是自己最大利益所在。
但实际上,执法机构不可能设立如此情境来诱使所有囚徒招供, 因为囚徒们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以执法者所设立之利益(刑期)作考 量经典的囚徒困境1950年,由就职于兰德公司的梅里尔 弗拉德(Merrill Flood )和梅尔文 德雷希尔(Melvin Dresher )拟定出相关困境的理论,后来由顾问阿尔伯特 塔克(Albert Tucker )以囚徒方式阐述,并命名为 囚徒困境”经典的囚徒困境如下:是警方分开囚禁嫌疑犯,警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪 分别和二人见面,并向双方提供以下相同的选择:•若一人认罪并作证检举对方(相关术语称 背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监 10年•若二人都保持沉默(相关术语称互相 合作”),则二人同样判监半年•若二人都互相检举(互相 背叛”),则二人同样判监 2年用表格概述如下:甲沉默(合作)甲认罪(背叛)乙沉默(合作)二人同服刑半年甲即时获释;乙服刑 10年乙认罪(背叛)甲服刑10年;乙即时获释二人同服刑2年如同博弈论的其他例证,囚徒困境假定每个参与者(即 囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。
参与者某一策略所得利益, 如果在任何情况下都比其他策略要低的话,此策略称为 严格劣势策略”,理性的参与者绝不会选择另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略囚徒到底应该选择哪一项策略, 才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监 禁,并不知道对方选择; 而即使他们能交谈, 还是未必能够尽信对方不会反口就个人的理 性选择而言,检举背叛对方所得刑期, 总比沉默要来得低 试设想困境中两名理性囚徒会如何作出选择:•若对方沉默、背叛会让我获释,所以会选择背叛•若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛二人面对的情况一样,所以二人的理性思考都会得出相同的结论 一一选择背叛背叛是 两种策略之中的支配性策略 因此,这场博弈中唯一可能达到的纳什均衡, 就是双方参与者 都背叛对方,结果二人同样服刑 2年这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案 以全体利益而言,如果两个参与者都合作保持沉默, 两人都只会被判刑半年, 总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳但根据以上假设,二人均为理性的个人,且只追求自己个 人利益。
均衡状况会是两个囚徒都选择背叛, 结果二人判决均比合作为高, 总体利益较合作为低这就是 困境”所在例子漂亮地证明了:非零和博弈中,帕累托最优和纳什均衡是相 冲突的由囚徒困境可以写出类似的员工困境:一名经理,数名员工;前提,经理比较苛刻;如果所有员工都听从经理吩咐,则奖金等待遇一样,不过所有人都超负荷工作如果某人不听从吩咐,其他人听从吩咐,则此人下岗其他人继续工作如果所有人都不听从经理吩咐,则经理下岗但是,由于员工之间信息是不透明的,而且,都担心别人听话自己不听话而下岗,所以,大家只能继续繁重的工作一般形式整理囚徒困境的基本博弈结构,可更清楚地分析囚徒困境 实验经济学常用这种博弈的一般形式分析各种论题以下是实现一般形式的其中一例:有两个参与者和一个庄家参与者每人有一式两张卡片,各印有 合作"和背叛"参与者各把一张卡片文字面朝下,放在庄家面前文字面朝下排除了参与者知道对方选择的可能 性然后,庄家翻开两个参与者卡片,根据以下规则支付利益:• 一人背叛、一人合作:背叛者得 5分(背叛诱惑),合作者0分(受骗支付)•二人都合作:各得 3分(合作报酬)•二人都背叛:各得1分(背叛惩罚)用支付矩阵表格展示支付如下(以 红和蓝分别表示二参与者)般形式囚徒困境的支付矩阵 以* R、P、S”符号表示 以 胜一负”术语表示合作背叛合作背叛合作合作背叛合作3, 30, 5合作R, RS, T胜-胜大负-大胜背叛5, 01, 1背叛T SP, P背叛大胜-大负负-负简单博弈获得的点数可以得出一些一般化的结论。
T、R、P、S符号表符号分数英文中文(非术语)解释T5Temptation背叛诱惑单独背叛成功所得R3Reward合作报酬共同合作所得P1Punishment背叛惩罚共同背叛所得S0Suckers受骗支付被单独背叛所获若以 T (Temptation )=背叛诱惑,R (Reward )=合作报酬,P (Punishment )=背叛 惩罚,S (Suckers )=受骗支付,以个人选择得分而言,可得出以下不等式T>R>P>S(解:从5>3>1>0获得以上不等式)若以整体获分而言,将得出以下不等式2R>T+S 或 2R>2P(解:2X3>5+0或2X3>2x1 ;合作2人共得6分,比起互相背叛的共得 2分及单独背 叛的共得5分,显然合作获分比背叛高合作在团体而言是支配性策略)而重复博弈或重复的囚徒困境将会使参与者从注重 T>R>P>S转变成注重2R>T+S就是说将使参与者脱离困境 以上理论是道格拉斯霍夫施塔特创建的囚徒困境的应用许多行业的价格竞争都是典型的囚徒困境现象, 每家企业都以对方为敌手,只关心自己的利益在价格博弈中, 只要以对方为敌手, 那么不管对方的决策怎样,自己总是以为采取低价策略会占便宜,这就促使双方都采取低价策略。
如可口可乐公司和百事可乐公司之间的竞争、各大航空公司之间的价格竞争等等在国内的家电大战中, 虽然不是两个对手之间的博弈, 但由于在众多对手当中每一方的因此,其情景大概也那么双方都可以囚徒困境”,双赢市场份额都很大,每一个主体人的行为后果受对手行为的影响都很大, 是如此如果清楚这种前景,双方勾结或合作起来,都制定比较高的价格, 因为避免价格大战而获得较高的利润但是往往这些联盟处于利益驱动的 也就成泡影五花八门的价格联盟总是非常短命,道理就在这里并不是每次个人的理性选择”都能让自我利益最大化,也许会让你陷入一个囚徒困境”先下手为强”大量例子说明,在 囚徒困境”中,常常是先动手的一方会占一些优势那么, 吧现实的例子政治学例子:军备竞赛在政治学中,两国之间的军备竞赛可以用囚徒困境来描述 两国都可以声称有两种选择:增加军备(背叛)、或是达成削减武器协议(合作)两国都无法肯定对方会遵守协议,因 此两国最终会倾向增加军备似乎自相矛盾的是,虽然增加军备会是两国的「理性」行为, 但结果却显得「非理性」 (例如会对经济造成都有损坏等)这可视作遏制理论的推论,就是以强大的军事力量来遏制对方的进攻,以达到和平。
经济学例子:关税战两个国家,在关税上可以有以两个选择 :1. 提高关税,以保护自己的商品 (背叛)2. 与对方达成关税协定,降低关税以利各自商品流通 (合作)当一国因某些因素不遵守关税协定, 而独自提高关税(背叛)时,另一国也会作出同样 反应(亦背叛),这就引发了关税战,两国的商品失去了对方的 市场,对本身经济也造成损 害(共同背叛的结果)然后二国又重新达成关税协定 (重复博弈的结果是将发现共同 合作利益最大商业例子:广告战商业活动中亦会出现各种囚徒困境例子以广告竞争为例两个公司互相竞争,二公司的广告互相影响, 即一公司的广告较被顾客接受则会夺取对 方的部分收入但若二者同时期发出质量类似的广告, 收入增加很少但成本增加 但若不提高广告质量,生意又会被对方夺走此二公司可以有二选择:1. 互相达成协议,减少广告的开支 (合作)2. 增加广告开支,设法提升广告的质量,压倒对方 (背叛)若二公司不信任对方,无法合作, 背叛成为支配性策略时,二公司将陷入广告战, 而广告成本的增加损害了二公司的收益, 这就是陷入囚徒困境在现实中,要二互相竞争的公司达成合作协议是较为困难的,多数都会陷入囚徒困境中自行车赛例子自行车赛事的比赛策略也是一种博弈, 而其结果可用囚徒困境的研究成果解释。
例如每年都举办的环法自由车赛中有以下情况:选手们在到终点前的路程常以大队伍(英 文:Peloton )方式前进,他们采取这策略是为了令自己不至于太落后,又出力适中而最前 方的选手在迎风时是最费力的, 所以选择在前方是最差的策略 通常会发生这样的情况, 大家起先都不愿意向前 (共同背叛),这使得全体速度很慢,而后通常会有二或多位选手骑到 前面,然后一段时间内互相交换最前方位置,以分担风的阻力( 共同合作),使得全体的速度有所提升,而这时如果前方的其中一人试图一直保持前方位置( 背叛),其他选手以及大队伍就会赶上(共同背叛)而通常的情况是,在最前面次数最多的选手( 合作)到最后通 常会被落后的选手赶上(背叛),因为后面的选手骑在前面选手的冲流之中,比较不费力与囚徒困境相关的各事件异想威廉庞德斯通(William Poundstone )在他的著作中,以一新西兰的例子来说明囚徒 困境在新西兰,报亭既无管理员也不上锁, 买报纸的人自行放下钱后拿走报纸 当然某些人可能取走报纸却不付钱( 背叛),但由于大家认识到如果每个人都偷窃报纸( 共同背叛)会造成以后不方便的有害结果, 这种情形很少发生这例子特别之处是新西兰人并没有被任何其他因素影响而能脱离囚徒困境。
并没有任何人特别去注意报亭, 人们守规则是为了避免共同背叛带来的恶果这种避免囚徒困境的大家共同的推理或想法被称为 异想(magicalthinking )"认罪减刑”不可行囚徒困境的结论是许多国家中认罪减刑(英文: plea bargain )被禁止的原因之一囚徒困境带来的结论是: 如果有二个罪犯,其中一人犯罪而另外一人是无。