经济博弈论4－金锄头文库

资源描述

《经济博弈论4》由会员分享，可在线阅读，更多相关《经济博弈论4（57页珍藏版）》请在金锄头文库上搜索。

1、第四章重复博弈,本章介绍基本博弈重复进行构成的重复博弈。虽然形式上是基本博弈的重复进行，但重复博弈中博弈方的行为和博弈结果却不一定是基本博弈的简单重复，因为博弈方对于博弈会重复进行的意识，会使他们对利益的判断发生变化，从而使他们在重复博弈过程中的行为选择受到影响。这意味着不能把重复博弈当作基本博弈的简单叠加，必须把整个重复博弈过程作为整体进行研究。,1,重复博弈,大多数重复博弈是静态博弈的重复，而重复博弈又是一个动态的过程，属于动态博弈的范畴。因此重复博弈与静态博弈和动态博弈都有关系。,2,本章分三节,4.1 重复博弈引论 4.2 有限次重复博弈 4.3 无限次重复博弈,3,4.1 重复博弈

2、引论,4.1.1 为何研究重复博弈两家企业在一个市场上的传长期竞争；两个企业遵守一份为期10年协议方面的契约；商业中的回头客等等。由于长期合作，通过报复、制裁、威胁等手段的相互约束行为，追求共同的目标，考虑当前利益兼顾将来的利益。长期关系可以理解为博弈阶段较多，时间跨度较大的一般动态博弈。诚信、信任 4.1.2 基本概念,4,4.1.1 为何研究重复博弈,经济中的长期关系人们的预见性未来利益对当前行为的制约长期合同、回头客、常客和一次性买卖的区别有无确定的结束时间长期关系与短期关系前面讨论的都是社会经济活动中短期一次性合作或竞争关系，但社会经济活动中除了短期一次性关系以外，还

3、存在许多长期反复的合作和竞争关系。如商业活动中的回头客。长期关系与短期关系之间的差别不只是时间跨度长短的数量问题，而是有重要性质的差别。在长期关系中，人们在考虑当前利益的同时，需要兼顾未来利益。,5,“冲突”何以能产生合作，就是因为重复博弈的存在,瑞典皇家科学院2005年10月10日在斯德哥尔摩宣布，将2005年的诺贝尔经济学奖授予以色列希伯莱大学的罗伯特奥曼（RobertJ.Aumann）和美国马里兰大学的托马斯谢林（ThomasC.Schelling），以表彰他们“通过博弈论分析，促进了人们对冲突和合作的理解”。为此，他们获得1000万瑞典克朗（约合130万美元）的奖金。从约翰纳什开始，

4、在博弈论这座金矿中淘到诺贝尔经济学奖的有数十位之多，与博弈论领域相关的基础研究，据说已经是第五次折桂了。瑞典皇家科学院在授奖时说，罗伯特奥曼第一次对重复博弈进行了全面正式分析。他们认为，“重复博弈的理论促进了我们对合作先决条件的理解，阐明了包括商业协会、犯罪组织在内的许多机构进行磋商和国际贸易协定的理由”。,6,4.1.2 基本概念,有限次重复博弈：给定一个基本博弈G（可以是静态博弈，也可以是动态博弈），重复进行T次G，并且在每次重复G之前各博弈方都能观察到以前博弈的结果，这样的博弈过程称为“G的T次重复博弈”，记为G(T)。而G则称为G(T)的“原博弈”。G(T)中的每次重复称为G(T)的

5、一个“阶段”。无限次重复博弈：一个基本博弈G一直重复博弈下去的博弈，记为G( ) 策略：博弈方在每个阶段针对每种情况如何行为的计划子博弈：从某个阶段（不包括第一阶段）开始，包括此后所有的重复博弈部分均衡路径：由每个阶段博弈方的行为组合串联而成,7,2. 重复博弈的策略、子博弈和均衡路径 (1) 重复博弈的策略重复博弈中每个博弈方在每个阶段都必须进行策略选择，因此博弈方的一个策略就是在每次重复时, 针对其前面阶段所有可能的情况如何进行行动的计划。 (2) 重复博弈的子博弈重复博弈的子博弈就是从某个阶段（除第一阶段以外）开始，包括此后所有阶段的重复博弈部分。重复博弈的子博弈要么仍然是重复

6、博弈，只是重复的次数较少，要么就是原博弈。 (3) 重复博弈的均衡路径重复博弈的路径是由每个阶段博弈方的行动组合串联而成的。而且对应前一阶段的每一种结果，下一阶段都有原博弈全部策略组合数那么多种可能的结果，如原博弈有m种策略组合，那么重复两次就有m2条博弈路径，重复T次就有mT条博弈路径，因此在重博弈中，博弈方在重复博弈中的策略空间要远远大于在每个阶段博弈中的策略空间，重复博弈的路径数往往是很大的，常常可以产生一些意想不到的均衡路径。,8,3重复博弈的得益方法之一是计算重复博弈的”总得益”,即博弈方各次重复得益的总和；另一种方法是计算各阶段的“平均得益”，即总得益除以重复次数。,9,重复

7、博弈的总得益,10,重复博弈的平均得益,随机停止和贴现率,11,4.2 有限次重复博弈,4.2.1 两人零和博弈的有限次重复博弈 4.2.2唯一纯策略纳什均衡博弈的有限次重复博弈 4.2.3多个纯策略纳什均衡博弈的有限次重复博弈 4.2.4 有限次重复博弈的民间定理,12,4.2.1 两人零和博弈的有限次重复博弈,零和博弈是严格竞争的，重复博弈并不改变这一点。以零和博弈为原博弈的有限次重复博弈与猜硬币博弈的有限次重复博弈一样，博弈方的正确策略是重复一次性博弈中的纳什均衡策略。,以猜硬币博弈为原博弈的有限次重复博弈中，每个博弈方的惟一正确的策略是在每次重复时都采用一次性博弈的纳什均衡策略，

8、即各以0.5的概率随机选正面和反面的混合策略。重复博弈的结果是双方的平均期望得益和期望总得益都为0。,13,4.2.2 两人零和博弈的无限次重复博弈,两人零和博弈无限次重复的所有阶段都不可能发生合作，博弈方会一直重复原博弈的混合策略纳什均衡,两人零和博弈的无限次重复与有限次重复博弈的结果并不会有什么不同：因为重复次数的无限增加也不能改变原博弈中博弈方之间在利益上的对立关系，也不会创造出潜在的合作利益，因此在这种博弈的无限次重复博弈中，博弈方仍然是每次重复都根据当时的最大利益行为，采用原博弈的混合策略纳什均衡。,两人零和博弈无限次重复博弈会不会发生合作？,14,4.2.2唯一纯策略纳什均衡博弈的

9、有限次重复博弈,定理：设原博弈G有唯一的纯策略纳什均衡,则对任意整数T，重复博弈 G(T)有唯一的子博弈完美纳什均衡，即各博弈方每个阶段都采用G的纳什均衡策略。各博弈方在G(T)中的总得益为在G中得益的T倍，平均得益的与原博弈G中的得益。,15,有限次重复削价竞争博弈,有唯一纯策略纳什均衡（70，70）有限次重复的结果仍然是（低价，低价）,16,4.4 多个纯策略纳什均衡的重复博弈,原博弈存在两个纯策略纳什均衡（M,M），（L,L）以及混合策略纳什均衡。,17,4.4.1多个纯策略纳什均衡的有限次重复博弈,重复2次,触发策略：两博弈方先试探合作，一旦发现对方不合作则也用不合作报复博弈

10、方1：第一次选H；如第一次结果为(H,H)，则第二次选M，否则选L。博弈方2：同博弈方1,18,如果重复n次，结论相似。采用触发策略实现比较好的结果，子博弈完美纳什均衡路径为：除了最后一次外，每次都采用（H，H），最后一次采用（M，M）。当重复次数较多时，平均得益接近于一次性博弈中（H，H）的得益（5，5）。,19,在上面的分析中，我们发现触发策略重复是一种非常重要的机制，采用这种策略就意味着对将来策略选择所作的可信的威胁或承诺可以影响到当前阶段的行动选择。但如果仔细分析，不难发现上述触发策略也可能存在值得推敲的问题，就是报复机制的可信性。惩罚别人也惩罚自己！,关于“触发策略”的讨论

11、,20,其实，并不是每个重复博弈的触发策略都有可信性问题，触发策略在很多情况下是非常可信的。,可以证明，双方的上述触发策略组合（H，H），（M，M）构成该重复博弈的一个子博弈精炼纳什均衡，而且双方的触发策略中的报复都是可信的。,21,在博弈理论中，有两个著名的策略： 1.触发策略（Trigger strategies ）。 2.“一报还一报”策略：也就是若你采取不合作策略，我也采取不合作策略，但是如果你采取了合作策略，我也采取合作策略。这叫，或者称为“针锋相对”，英文叫Tit-for-Tat。,22,一报还一报的策略是这样的：第一次博弈采用合作的策略，以后每一步都跟随对方上一步的策略，你上

12、一次合作，我这一次就合作，你上一次不合作，我这一次就不合作。也就是说，一报还一报的策略实行了“胡萝卜加大棒”的原则。它永远不先背叛对方，从这个意义上来说它是“善意的”。它会在下一轮中对对手的前一次合作给予回报,哪怕以前这个对手曾经背叛过它，从这个意义上来说它是“宽容的”。但它会采取背叛的行动来惩罚对手前一次的背叛，从这个意义上来说它又是“可激怒的”。而且，它的策略极为简单，对手一望便知其用意何在，从这个意义来说它又是“简单明了的”。“一报还一报”策略的优越性向我们充分展示了一个纯粹自利的人何以会选择善，只因为合作是自我利益最大化的一种必要手段。,23,美国密执安大学的罗伯特埃克斯罗德(Robe

13、rt Axerold)曾经主持过一次计算机比赛，看谁写出来的程序能够赢。参加者有政治学家、数学家、经济学家、社会学家，他们都详细研究过囚徒困境。获胜者是加拿大多伦多大学的罗伯布（Anatol Rapoport）写的“一报还一报”(Tit-for-Tat)策略。,24,两市场博弈的重复博弈（重复一次）,纯策略纳什均衡： (A,B)和(A,B)，对应得益为（1，4）和（4，1）混合策略纳什均衡：分别以1/2的概率随机在A或B中选择，双方得益为1/4（3410）2,两市场博弈的重复博弈,25,两市场博弈的重复博弈（重复两次）,(A,B)+(A,B) OR (B,A)+(B,A)(1,4)OR(

14、4,1) 连续两次采用混合策略(2,2) (A,B)+(B,A) OR (B,A)+(A,B)(2.5,2.5)轮换策略一次纯策略+一次混合策略(1.5,3)OR(3,1.5),26,重复博弈不同策略、均衡及一次性博弈得益比较,不同策略组合、均衡得益图示,27,重复博弈不同策略、均衡及一次性博弈得益比较,不同策略组合、均衡得益图示,轮换策略结果比较好，但与最佳结果（A，A）还有一定差距。本博弈不能实现最佳结果原因，是因为这个两次重复博弈没有运用触发策略的条件或者说机会。,28,两市场博弈的重复博弈（重复三次）,如果两市场重复3次，则博弈结果会得到进一步改善，关键是在两次重复博弈时没有条件

15、运用触发策略，在3次以上的重复博弈中有了运用的条件。,厂商1：第一阶段选A；如果第一阶段结果是（A，A），则第二阶段选A，如果第一阶段结果是（A，B），则第二阶段选B；第三阶段无条件选B。厂商2：第一阶段选A，第二阶段无条件选B，如果第一阶段结果是（A，A），则第三阶段选A；如果第一阶段结果是（B，A），则第三阶段选B。,均衡路径（A，A）（A，B）（B，A）,29,两市场博弈的重复博弈（重复三次）,其中第二阶段、第三阶段本身就是纳什均衡，因此不会有哪一方愿单独偏离。第一阶段的策略组合虽然并不是原博弈的纳什均衡，但由于有后面阶段利益的制约作用，但它作为3次重复博弈的第一次博弈的策略组合具

16、有稳定性。,该子博弈完美纳什均衡的平均得益为（314）/32.67，大于其他任何子博弈完美纳什均衡的平均得益，因此从总体效率的意义上，这个带触发策略的子博弈完美纳什均衡是众多子博弈完美纳什均衡中效率最高的。,30,两市场博弈的重复博弈（重复101次）,厂商1触发策略：前99次选A；但从其中的第二次开始，一旦发现哪次的结果不是（A，A），则改为B并坚持到底，最后两次重复与3次重复博弈的后两次重复的策略相同。厂商2触发策略：同厂商1,每阶段的平均得益：（99*3+1+4）/101=2.99 非常接近效率最高的得益（3,3）,31,由上面两个重复博弈例子的分析可以看出，当原博弈有多个纯策略纳什均衡时，有限次重复博弈存在许多效率差异很大的子博弈完美纳什均衡，并且可以通过设计包含报复机制的触发策略，来实现效率较高的均衡，得到一次性博弈中无法实现的潜在合作利益。而提高效率和发掘潜在利益可能性和程度，则主要决定于运用特定策略的条件，采用的策略，以及重复博弈的次数。

展开阅读全文