博弈论课件第四章－金锄头文库

资源描述

《博弈论课件第四章》由会员分享，可在线阅读，更多相关《博弈论课件第四章（60页珍藏版）》请在金锄头文库上搜索。

1、第四讲重复博弈,何为“重复博弈”？,重复博弈是指基本博弈重复进行构成的博弈过程。重复博弈中每个阶段中的博弈方、可选策略、规则和得益都是相同的-是特殊的动态博弈；形式上是基本博弈的重复进行，但博弈方的行为和博弈结果不一定是基本博弈的简单重复，因为博弈方对于博弈会重复进行的意识，会使他们对利益的判断发送变化，从而使他们在重复博弈过程不同阶段的行为选择受到影响。可信度：子博弈完美性仍是判断均衡是否稳定可靠的重要判断依据,4.1 引论,4.1.1 为何研究“重复博弈”（Game）：,4.1.2 基本概念：,分类：有限次重复博弈，无限次重复博弈有限次重复博弈：给定一个基本博弈G（可以静态，也

2、可以动态），重复进行了T次G，并且在每次重复G之前，各博弈方都能观察到以前博弈的结果，这样的博弈过程称为“G的T次重复博弈”，记为G(T)。而G称为G(T)的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶段”。无限次重复博弈：理论上，重复博弈可以无限制进行下去，不一定经过一定次数重复以后就必须结束。如果一个基本博弈G一直重复下去，这样的重复博弈就是“无限次重复博弈”，记为G()。无限次重复博弈的基本博弈也称为“原博弈”。无限次重复博弈是有无限个阶段的动态博弈。,重复博弈的次数虽然有限，但重复的次数或博弈结束的时间不确定，这种重复博弈中博弈方的行为选择与确定结束时间的有限次重复博弈很

3、不同，与无限次重复博弈很相似，甚至可以通过某种方式与无限次重复博弈统一起来。这种重复博弈可以称为“随机结束的重复博弈”。,策略、子博弈和均衡路径,策略：博弈方的一个策略就是在每个阶段（即每次重复），针对每种情况（以前阶段的结果）如何行动的计划。子博弈：重复博弈的子博弈就是从某个阶段（不包括第一阶段）开始，包括此后所有阶段的重复博弈部分。子博弈：重复博弈？原博弈？（最后一个阶段）路径：子博弈完美纳什均衡，以逆推归纳法（逆向归纳法）为核心的子博弈完美纳什均衡分析及相关结论，可以推广到重复博弈中。重复博弈的路径是由每个阶段博弈方的行动组合串联而成的。因为对应前一阶段的每种结果，下一阶段

4、都有原博弈全部策略组合数那么多种可能的结果。原博弈有m种策略组合，那么重复两次就有m2条博弈路径，重复次就有mt条博弈路径。,重复博弈的得益,任何博弈博弈方策略选择依据都是得益的大小。计算重复博弈的“总得益”。计算各阶段的“平均得益”。时间有先后，引入贴现系数,无限次重复博弈：,随机停止和贴现率,典型的随机结束重复博弈可以理解为在进行一个重复博弈时，每次都通过抽签来决定是否停止重复，如果抽到停止重复的概率为，则抽到重复下去的概率为。设某博弈方在此博弈中的阶段得益为，利率为，因为在每一次博弈以后能继续下一次重复的可能性是，因此第二阶段的期望得益为，进一步，第三阶段的期望得益为，故该博弈

5、方在重复博弈中期望得益的现值为：其中最后一个等式是通过令得到的。把这个与前面纯粹考虑时间价值的贴现率统一起来，我们就把已知概率的随机停止重复博弈与无限次重复博弈统一起来了。随机停止重复博弈问题可以当作无限次重复博弈来进行分析。,4.2 有限次重复博弈,有限次重复博弈：给定一个基本博弈G（可以静态，也可以动态），重复进行了T次G，并且在每次重复G之前，各博弈方都能观察到以前博弈的结果，这样的博弈过程称为“G的T次重复博弈”，记为G(T)。而G称为G(T)的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶段”。,策略、子博弈和均衡路径,策略：博弈方的一个策略就是在每个阶段（即每次重复）

6、，针对每种情况（以前阶段的结果）如何行动的计划。子博弈：重复博弈的子博弈就是从某个阶段（不包括第一阶段）开始，包括此后所有阶段的重复博弈部分。子博弈：重复博弈？原博弈？（最后一个阶段）路径：子博弈完美纳什均衡，以逆推归纳法（逆向归纳法）为核心的子博弈完美纳什均衡分析及相关结论，可以推广到重复博弈中。重复博弈的路径是由每个阶段博弈方的行动组合串联而成的。因为对应前一阶段的每种结果，下一阶段都有原博弈全部策略组合数那么多种可能的结果。原博弈有m种策略组合，那么重复两次就有m2条博弈路径，重复次就有mt条博弈路径。,4.2.1 两人零和博弈的有限次重复博弈,重复零和博弈不会创造出新的利益

7、。合作的可能性根本不存在。即使双方都知道还要重复进行许多次基本博弈，也不会改变它们在当前阶段博弈中的行动方式，不可能变得（哪怕是暂时的）合作和顾及对方的利益。所有以零和博弈为原博弈的有限次重复博弈，博弈方的正确策略都是重复一次性博弈中的纳什均衡策略。推广：非零和或多个博弈方，博弈方的利益严格对立，没有纯策略纳什均衡的其他严格竞争博弈中。在以这些博弈作为原博弈构成的有限次重复博弈中，惟一的子博弈完美纳什均衡就是所有博弈方都始终采用原博弈的混合策略纳什均衡策略。,有限次重复猜硬币博弈,各博弈方的正确策略就是在每次重复中都采用一次性博弈中的纳什均衡策略。,4.2.2 惟一纯策略纳什均衡博弈的有

8、限次重复博弈,在有惟一纯策略纳什均衡的博弈中，博弈方之间的利益关系不再是始终对立的，而是有很大一致性甚至完全一致。在以这样的博弈为原博弈的有限次重复博弈中，博弈方的行动和博弈结果会不会发生质的变化？如果原博弈惟一的纯策略纳什均衡本身就是帕累托意义上的最佳策略组合，那么因为符合所有博弈方的利益，因此，有限次重复显然不会改变博弈方的行动方式。分析：原博弈惟一的纳什均衡没有达到帕累托效率，因此存在通过合作进一步提高效率的潜在可能性的囚徒困境式的博弈，在有限次重复博弈中能不能实现合作和提高效率呢？,有限次重复博弈的囚徒困境,重复博弈等价于图4.2,两次,一般结论：在有限次重复博弈中，如果原博弈存

9、在唯一的纯策略纳什均衡策略组合，则有限次重复博弈的唯一的均衡解即各博弈方在每阶段中都采用原博弈的纳什均衡；（2）由于在这样的双方策略下，均衡路径中的每个阶段都不存在任何不可信的威胁或许诺，因此这种均衡是子博弈完美纳什均衡。（3）在一个博弈中的每个博弈方的所有得益上各自加上相同的数值不会改变博弈原来的均衡定理设原博弈G有惟一的纯策略纳什均衡，则对任意正整数T，重复博弈G(T)有惟一的子博弈完美纳什均衡，即各博弈方每个阶段都采用G的纳什均衡策略。各博弈方在G(T)中的总得益为在G中得益的T倍，平均得益等于原博弈G中的得益。,一般结论：（1）在有限次重复博弈中，如果原博弈存在唯一的纯策略纳什均

10、衡策略组合，则有限次重复博弈的唯一的均衡解即各博弈方在每阶段中都采用原博弈的纳什均衡；（2）由于在这样的双方策略下，均衡路径中的每个阶段都不存在任何不可信的威胁或许诺，因此这种均衡是子博弈完美纳什均衡。（3）在一个博弈中的每个博弈方的所有得益上各自加上相同的数值不会改变博弈原来的均衡定理：设原博弈G有惟一的纯策略纳什均衡，则对任意正整数T，重复博弈G(T)有惟一的子博弈完美纳什均衡，即各博弈方每个阶段都采用G的纳什均衡策略。各博弈方在G(T)中的总得益为在G中得益的T倍，平均得益等于原博弈G中的得益。,石油输出国组织的困境,（1）某些成员国的石油资源已趋枯竭；（2）不少非石油输出国组织

11、成员国加入石油市场；（3）石油输出国组织成员之间地位的不平衡；（4）有些国家由于政治、经济、军事等方面的原因造成资金、财政紧张；,有限次重复削价竞争模型,重复囚徒困境悖论和连锁店悖论,（1）与直觉的差异（2）连锁店悖论（Selten，1978）泽尔腾一个在n个市场都开设有连锁店的企业，对于各个市场的竞争者是否应该加以打击排斥？由于n个市场的竞争者一般不会同时进入竞争，如果忽略各个市场环境、竞争者不同等方面的微小差异，这个问题对上述连锁企业来说相当于一个n次重复的重复博弈。较多阶段的动态博弈,例：若10次重复下先来后到博弈，SPNE？97,打进不进（0，10）打击和平（-2，3）（

12、5，5）,B,A,结论： 10个重复博弈的SPNE就是重复原博弈G的子博弈纳什均衡。这就有有名的“连锁店悖论。,总结：,第一类是由零和博弈构成的，不存在纯策略NE；第二类是唯一的纯策略纳什么均衡的静态博弈构成的。共性：重复博弈本质上只不过是原博弈的简单重复，重复博弈每个阶段采取的策略就是原博弈中所采取的策略，在零和博弈的情况下是同样的混合策略NE，在后一种情况下则是纯策略NE; 重复博弈并不能给博弈方带来比一次博弈更好的结果，每阶段的平均得益与一次性博弈的得益相同。,例：如果T次重复齐威王田忌赛马，双方在该重复博弈中的策略是什么？博弈结果如何？,特点：此博弈是混合博弈NE的严格竞争零和博弈

13、，对一方有利的策略组合总是对另一方不利，没有一个策略组合双方同时愿意接受。,例2：重复博弈与一次性博弈效率不同？,4.2.3 有两个纳什均衡博弈的有限次重复博弈,重复博弈有可能有多个子博弈完美纳会均衡路径重复次数越多，这种路径也越多，并且会出现在原博弈中并非均衡的策略组合在重复博弈中却构成其子博弈完美纳什均衡的一个部分的情况。,两个厂商1和2，同时面临两个市场机会A和B。假设每个厂商都只有能力选择一个市场发展，即他们的可选策略都是A或B。 A：市场较大，但开发程度还很低 B：市场较小，但已不需花大力气去开发市场,轮换策略：双方轮流去两个不同市场的策略。,例：两市场博弈的重复博弈,例：两市场博弈

14、的重复博弈,轮换策略：双方轮流去两个不同市场的策略。,厂商1：第一阶段选A；如果第一阶段结果是（A,A），则第二阶段选A；如果第一阶段结果是（A，B），则第二阶段选B；第三阶段无条件选B。厂商2：第一阶段选A；则第二阶段无条件选B；如果第一阶段结果是（A,A），则第三阶段选A ；如果第一阶段结果是（B,A），则第三阶段选B；,轮换策略：双方轮流去两个不同市场的策略。,例：两市场博弈的重复博弈（进行三次）,三阶段路径:(A,A）到（A，B）再到(B,A)是SPNE路径平均得益=（3+1+4）/3=2.67,例3：分析两次重复制式问题时双方的均衡策略,彩电有不同的制式，采用相同的制式，则厂商之间

15、由于零部件的通用性，相关设备可相互匹配等大家都能获得一定的好处。设有两厂商都决定引进彩电生产线，可选择的有A,B两种制式，则两厂商面临一个决定制式的博弈。,厂商BA BA 厂商AB结论：纯策略NE多于一个，无法肯定在一次博弈中两博弈方究竟会作何选择，哪个结果会出现。,1,3 0,00,0 2,2,4.2.3 多个纯策略纳什均衡博弈的有限次重复博弈,触发策略trigger strategy：首先试探合作，一旦发觉对方不合作，则也用不合作相报复的策略。冷酷策略grim strategy,例：博弈G如下图：,博弈2L M R,博 L 弈 M 1 R,最重要的是：两次重复的路径中包括的SPNE中可

16、在第一阶段采用非原博弈的均衡策略,例：博弈G如下图：,博弈方1：第一阶段选M；如第一阶段结果为（M，M），则第一阶段选R；如第一阶段结果为任何其他策略组合，则选L.博弈方2：同博弈方1：,结论：路径为第一阶段（M,M），第二阶段(R,R)，是一个SPNE路径,博弈2L M R,博 L 弈 M 1 R,最重要的是：触发策略所带的威胁的可信性。,两博弈方都采用触发策略：第一阶段选结果为（M,M），则第二阶段必为（R,R）；而第一阶段结果为任何其他8种结果时，第二阶段必为（L,L）,博弈2L M R,博 L 弈 M 1 R,最重要的是：触发策略所带的威胁的可信性。,两博弈方：不管第一阶段结果如何，第二阶段总为（R,R），得益（3，3）所采用的触发策略的威胁的可信性是勉强的。,

展开阅读全文

博弈论课件第四章

最新文档