第四章重复博弈详解

上传人:M****1 文档编号:587829655 上传时间:2024-09-06 格式:PPT 页数:50 大小:452.50KB
返回 下载 相关 举报
第四章重复博弈详解_第1页
第1页 / 共50页
第四章重复博弈详解_第2页
第2页 / 共50页
第四章重复博弈详解_第3页
第3页 / 共50页
第四章重复博弈详解_第4页
第4页 / 共50页
第四章重复博弈详解_第5页
第5页 / 共50页
点击查看更多>>
资源描述

《第四章重复博弈详解》由会员分享,可在线阅读,更多相关《第四章重复博弈详解(50页珍藏版)》请在金锄头文库上搜索。

1、第四章 重复博弈 本章介绍基本博弈重复进行构成的重复博弈。虽然形式上是基本博弈的重复进行,但重复博弈中博弈方的行为和博弈结果却不一定是基本博弈的简单重复,因为博弈方对于博弈会重复进行的意识,会使他们对利益的判断发生变化,从而使他们在重复博弈过程中的行为选择受到影响。这意味着不能把重复博弈当作基本博弈的简单叠加,必须把整个重复博弈过程作为整体进行研究。4.1.1 为何研究重复博弈n经济中的长期关系n人们的预见性n未来利益对当前行为的制约n长期合同、回头客、长客和一次性买卖的区别n有无确定的结束时间4.1.2 基本概念n有限次重复博弈有限次重复博弈:给定一个基本博弈G(可以是静态博弈,也可以是动态

2、博弈),重复进行T次G,并且在每次重复G之前各博弈方都能观察到以前博弈的结果,这样的博弈过程称为“G的T次重复博弈”,记为G(T)。而G则称为G(T)的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶段”。n无限次重复博弈无限次重复博弈:一个基本博弈G一直重复博弈下去的博弈,记为G( )n策略策略:博弈方在每个阶段针对每种情况如何行为的计划n子博弈子博弈:从某个阶段(不包括第一阶段)开始,包括此后所有的重复博弈部分n均衡路径均衡路径:由每个阶段博弈方的行为组合串联而成重复博弈的得益G(,)如果抽到停止重复的概率为p,则抽到重复下去的概率为1-p,利率为。4.2 有限次重复博弈4.2.1

3、两人零和博弈的有限次重复博弈4.2.2唯一纯策略纳什均衡博弈 的有限次重复博弈4.2.3多个纯策略纳什均衡博弈 的有限次重复博弈4.2.4 有限次重复博弈的民间定理4.2.1 两人零和博弈的有限次重复博弈n零和博弈是严格竞争的,重复博弈并不改变这一点。n以零和博弈为原博弈的有限次重复博弈与猜硬币博弈的有限次重复博弈一样,博弈方的正确策略是重复一次性博弈中的纳什均衡策略。n上述结论也可以推广到非零或多个博弈方,但博弈方的利益严格对立,没有纯策略纳什均衡的其他严格竞争博弈中。在这些博弈作为原博弈构成的有限重复博弈中,惟一的子博弈完美纳什均衡就是所有博弈方都始终采用原博弈的混合策略纳什均衡策略4.2

4、.2唯一纯策略纳什均衡博弈的 有限次重复博弈n定理定理:设原博弈G有唯一的纯策略纳什均衡,则对任意整数T,重复博弈 G(T)有唯 一的子博弈完美纳什均衡,即各博弈方每个阶段都采用G的纳什均衡策略。各博弈方在G(T)中的总得益为在G中得益的T倍,平均得益的与原博弈G中的得益。-5,-50,-8-8,0-1,-1坦 白不坦白囚徒囚徒2坦白不坦白囚囚徒徒1(-5,-5)-10,-10-13,-5-5,-13-6,-6坦 白不坦白囚徒囚徒2坦白不坦白囚囚徒徒1(-10,-10)n 从结果看,两次重复囚徒困境相当于独立两次一次性的囚徒困境博弈,然后再把两次独立博弈的的得益相加。这个结果实际上具有一般意义

5、。n在有限次重复博弈中,如果原博弈存在唯一的纯策略纳什策略组合,则有限次重复博弈中的唯一的均衡解即各博弈方在每个阶段(即每次重复)中都采用原博弈的纳什均衡策略。n由于在这样的双方策略下,均衡路径中的每个阶段都不存在任何不可信的威胁或许诺(纳什均衡策略肯定是可信的),因此这种均衡是子博弈完美纳什均衡。 有限次重复削价竞争博弈100,10020,150150,2070,70高 价低 价高价低价寡头寡头2寡寡头头1削价竞争博弈有唯一纯策略纳什均衡(70,70)有限次重复的结果仍然是(低价,低价)重复囚徒困境悖论和连锁店悖论4.2.3多个纯策略纳什均衡博弈的 有限次重复博弈5,53,32,00,22,

6、06,00,20,61,1HMH厂商厂商2ML厂厂商商1L三价博弈2,23,13,11,34,47,11,31,78,8厂厂商商1厂商厂商2LMHHML两次重复三价博弈的等价模型触发策略触发策略:两博弈方先试探合作,一旦发现对方不合作则也用不合作报复。博弈方1:第一次选H;如第一次结果为(H,H),则第二次选M,否则选L博弈方2:同博弈方1触发策略n在上述双方策略组合下,两次重复博弈的路径一定为第一阶段(H,H),第二阶段(M,M)这是一个子博弈完美纳什均衡路径。n首先试探合作,一旦发觉对方不合作则也用不合作相报复的策略,称为“触触发发策略策略”。n如果上面这个博弈的重复的次数不是两次,而是三

7、次或者更多,一般说n次,结论也是相似的。当重复的次数较多时,平均得益接近于一次性博弈中(H,H)的得益(5,5)。触发策略的进一步讨论4,45,35,33,56,69,33,53,98,8厂厂商商1厂商厂商2LMHHML重复三价博弈的等价模型不可信报复第一阶段最佳选择不是(H,H),而是(M,M)。这意味着两次重复博弈的均衡路径是二次(M,M)。实际上,触发策略中报复机制的可信性是一个很复杂的问题,会受到相互预期等很多复杂因素的影响。 博弈博弈2博弈1HLMPQH5,50,60,20,00,0L6,03,30,20,00,0M2,02,01,10,00,0P0,00,00,04,1/20,0Q

8、0,00,00,00,01/2,4这个博弈与前面的三价博弈的差别知识两博弈方都增加了两个可选策略,它有四个纯策略纳什均衡(M,M)、(L,L)、(P,P)和(Q,Q)。(H,H)不是纳什均衡。博弈方1:在第一阶段采用H,如果第一阶段结果是(H,H),那么第二阶段采用M,否则采用P博弈方2:在第一阶段采用H,如果第一阶段结果是(H,H),那么第二阶段采用M,否则采用Q双方的上述触发策略组合构成该重复博弈的一个子博弈完美纳什均衡,而且双发的触发策略中的报复都是可信的,因为双发触发策略中的报复机制不仅本身可以构成纳什均衡,而且自己也是有利的。两市场博弈的重复博弈(重复两次)n(A,B)+(A,B)

9、OR (B,A)+(B,A)(1,4)(4,1)n连续两次采用混合策略(2,2) 0.25(3+4+1+0)=2n(A,B)+(B,A) OR (B,A)+(A,B)(2.5,2.5)轮换策略n一次纯策略+一次混合策略(1.5,3)(3,1.5)n如果两市场博弈重复3次,则博弈的结果缺失会进一步的改善。0,04,11,43,3厂厂商商1厂商厂商2BAAB两市场博弈重复博弈不同策略、均衡及一次性博弈得益比较n不同策略组合、均衡得益图示厂商2得益厂商1得益(1,4)(3,3)(2.5,2.5)(2,2)(3,1.5)(4,1)(1.5,3)二次重复时没有条件运用的触发策略,在三次以上的重复中有了运

10、用的条件。例如现在厂商1和厂商2可以采用如下触发策略:n厂商1:第一阶段选A;如果第一阶段结果是(A,A),则第二阶段选A,如果第一阶段结果是(A,B),则第三阶段无条件选B。n厂商2:第一阶段选A;第二阶段无条件选B,如果第一阶段结果是(A,A),则第三阶段件选A;如果第一阶段结果是(B,A),则第三阶段选。n根据双方的上述策略,3次重复博弈的均衡路径是(A,A)到(A,B)再到(B,A)。其中第二、第三阶段本身就是原博弈的纳什均衡,因此不会有哪一方单独偏离。 (3+1+4)/3=2.67n101次 (99*3+1+4)/101=2.99 接近(3,3)n如果重复博弈次数进一步增加,则接近程

11、度还能进一步提高。4.2.4 有限次重复博弈的民间定理n个体理性得益个体理性得益:不管其它博弈方的行为如何,一博弈方在某个博弈中只要自己采取某种特定的策略,最低限度保证能获得的得益n可实现得益可实现得益:博弈中所有纯策略组合得益的加权平均数组n定理定理:设原博弈的一次性博弈有均衡得益数组优于w,那么在该博弈的多次重复中所有不小于个体理性得益的可实现得益,都至少有一个子博弈完美纳什均衡的极限的平均得益来实现它们厂商2得益厂商1得益(1,4)(3,3)(1,1)(4,1)w=(1.1)n 在所有可实现得益或优于w=(1,1)的可实现得益中,只有处于(1,4)与(3,3)和(3,3)与(4,1)两条

12、连线上,包括这三点本身的可实现得益有教重要的意义,因为它们代表了帕累托效率意义上最有效的均衡得益。n民间定理的关键意义正是在于保证这些得益有一定次数重复博弈的子博弈完美纳什均衡的平均得益可以实现或逼近它们。n 这种结论对于帮助我们加强对重复博弈意义的理解,帮助我们在重复博弈中更好地把握机会,设计和运用高效率的策略,建立相互的默契和信任,从而争取实现更好的博弈结果,都有相当重要的意义。4.3 无限次重复博弈4.3.1 两人零和博弈的无限次重复博弈4.3.2 唯一纯策略纳什均衡博弈 的无限次重复博弈4.3.3 无限次重复古诺模型4.3.4 有效工资率4.3.1 两人零和博弈的无限次重复博弈n两人零

13、和博弈无限次重复的所有阶段都不可能发生合作,博弈方会一直重复原博弈的混合策略纳什均衡。n因为无限重复次数的无限增加也不能改变原博弈中博弈方之间在利益上的对立关系,也不会创造出潜在合作利益。4.3.2唯一纯策略纳什均衡博弈 的无限次重复博弈两寡头削价竞争博弈 该博弈一次性博弈均衡是都采用低价,是囚徒困境型博弈4,40,55,01,1HLHL无限次重复两寡头削价博弈 触发策略触发策略:第一阶段采用H,如果前t-1阶段的结果都是(H,H),则继续采用H,否则采用L。 如果博弈方2采用L,总得益现值为 如果博弈方2采用H,总得益现值为 因此当 时,此触发策略纳什均衡策略两寡头削价竞争无限次重复博弈的民

14、间定理厂商2得益厂商1得益(1,4)(4,4)(1,1)(4,1)(5,0)(5,0)古诺模型的无限次重复博弈和支持垄断产量的条件 假定假定: ,边际成本都为2。 在无限次重复古诺模型中,当贴现率 满足一定条件时,两厂商采用下列触发策略构成一个子博弈完美纳什均衡: 在第一阶段生产垄断产量的一半1.5;在第 t 阶段,如果前 t-1 阶段结果都是(1.5,1.5),则继续生产1.5,否则生产古诺产量2。 这种触发策略的实质同样是采用它的博弈方先试图合作,选择符合双方利益的产量,而一旦发现对方不合作,偏偏对对方有利的产量,则也可以选择纳什均衡产量来进行报复,双方都采取上述触发策略的博弈路径为每阶段

15、都采用(1.5,1.5),双方每阶段得益都为*=4.5. 设厂商1已采用该触发策略,若厂商2也采用该触发策略,则每期得益4.5,无限次重复博弈总得益的现值为: 如果厂商2偏离上述触发策略,则他在第一阶段所选产量应为给定厂商1产量为1.5时,自己的最大利润产量,即满足: 解得 ,此时利润为5.0625,高于触发策略第一阶段得益4.5。古诺模型的无限次重复博弈和支持垄断产量的条件 但从第二阶段开始,厂商1将报复性地永远采用古诺产量2,这样厂商2也被迫永远采用古诺产量,从此得利润4。因此,无限次重复博弈第一阶段偏离的情况下总得益的现值为: 当 上述策略是厂商2对厂商1的同样触发策略的最佳反应,否则偏

16、离是最佳反应。 古诺模型的无限次重复博弈和支持垄断产量的条件 9/17时上述触发策略不是无限次重复博弈的纳什均衡。虽然较小时,因为远期利益的重要性不足,无限次重复博弈也不能促使两厂商把产量都,控制在qm/2=1.5的低水平,但还是有可能使各厂商把产量都产量比古诺qc低的水平,即垄断产量的一半qm/2和古诺产量qc之间某个中间产量水平q*。例如我们以q*为基础构造一种双方共同采用的触发策略:在第一阶段生产q* ;在第t阶段,如果前t-1阶段的结果都是(q*, q*),则继续生产q* ,否则生产古诺产量qc =2. 二、低水平合作 双方都采用该触发策略时均衡路径为阶段都是(q*, q*),两厂商的

17、得益为*=(8-2q*)q*-2q*=(6-2q*)q*。我们假设厂商1已采用上述触发策略,那么如果厂商2也采用触发策略,则他的每期得益是, *=(6-2q*)q*,无限次重复博弈得益的现在值为*/(1-)= (6-2q*)q* /(1-)。如果厂商2在第一阶段偏离,并根据厂商1的产量q*决定自己该阶段的最大利润产量,则该产量必满足: 二、低水平合作 解之得q2=(6-q*)/2,,相应的得益(即利润)为d=(6-q*)2/4.但是,从第二阶段开始,因为厂商1必然报复性地采用古诺产量qc=2,因此厂商2也只能采用古诺产量2,从此得益永远为c=4。这样无限次重复博弈得益的现在值为 二、低水平合作

18、 时,厂商2才愿意也采用上述触发策略,否则肯定会偏离。由于q*2,因此只有 二、低水平合作 时触发策略才是稳定的,也就是说,对于给定的水平,它能够支持的具有稳定性的最低“合作”产量q*满足 越大,将来利益越重要,就能支持越低的子博弈完美纳什均衡产量q*。 当接近0,即将来的得益对博弈方来说几乎意义时,q*接近古诺产量; 当09/17时,qm/2q*qc,即1.5q*2,越接近9/17,q*越接近qm/2;当达到或超过9/17时,就能支持最大效率的垄断低产量qm/2。 二、低水平合作 从上述分析,可以找到为什么通货膨胀严重国家的企业在经济活动中短期行为更为严重的一种理论根源,因为通货膨胀率越高,

19、未来利益的折算成现在值的贴现率就越低,企业就越是重视当前利益而不重视长期利益,因此它们的行为有更强烈的急功近利特征。 通货膨胀太严重不仅在宏观经济的稳定运行方面有很大危害,而且对一个国家经济运行的微观基础方面也有很大的危害。 二、低水平合作 二、加大处罚力度和提高合作水平n在无限次重复古诺模型中,除了上述在一定条件下能成为子博弈完美纳什均衡的处罚策略以外,实际上还可能构造其它同样也能实现高效率的子博弈完美纳什均衡,并且要求的条件更宽松(较小)的触发策略。n第一阶段生产垄断产量的一半qm/2;在t阶段,如果第t-1阶段的结果为(qm/2, qm/2),则生产qm/2 ,如果第t阶段的结果为(x,

20、x),也生产qm/2 ,否则生产x。n上述策略中x为比古诺产量qc更高的待定惩罚性高产量,因为在本策略中惩罚不是永久性的,采用qc不足以约束对方的行为。n 这种策略实际上是一种胡萝卜加大棒的策略。采用该策略的博弈方在另一方与自己步调不一致时下一阶段采用较高的x加以惩罚,步调一致,则下一阶段用合作的态度“奖赏”对方,当然为自己争取更高的可能利益。 二、加大处罚力度和提高合作水平n设双方都采用上述策略,则博弈路径是每阶段都采用(qm/2, qm/2),双方每阶段都得到垄断利润的一半m/2 ,无限重复博弈得益的现在值为m/2 (1-).n 但如果厂商2在第一阶段偏离,采用偏离产量qd,则qd必须满足

21、:将qm=3代入,解之得qd=2.25,本阶段得益为d=2.252=5.0625.第二阶段厂商1将采用x加以惩罚,这时厂商2第二阶段也必须采用x,因为这样才能避免厂商1第三阶段进行惩罚。这样厂商2第二阶段的得益为x=(6-2x)x=6x-2x2。假设此后合作重新开始并继续下去,双方都不在偏离合作(qm/2, qm/2)直到永远,则后面所有阶段的得益与双方从一开始就合作的得益完全相同。 二、加大处罚力度和提高合作水平n因此,厂商2在第一阶段是否选择偏离的依据,就是第一阶段偏离所得到好处与第二阶段受惩罚损失的现在值的大小关系。即当:也即0.5625/(4.5-6x+2x2)时,厂商2在第一阶段不会

22、选择偏离,反之则会偏离。从该不等式看厂商2是否偏离不仅取决于,即未来得益折算成当前得益的贴现系数,还取决于厂商1用于惩罚的产量x,如果x的数值太小,责罚力度可能不够,不足以保证厂商2与厂商1真心合作。如果选x=qc=2,即古诺产量作为惩罚性产量,则必须大于1.125才能使厂商2保持合作,而贴现系数大于1通常是不可能的,因此厂商2必然是选择偏离合作,不会害怕惩罚。 二、加大处罚力度和提高合作水平n如果要在=1/2的情况下保证厂商2不偏离,则x至少不小于2.25.n上面我们只考虑了厂商2在第一阶段是否偏离上述触发策略的选择,但实际上厂商2在后面任何一个阶段的情况与第一阶段是完全一样的,因为无论从那

23、个阶段考试都是一个无限次重复博弈,对方策略也与从第一阶段开始的重复博弈相同。因此,在惩罚性产量x和贴现系数满足一定条件,如果厂商2在第一阶段的选择是不偏离。厂商1的选择与厂商2完全一样。n这证明了在古诺模型的无限次重复博弈中,即使未来得益的贴现系数较小(如=1/20,低产量0。 工人努力工作时一定是高产量 y ,不努力时却并不一定是0, 高产量 y 的概率为 p,低产量0的概率为1-p 。 工人努力工作时,厂商得益为y-w ,工人得益为 w-e ; 工人偷懒时,厂商期望得益为 py-w ,工人得益为w 。 如果是一次博弈,则它的结果肯定时不理想的,因为通常厂商要预付工资给工人,或者即使发觉工人

24、不努力也必须支付工资给工人,因此工人没有努力工作的动力,他必然会偷懒。由于厂商了解工人的这种思路,因此他决不会不会冒险去雇佣一个肯定不会努力工作的工人(当p不够大时,py-w常是负数)。因此他的选择必然是w=0,而工人则只能去做个体户。如果假设w-ew0,因此做个体户对工人也是不利的。 在无限次重复博弈中,厂商可以通过支付高于w0的工资,并威胁一旦产量低就解雇工人的方法促使工人努力工作,这在一定条件下对厂商说是合算的。考虑如下的触发策略考虑如下的触发策略: 厂商在第一阶段给工资率 w*,在第t阶段,如果前面t-1阶段结果都是 (w*,y) 则继续给w* ,否则从此永远是 w=0。 工人的策略是

25、如果ww0 则接受,否则宁愿作个体户得到w0 ,并在以前各期结果都是(w*,y) 和当前工资率为 w* 时努力工作,否则偷懒。 厂商的触发策略与前面例子的触发策略一样,先试图合作,一旦发现对法不合作,则永远转向原博弈的纳什均衡。工人的决策时是否接受工作和是否努力工作。 考虑如下的触发策略考虑如下的触发策略: 设厂商已采用上述触发策略。由于w*w0 ,工人接受工作是最佳反应。用 记工人努力工作时无限次重复博弈得益的现值,则Ve 即: Ve=(w*-e)+Ve假如工人偷懒,则工人高产量的概率为p,低产量的概率为1-p出现高产量厂商给工资w*,低产量将解雇工人,工人的收入为w0 用Vs 记工人选偷懒

26、时无限重复博弈得益的现值,则: 即 因此当VeVs 即时,努力是工人的最佳选择。也就是说,要促使工人努力工作,厂商的工资w*不仅包括w0+e,补偿工人的工作机会成本和努力工作的负效用,还必须在基础上有一点升水 要求的升水幅度即取决于努力水平的努力水平的负负效用效用,也取决于未来得益折算成当前得益的贴现贴现系数系数和偷懒也可能得到高产量的概率概率p。负效用越大则必须更多的工资补偿才愿努力工作。贴现系数 越小则说明未来利益越不重要,要让工人当前努力工作以保持将来的工作机会,当然当前的工资也必然提高。偷懒得高产的概率越高,则工人丢饭碗的风险也就越小,除非工资更高,否则还是宁愿偷懒,当偷懒被发现(p接

27、近1)时,要让工人努力工作必须工资非常高。上述参数都出现相反情况时,升水部分就可以较小,w*只要比w0+e 略大即可。如接近1,工人对未来的得益看的很重,或p 趋向0,工人偷懒马上会现原形时等。 可以明白计划经济体制下劳动者工作不努力的根源。 因为计划经济体制下,偷懒总是难以发觉或无人去认真发觉,而计划经济时的工资又是固定在平均水平的,没有任何刺激力,因此工人必然会倾向于偷懒。 事实上这就是计划经济大锅饭缺乏活力的根本原因。反过来,设工人已采用上述触发策略。厂商在怎样的条件下采用触发策略是最佳呢?若厂商给的工资率满足上式条件,并且威胁一旦产量降低就解雇工人,则各阶段的得益为y-w* ,无限次重复博弈得益现值为(y-w*)/(1-). 若不愿给w* ,则干脆解雇工人,因为低于w*的工资不可能使工人努力工作,从解雇时起厂商得益为0。因此,只要y-w*0 ,厂商选择前述触发策略就是最佳反应。 在满足 y-w*0和 上述公式条件下,双方的触发策略构成一个纳什均衡。 综上所述,在满足的条件下,双方的触发策略构成一个纳什均衡。而上述两式实际上意味着即工人努力的产出扣除努力负效用后的剩余,必须不小于工人作个体户的收入即机会成本,加上一定比例的取决于努力负效用、贴现系数和偷懒可能得高产量概率的附加部分。 最后这个不等式正是存在有效工资率,工作激励有效的基本条件。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号