第五章重复博弈－金锄头文库

资源描述

《第五章重复博弈》由会员分享，可在线阅读，更多相关《第五章重复博弈（17页珍藏版）》请在金锄头文库上搜索。

1、第五章_重复博弈第五章重复博弈在这一章中，我们将围绕着人类的合作为什么产生这一命题来展开。人与人之间合作生产的一个原因（从经济学的角度来看）是这种做法对于参与者双方而言是一个有利可图的事，为什么说明这一点我们将用到重复博弈。另一个解释合作生产的方法就是引入信息不对称，在这种情况下，一个人装作是好人是有利可图的（因为好名声能够给他带来收益），这在信息不对称中会加以介绍。经济社会中除了短期一次性关系，还存在许多长期反复的合作和竞争关系。如两家企业在一个市场上的长期竞争，商业中的回头客问题等。长期关系与短期关系之间的差别并不只是时间跨度长短的数量问题，而是有重要的性质差别。短期关系中缺乏形成某种合

2、作关系，或者通过报复、制裁的威胁相互约束行为，追求共同利益的机会，而在长期关系中这样的机会就大得多。长期关系中在考虑当前利益的同时需要兼顾未来收益。第一节重复博弈的定义及扩展式给出重复博弈定义之前，需要做若干准备，一个准备就是由于重复博弈有可能会进行一个很长的时期，甚至是无穷期，因而必须考虑收益的时间价值。相应的表达偏好的收益函数也需要给出一定的限制。一、贴现因子与偏好明天的一元钱和今天的一元钱价值是不一样的，最简单的理由是今天的一元钱如果存入银行那么在明天会变成1+ r，所以明天的一元钱只相当于今天的1/(1+ r)元钱，1/(1+ r)实际上就是经济学中的贴现率。如果假设未来没有不确定性

3、，定义: 未来存在收益流R1，R2，R3，那么这个未来收益流的贴现值之和就为其中称为贴现因子(Discount factor)。我们考虑一个随机结束重复博弈，即进行一个重复博弈时，每次都通过抽签来决定是否停止重复，如果抽到停止的概率为P，则抽到重复下去的概率为1-P。设某博弈方在下一阶段的博弈中得到的收益为R1，利率为r，因为继续博弈的概率为1-P，么在当前阶段硬币未抛之前的价值（即贴现后的期望值）为(1 p)R1/(1+ r)；如果下两阶段能得到的收益为R2，在当前阶段硬币未抛之前的价值为(1 p)?R2/(1+ r)?；下三阶段、四阶段等等的收益，照此类推。令，则贴现因子既包含了货

4、币的时间价值（贴现率1/(1+r)），又包含了博弈结束的可能性(1 p)。其中Rmax = maxR1, R2, R3, ，即Rmax为收益流中的最大值。同理，考虑一个无穷期的情况，如果t 期的收益为Rt，贴现因子为，那么收益流的贴现值为其中Rmin=R1, R2, R3, ，即Rmin为收益流中的最小值。就这意味着，存在一个R使得R就被称为收益流(R1, R2, R3, )的贴现平均收益值。对于不同的策略，显然对应着不同的贴现平均收益值，通过比较平均收益值就能非常方便地知道什么是最优策略。定义5.1 设贴现因子为，收益流(R1, R2, R3, )的贴现平均收益值为由于平均收益值等于贴

5、现值之和V的倍，使贴现平均收益值最大化就等同于使贴现值之和最大化。使用平均收益的另一个优点，就是我们可以利用它直接和阶段博弈中的收益进行比较,从而更容易知道哪一个策略要优。对于重复博弈中参与者的偏好，同学们可能认为只要照搬前面的收益函数就可以了，而这实际上是不对的。为什么呢？我们知道在确定性下，表达相同偏好的收益函数并不唯一，而是满足单调变换性，即只要f是一个单调递增函数，那么与就表示同一个偏好。但在（无穷）重复博弈中，整个博弈的收益函数为它实际上为阶段博弈G的收益函数u(s)的一个贴现和，我们把u(s)也称为伯努利收益函数，因为它也像v-N-M偏好一样，要求u(s)必须满足线形变换，即

6、只有当f = 8a + bu(s)，b>0时，f 和u才表示相同的重复博弈偏好。因为这时的v实际上是预期收益函数。二、重复博弈的定义及扩展式定义5.2对于策略式博弈G = N , S , u，其中N=1, 2, n为参与者集合，S =S1 , Sn为所有参与者的策略空间（策略实际上就是行动），u =u1, , un为所有参与者的收益函数。如果G在时间中（或程序上）不断重复，并且在下一次博弈G开始前，所有以前博弈的历史都被观察到，那么它构成的动态博弈就称之为重复博弈，G就为重复博弈中的阶段博弈。如果G重复进行T次，那么G(T)就表示重复进行T次的有限重复博弈。如果T = ，那么G(T)就

7、表示无限重复博弈。重复博弈G(T)中参与者i的偏好用收益函数vi表示，即其中为伯努利收益函数，为重复博弈t阶段的行动组合(T > t >1)，为贴现因子，Ri为参与者i的贴现平均收益值，等于为了更为形象，我们引入一个重复信用困境博弈，其阶段博弈G的博弈矩阵如图5-1所示。第二节合作产生的原因1，15，0欺骗0，54，4诚信商人1欺骗诚信商人 2图5-1 信用困境实际上，运用逆推法，很容易证明，只要重复博弈进行的次数是有限的，那么（欺骗，欺骗）这样的结果会在每一个阶段博弈中出现。上述的直观认识具有普遍意义。如果阶段博弈G存在唯一纳什均衡，那么G(T)的子博弈完美均衡不过是纳什

8、均衡重复T次，根本的原因是，如果最后一个子博弈G(1)存在唯一的纳什均衡，那么无论前面的历史如何都不会改变最后一个子博弈的均衡结果（反正过去的已经成为过去），因而G(T)的完美均衡不过是G的纳什均衡重复T次，这就有了命题5.1。命题5.1 如果阶段博弈G有唯一的纳什均衡，则对任意有限的T，重复博弈G(T)有唯一的子博弈完美均衡：即G的纳什均衡结果在每一个阶段重复进行。利用命题5.1可知，无论信用困境重复多少次，只要不是无穷的，那么唯一的均衡结果只能是每一阶段都为（欺骗，欺骗），因而人类社会所谓的合作根本就不可能产生，人与人之间的诚信只能是一种奢望。然而，现实并非如此，虽然人与人之间存在着利益冲

9、突，但也确实存在着合作的行动和结果。那么如何破解囚徒困境的诅咒呢？二、多重均衡的有限重复博弈为了在理论上容纳合作解，一个重要的方法就是在重复博弈中引入多重均衡。现在，我们不妨考虑两阶段信用博弈，但对信用博弈做出修改，即阶段博弈G存在多个纳什均衡的情况，如图5-3所示，不妨称为信用困境1。信用困境1与原信用困境不同的地方是人为构造了一个新的纳什均衡（中，中），因而这个阶段博弈存在两个纳什均衡（欺骗，欺骗）和（中，中）。3，30，00，0中0，01，15，0欺骗0，00，54，4诚信商人1中欺骗诚信商人 2图5-3 信用困境1与原信用困境一个重要的不同是合作解有可能成为子博弈完美均衡解在重复

10、博弈中出现。在证明之前，请同学们想一想（逆推法）。我们首先从信用困境1的第二阶段开始。在第二阶段，（欺骗，欺骗）和（中，中）都是阶段博弈G的纳什均衡，因而“策略组合”(如果对手诚信，选择中；如果非诚信，选择欺骗)，(如果对手诚信，选择中；如果非诚信，选择欺骗)是子博弈G(1)的一个纳什均衡。把这一均衡策略下对应的收益代入第一阶段，就得到图5-4。4，41，11，1中1，12，26，1欺骗1，11，67，7诚信商人1中欺骗诚信商人 2图5-4 信用困境1 在图5-4中显然存在着3个纯纳什均衡：（欺骗，欺骗）、（中，中）和（诚信，诚信）。根据逆推法，这3个纯纳什均衡都是信用困境1重复博弈的子博弈完

11、美均衡解。前两个完美均衡都简单地由两个阶段博弈的纳什均衡组成，但第三个纳什均衡结果却由一个非纳什均衡（第一阶段）和一个纳什均衡（第二阶段）组成。它对应着的子博弈完美均衡结果为(诚信，诚信)，(中，中)，与前两个完美均衡本质不同的地方是合作解（诚信，诚信）在第一阶段中出现了。实际上，如果G是一个有着多重纳什均衡的完全信息静态博弈，则重复博弈G(T)就可能存在子博弈完美均衡解，其中对每一个t<T，第t阶段的结果都不是G的纳什均衡。这就从一个方面揭示了为什么合作解能够在重复博弈中出现，因为合作得到奖励，不合作受到惩罚，因而每一方都会加以遵守。在人类社会中，这种奖励与惩罚机制可以通过国家意志法律

12、的形式得到实现，从而为人类的合作提供一种制度上的保障。所谓的契约社会，就是通过法律、道德的形式来实现这种诚信（遵守契约规定）。但是这种多重纳什均衡的处理仍然存在着令人不满意的地方，因为多重均衡意味着合作解并不一定产生，它的出现需要太多的条件，而且合作解对于干扰过于敏感（合作双方很容易产生不信任），相当不稳定，这表明子博弈完美均衡对可信性的要求并不严格。例如，在推导子博弈完美均衡诚信，（中，欺骗）；诚信，（中，欺骗）时，我们假定如果第1阶段的结果是（诚信，诚信），则参与者双方都预期（中，中）将是第2阶段的解，如果第1阶段出现了任何其他8种结果之一，第2阶段的结果就会是（欺骗，欺骗）。但是，在第2

13、阶段，（中，中）是一个具有优势的纳什均衡，3的收益显然要大于选择（欺骗，欺骗）时只能得1的收益。因而无论第1阶段情况如何，第2阶段选择中是理性的。一个很自然的想法是，参与双方可能会重新谈判。每一个参与者可能会理性地认为过去的反正已经过去了，在余下的阶段博弈中就会选择双方都偏好的均衡行动（中，中）。但如果最后一个阶段的结果都是（中，中）的话，那又有什么理由去保证有人在第一阶段去选择（诚信，诚信）呢？诚信，（中，欺骗）；诚信，（中，欺骗）就不再是一个“合理的”子博弈完美均衡。1/2，40，00，00，00，0右0，04，1/20，00，00，0左0，00，03，30，00，0中0，00，00，0

14、1，15，0欺骗0，00，00，00，54，4诚信商人1右左中欺骗诚信商人 2为了克服上述问题，一个思路就是拒绝谈判，为什么拒绝谈判，因为拒绝谈判比接受谈判有更好的利益。我们不妨再考虑如图5-5所示的信用困境2博弈。信用困境2在图5-3的基础上加上了策略左和右，从而阶段博弈G有了四个纯策略纳什均衡：（欺骗，欺骗），（中，中），（左，左）和（右，右）。图5-5 信用困境2 设想信用困境2博弈重复进行两次，且在第二阶段开始前可以观测到第一阶段的结果。进一步假设商人1（或2）的策略为：第一阶段选择诚信；在第二阶段，如果对方在第1阶段选择诚信，那么选择中；如果对方在第一阶段没有选择诚信，那么第二阶段

15、选择左（或右）。那么（诚信，诚信），（中，中）就是重复信用博弈2的子博弈完美均衡结果，因为先选诚信，接着选中，每个参与者都可得到4+3的收益，但在第一阶段偏离这一选择而选欺骗，却只能得5+1/2（选择其他行动收益更低）。更为重要的是，前一例子中遇到的困难在这里并没有出现。对于信用困境1而言，对一个参与者在第一阶段不守信用的惩罚，只能通过第二阶段选择一个较劣的纳什均衡来对欺骗者进行惩罚，但在惩罚欺骗者的同时，也惩罚了诚信者，因而在信用困境1中就存在着重新进行谈判的动机。而在信用困境2中，这一点得到了克服，在惩罚欺骗者的同时，对诚信者进行奖励，欺骗者得1/2，而诚信者得4>3，因而诚信者没有动机去进行重新谈判。因

展开阅读全文

第五章重复博弈

最新文档