重复博弈与合作行为ppt课件

资源描述

《重复博弈与合作行为ppt课件》由会员分享，可在线阅读，更多相关《重复博弈与合作行为ppt课件（53页珍藏版）》请在金锄头文库上搜索。

1、CH8 重复博弈与合作行为,研究重复博弈的意义有限次重复博弈无限次重复博弈重复博弈战略空间的扩展重复博弈的应用,1,一次性博弈的情形,合作对双方有明显的好处，所以合作就产生了。,表1 简单的互惠合作,表2 对抗合作博弈,（对抗，对抗）是唯一的纳什均衡。,2,问题,为什么买于“坐贾”而非“行商”？为什么车站旁边的劣质品那么多？,企业存在的一个原因是创造一个“长期参与人”，因其考虑长期利益而遵章守纪、重视信誉。海尔砸冰箱事件,3,海尔砸冰箱事件,1985年，海尔从德国引进了世界一流的冰箱生产线。一年后，有用户反映海尔冰箱存在质量问题。海尔公司在给用户换货后，对全厂冰箱进行了检查，发现库存

2、的76台冰箱虽然不影响冰箱的制冷功能，但外观有划痕。按照当时的销售行情，这些电冰箱稍加维修便可出售。但是，厂长张瑞敏当即决定，在全厂职工面前，将76台电冰箱全部砸毁。当时一台冰箱800多元钱，而职工每月平均工资只有40元，一台冰箱几乎等于一个工人两年的工资。当时职工们纷纷建议：便宜处理给工人。张瑞敏对员工说：“如果便宜处理给你们，就等于告诉大家可以生产这种带缺陷的冰箱。今天是76台，明天就可能是760台、 7600台因此，必须解决这个问题。” 于是，张瑞敏决定砸毁这76台冰箱，而且是由责任者自己砸毁。很多职工在砸毁冰箱时都流下了眼泪，平时浪费了多少产品，没有人去心痛；但亲手砸毁冰箱时，感受到

3、这是一笔很大的损失，痛心疾首。通过这种非常有震撼力的场面，改变了职工对质量标准的看法。并提出“有缺陷的产品就是不合格产品”的观点，在社会上引起极大的震动。,4,一、研究重复博弈的意义,重复博弈问题普遍存在在重复博弈中，参与人的战略空间变得复杂提供了用非合作博弈理论来研究合作博弈的框架提供了研究人类行为模式变化的工具,5,序惯博弈与重复博弈,序惯博弈：参与人在前一个决策点的选择决定随后的子博弈的结构，因此，从后一个决策点开始的子博弈不同与前一个决策点开始的子博弈，或者说，同样结构的子博弈只出现一次；重复博弈：同样结构的博弈重复多次，其中的每次博弈被称为“阶段博弈”。,6,学生与修表师父间

4、的博弈,一个学生的瑞士手表坏了，他到博实商店找到修表师父。修表师父告诉他其中一个配件坏了，需要花30元修理费。但是学生私下得知：如果师父给他换的是进口配件，那么师父要花20元成本费（包括购买配件和劳动成本）；而如果换的是国产件，他只需花15元成本。如果换的是进口配件，学生的手表便可以正常使用，他得到的净收益（扣除30元成本）换算为10元货币；如果换的配件是国产的，则不匹配手表性能，尽管表面上无法识别，但是会损坏其他手表配件，此时学生得到的净支付（扣除30元成本）为10元。这个博弈可以看作是两个阶段进行的。在第一阶段，学生决定是否信任该修表师父。如果学生选择不信任，那么他不会在博实修表双方净支付

5、都为0；如果选择信任，他将付给该师父30元。此后，修表师父有两种选择，即选择提供高质量的进口配件或者低质量国产配件。,7,学生与修表师父间的博弈,学生,该博弈的纳什均衡：（不信任，提供国产件）,(0, 0),8,重复博弈和信誉问题,如果博弈不是一次的，而是重复进行的，参与人过去行动的历史是可以观察到的，参与人就可以依据其他人之前的行动来决定自己的选择，因而，有了更多的战略可以选择，均衡结果可能与一次博弈大不相同。重复博弈理论的最大贡献是对人们之间的合作行为提供了理性解释：在囚徒困境中，一次博弈的唯一均衡是不合作（即坦白）。但如果博弈无限重复，合作就可能出现。,9,影响重复博弈均衡结果的因素

6、,重复博弈的次数信息完备性,参与人在短期利益与长期利益之间权衡,当一个参与人的支付函数不为其它参与人所知时,该参与人可能有积极性建立一个“好”声誉，以换取长远利益。,10,二、有限次重复博弈,只要博弈重复的次数有限，而且单阶段博弈的纳什均衡是唯一的，重复本身并不改变“囚徒困境”原来的结果！,“囚徒困境”价格大战,11,三、无限次重复博弈,阶段博弈之间没有物质上的联系。即，前一阶段的博弈不改变后一阶段的博弈结构；所有参与人观察到博弈过去的历史；参与人的总支付（报酬）是所有阶段博弈支付的贴现值之和。,三个特征：,12,无限次重复博弈中合作的达成,乙在第t次选择对抗与始终合作的收益分别为：,假

7、定：甲乙双方的贴现因子参与人甲的策略：首先选择合作，如果观察到对方对抗，自己从下一个时期开始就永远选择对抗；,表2 对抗合作博弈,13,合作的达成的条件,结论：如果博弈的重复是有限次的，那么囚徒困境式的博弈中是不可能达成合作的；如果博弈是无限次的，那么眼光长远的参与人在囚徒困境式的博弈中也可能达成合作，不过如果参与人的目光短浅，那么合作仍难以达成。,得,由,只要双方对未来都有足够的信心，双方可以达成合作。,如果RCRU，合作就可以得到维持。,14,囚徒困境式的有限次重复博弈不可能达成合作,问题：人的生命是有限的，我们所经历的所有重复博弈都是有限次的，为什么我们能观察到那么多的合作呢？,

8、不知道博弈何时结束只要博弈的次数足够长，可近似看作是无限次的前一个博弈将对进入后一个博弈带来影响,原因,15,四、重复博弈与战略空间的扩展,如果上述博弈重复多次，那么每个参与人就有多个可以选择的战略，如： ALL-D：不论过去什么发生，总是选择不合作； ALL-C：不论过去什么发生，总是选择合作；合作-不合作交替进行；触发战略（trigger strategies）：只要对手合作，该参与者也合作；但对方任何背叛就会“触发”规定时间长度的惩罚期，其间以非合作来回击。,16,最有名的两个触发策略,冷酷战略（Grim strategies）：从合作开始，一直到有一方不合作，然后永远选择不合作

9、。礼尚往来（tit-for-tat）：从合作开始，之后每次选择对手前一阶段的行动；,17,艾克谢罗德竞赛实验,在开始研究合作之前，艾克谢罗设定了2个前提：每个人都是自私的没有权威干预个人决策,要研究的问题：人们为什么要合作？人什么时候合作，什么时候又是不合作的？如何使别人与你合作？,实验的方式：组织一场计算机模拟竟赛参加者都扮演“囚徒困境”中的一个囚徒；把自己的策略编成计算机程序，进行捉对博弈，在合作与背叛之间作出选择；以单循环赛的方式玩200次。,18,艾克谢罗德竞赛实验具体设计,“囚徒困境”博弈,结果：取胜策略为礼尚往来（tit-for-tat）,目的：集高手于一室，相互

10、较量，找出合作的最佳策略。,19,礼尚往来（tit-for-tat）策略的特征,善良：是指它第一步总是向对方表示善意。可激怒：是指对方出现背叛行动时，它能够及时识别并一定要采取背叛的行动来报复，不会让背叛者逍遥法外；宽容：是指它不会因为别人一次背叛而长时间怀恨在心或者没完没了地报复，而是在对方改过自新、重新回到合作轨道时，能既往不咎地恢复合作；简单：是指它的逻辑清晰，易于识别，能让对方在最短的时间内识别出来其策略所在；不嫉妒：是指它不耍小聪明，不占对方便宜，不在任何双边关系中争强好胜。,20,支付函数,对的解释：贴现率；博弈继续的概率二者的结合一般化：未来收益的重要程度,满足

11、： RTPS； SRTT,“囚徒困境”的一般表示,21,无名氏定理（Folk Theorem）,在无限次重复博弈中，如果参与人对未来足够重视（足够大），那么，任何程度的合作都可以通过一个子博弈精炼纳什均衡得到；这里“合作程度”定义为这个博弈中合作出现的频率；子博弈是指从某个阶段（不包括第一阶段）开始，包括此后所有阶段的重复博弈。 50年代人们就有这样的共识，但无人有发明权。,22,tit-for-tat,纳什均衡，但不是精炼纳什均衡；,23,为什么不是一个精炼纳什均衡？,假设A在t=5时没有合作，根据TFT战略，在t=6时，B应该选择惩罚A （不合作）。B会这样吗？如果B相信A采取的是T

12、FT策略，那么 B如果对A实施惩罚，预期的收入流为： R，S，R，S，R，如果B原谅A，预期的收入流为： T，T，T，T，T，尽管“tit-for-tat”是成功率最高的战略（Axelrod1984）,24,Grim strategies,如果未来足够重要，精炼纳什均衡：,合作条件：如果下列条件满足，合作就是均衡的结果：,25,解释,RT可以理解为不合作的诱惑； RP= （RT）（TP）；条件说明：给定未来的重要程度，不合作的一次性诱惑（RT）相对于合作带来的利益（RP）越小，合作的可能性越大；给定不合作的诱惑和合作带来的利益，未来越重要，合作的可能性越大；,26,行为的信息传递,

13、假如欺骗两次才被发现：,27,含义,欺骗行为越难以被发现，欺骗发生的可能性越大；或者说，合作越困难；,在前面的例子，R=4，T=3，P=0。如果欺骗一次就被发现，只要合作就会出现；,如果欺骗两次才被发现，只有当0.5时，合作才可能出现；,28,惩罚与合作,Abreu（1986）：最大合作战略是使用最严厉的可信惩罚；维护合作并不需要无限期的惩罚，只要惩罚期足够长就可以了；胡罗卜加大棒；从合作开始，一直合作，直到如果有任何一方在t期不合作，在t+1期，前期合作者选择“不合作”来实施惩罚，前期合作者选择合作；如果该合作的没有合作，该惩罚的没有实施惩罚，在t+2期继续按照上述t+1期的战略规

14、定博弈，否则，合作恢复。,29,对“胡萝卜加大棒”策略的解释,采用这个战略的参与人在对方与自己步调一致时（同时合作或同时不合作），则在下一阶段用合作奖励对方，即给对方一个胡萝卜。在对方与自己步调不一致时，则在下一阶段用不合作来严厉地惩罚对方，即给对方当头一棒。这个战略要求不仅惩罚该合作时不合作的对手，而且惩罚该惩罚时不惩罚的对手，惩罚不惩罚者又是给惩罚者的一根胡萝卜。,30,假设A首先不合作,31,解释,在惩罚子博弈，合作的条件是：,在非惩罚子博弈，合作的条件是：,32,不可信的惩罚：垄断厂家,客户,33,不确定性下的最优处罚,在确定的情况下，惩罚越严厉，越有助于合作。因为均衡情况下，欺

15、骗从来不会发生，所以惩罚实际上是没有成本的。但在不确定的情况下，即使每个人都选择合作，“坏结果”也会出现。如果坏结果是触发惩罚，就会冤枉好人，过重的惩罚反倒导致不合作；但如果总是原谅，合作也不会发生。,34,多重交易关系与合作行为,交易关系,交易关系,35,合作条件,在交易关系中，合作要求0.25 在交易关系中，合作要求0.8 如果两种交易在同样的两个人之间进行，只要0.25，两种交易中都会合作；设想实际的=0.6，那么如果两种交易发生在不同的人之间，合作只出现在市场，不会出现在市场。但如果两个人之间同时存在两种交易，合作存在于两个市场。,36,社会关系与合作行为,更一般地讲，市场交

16、易常常镶嵌在复杂的社会关系中，这种关系可以提高交易的合作程度，这也是人们愿意发展社会关系的原因。比如，在交易关系中，假定除了这一交易外，当事人双方之间还存在另外的社会关系，这一社会关系对每一方的现值为V；,37,应用,家庭学血缘关系；朋友关系；同学关系；老乡关系（保姆市场）；,38,图示,非合作区域,39,家族企业的困境：杀熟,如果惩罚对惩罚者本身的损害太大，惩罚就是不可信的。这与投鼠忌器是一个道理，你讨厌老鼠，但是你没有办法，因为你心疼那个盘子。投鼠忌器在我们企业内部很多环节都会发生，导致惩罚不可信，所以对方就不会太注重信誉。家族成员有时候比非家族成员更不可信任，更不守规矩，就是这个道理； “朋友”专门骗“朋友”，问题也与惩罚的不可信有关。,40,第三方实施的惩罚,在固定的一对参与人进行的重复博弈中，对不合作的惩罚是由“受害人”本人实施的，称为“第二方实施”；但更经常的情况是参与人不固定的情况，此时惩罚要由第三方实施；如果两种交易在同样的两个人之间进行，只要0.25，

展开阅读全文