博弈论经典课件－金锄头文库

资源描述

《博弈论经典课件》由会员分享，可在线阅读，更多相关《博弈论经典课件（343页珍藏版）》请在金锄头文库上搜索。

1、博弈论博弈论1参考书目：参考书目：博弈论基础博弈论基础，罗伯特，罗伯特吉本斯，高峰译吉本斯，高峰译中国社会科学出版社，中国社会科学出版社，19991999年年3 3月月策略策略- -博弈论导论博弈论导论，乔尔，乔尔沃森，费方域，赖丹沃森，费方域，赖丹馨译，上海人民出版社，馨译，上海人民出版社，20102010年年1111月月经济博弈论（第二版）经济博弈论（第二版），谢枳予，谢枳予复旦大学出版社，复旦大学出版社，20022002年年1 1月月2主要内容主要内容第一章第一章完全信息静态博弈完全信息静态博弈第二章第二章完全信息的动态博弈完全信息的动态博弈第三章第三章非完全信息静态博弈非完全

2、信息静态博弈第四章第四章非完全信息动态博弈非完全信息动态博弈3在所有社会，人们经常互动。在所有社会，人们经常互动。互动有时是合作，有时是竞争。互动有时是合作，有时是竞争。在这两种情况下，都可以用一个术语，即在这两种情况下，都可以用一个术语，即相互依相互依赖性赖性来表示一个人的行为对另外一个人的福利造来表示一个人的行为对另外一个人的福利造成的影响。成的影响。相互依赖的情形可称为相互依赖的情形可称为策略环境策略环境。因为人们为了。因为人们为了确定所采取的最优行动，必须考虑他周围的其他确定所采取的最优行动，必须考虑他周围的其他人会怎样选择行动。人会怎样选择行动。博弈就是策略对抗博弈就是策略对抗博弈

3、的定义博弈的定义4定义：定义：博弈就是一些个人、队组或其他组织，面对一定博弈就是一些个人、队组或其他组织，面对一定的环境条件，的环境条件，在一定的规则下，同时或先后，一次或在一定的规则下，同时或先后，一次或多次，从各自允许选择的行为或策略中进行选择并加以多次，从各自允许选择的行为或策略中进行选择并加以实施，各自取得相应结果的过程。实施，各自取得相应结果的过程。四个核心方面四个核心方面博弈的参加人博弈的参加人(Player)博弈方博弈方各博弈方的策略各博弈方的策略(Strategies)或行为或行为(Actions) 博弈的次序博弈的次序(Order) 博弈方的得益博弈方的得益(Payof

4、fs)5目前，博弈论被许多来自不同领域的专业人士使用，这些目前，博弈论被许多来自不同领域的专业人士使用，这些领域包括经济学、政治学、法律、生物、国际关系哲学以领域包括经济学、政治学、法律、生物、国际关系哲学以及数学。及数学。事实上，事实上，大多数情形即包含了冲突元素，也包含了合作的大多数情形即包含了冲突元素，也包含了合作的元素元素。我们对博弈的组成要有一个广义的理解。我们对博弈的组成要有一个广义的理解。简而言之，博弈是策略环境的正式描述。因此，博弈论是简而言之，博弈是策略环境的正式描述。因此，博弈论是研究相互依赖情形的正式的方法论。这里，研究相互依赖情形的正式的方法论。这里，“正式正式”是指是

5、指一种以数学化的精确，以及逻辑上的一致见长的结构。一种以数学化的精确，以及逻辑上的一致见长的结构。利用正确的理论工具，我们可以研究各种情况下的行为，利用正确的理论工具，我们可以研究各种情况下的行为，从而更好地理解经济中的相互作用。从而更好地理解经济中的相互作用。6静态博弈：静态博弈：所有博弈方同时或可看作同时选择策略所有博弈方同时或可看作同时选择策略的博弈的博弈石头剪刀布、猜硬币、古诺模型石头剪刀布、猜硬币、古诺模型动态博弈：动态博弈：各博弈方的选择和行动有先后次序且后各博弈方的选择和行动有先后次序且后选择、后行动的博弈方在自己选择、行动之前可以选择、后行动的博弈方在自己选择、行动之前可以看

6、到其他博弈方的选择和行动看到其他博弈方的选择和行动弈棋、市场进入、斯坦博格型市场结构弈棋、市场进入、斯坦博格型市场结构7完全信息博弈：完全信息博弈：各博弈方都完全了解所有博弈方各各博弈方都完全了解所有博弈方各种情况下的得益种情况下的得益不完全信息博弈：不完全信息博弈：至少部分博弈方不完全了解其他至少部分博弈方不完全了解其他博弈方得益的情况的博弈，也称为博弈方得益的情况的博弈，也称为“不对称信息博不对称信息博弈弈”完美信息博弈：完美信息博弈：每个轮到行动的博弈方对博弈的进每个轮到行动的博弈方对博弈的进程完全了解的博弈程完全了解的博弈不完美信息博弈：不完美信息博弈：至少某些博弈方在轮到行动时不至

7、少某些博弈方在轮到行动时不完全了解此前全部博弈的进程的博弈完全了解此前全部博弈的进程的博弈8约翰约翰福布斯福布斯纳什纳什(John Forbes Nash Jr., 1950, (John Forbes Nash Jr., 1950, 1951)1951)利用不动点定理证明了均衡点的存在，为博弈论利用不动点定理证明了均衡点的存在，为博弈论的一般化奠定了坚实的基础。的一般化奠定了坚实的基础。19941994年年约翰约翰福布斯福布斯纳纳什什、约翰约翰C C海萨尼海萨尼以及以及莱因哈德莱因哈德泽尔腾泽尔腾，三人同时，三人同时因为他们对博弈论的研究，所作出的突出贡献，而获因为他们对博弈论的研究，所作出

8、的突出贡献，而获得诺贝尔经济学奖。得诺贝尔经济学奖。 John HarsanyJohn NashLeihaden Selten9三位大师主要的贡献三位大师主要的贡献19501950年和年和19511951年纳什的两篇关于非合作博弈论的重要论年纳什的两篇关于非合作博弈论的重要论文，证明了非合作博弈及其均衡解，并证明了文，证明了非合作博弈及其均衡解，并证明了均衡解的均衡解的存在性存在性，即著名的纳什均衡。从而揭示了博弈均衡与经，即著名的纳什均衡。从而揭示了博弈均衡与经济均衡的内在联系。济均衡的内在联系。泽泽尔尔腾腾（19651965）将将纳纳什什均均衡衡概概念念引引入入了了动动态态分分析析，提提出

9、出了了“精炼纳什均衡精炼纳什均衡”概念。概念。海海萨萨尼尼发发展展了了刻刻画画不不完完全全信信息息静静态态博博弈弈的的“贝贝叶叶斯斯纳纳什什均衡均衡”（1967196719681968）。）。泽泽尔尔腾腾和和海海萨萨尼尼进进一一步步将将纳纳什什均均衡衡动动态态化化，加加入入了了接接近近实实际际的的不不完完全全信信息息条条件件。他他们们的的工工作作为为后后人人继继续续发发展展博博弈论，提供了基本思路和模型弈论，提供了基本思路和模型。10第一章第一章完全信息静态博弈完全信息静态博弈1.1 基本理论基本理论: 博弈的标准式和纳什均衡博弈的标准式和纳什均衡1.2 应用举例应用举例1.3 混合策略和

10、均衡的存在混合策略和均衡的存在111.1 基本理论基本理论: 博弈的标准式和纳什均衡博弈的标准式和纳什均衡例例1 儿童游戏：儿童游戏：“石头、剪刀、布石头、剪刀、布”。参与人参与人：1，2。策略空间策略空间：S1 = S2 = 石头、剪刀、布石头、剪刀、布收益收益：两人出手的函数：两人出手的函数u1 (石石头头，石石头头) = 0， u1 (石石头头，剪剪刀刀) = 1， u1 (石石头，布头，布) = -1u2 (石石头头，石石头头) = 0， u2 (石石头头，剪剪刀刀) = -1，u2 (石石头，布头，布) = 112博弈的标准式表示博弈的标准式表示 (normal-form repre

11、sentation)(1) 参与人参与人 ( player). n 个参与人：个参与人：1, 2, , i, , n (2) 策略策略 (strategy). 一个参与人的策略是他采取的一个行动。一个参与人的策略是他采取的一个行动。参与人参与人 i 的策略：的策略：si 参与人参与人 i 的策略空间的策略空间: Si 策略的一个组合策略的一个组合: s =s1，s2, , sn 简化表示：简化表示：s- i= s1，, s i -1， s i+1, , sn (3) 收益收益 (payoff). 参与人参与人 i 的收益：的收益：ui= ui(s1，s2, , sn)n 个参与人博弈的标准形

12、式表示个参与人博弈的标准形式表示: G = S1, S2, , Sn；u1, u2, , un13博弈标准式特例：博弈标准式特例：u1(s11,s21), u2(s11,s21)u1(s11,s22), u2(s11,s22 )u1(s12,s21), u2(s12,s21)u1(s12,s22), u2(s12,s22 )u1(s13,s21), u2(s13,s21)u1(s13,s22), u2(s13,s22 )s11 s12 s13参与人参与人1参与人参与人2s21 s22S1=s11, s12, s13 S2=s21, s22收益表收益表(Payoff)：两个参与人，有限个战略的博

13、弈两个参与人，有限个战略的博弈的表示方法的表示方法 140，01，-1-1，1-1，10，01，-11，-1-1，10，0石头石头剪刀剪刀布布石头石头剪刀剪刀布布P1P215囚囚徒徒1的的考考虑虑：无无论论对对方方选选沉沉默默还还是是招招认认，自自己己选选“招招认认”好于好于“沉默沉默”。囚徒囚徒2的考虑：的考虑：无论对方选什么，无论对方选什么，“招认招认”好于好于“沉默沉默”。两人的选择两人的选择: (招认招认,招认招认)。-1，-1-9，00，-9-6，-6 囚徒囚徒 2沉默沉默招认招认沉默沉默招认招认例例囚徒困境囚徒困境 (The Prisoners Dilemma) 囚徒

14、囚徒1占优占优1617每一个博弈都是一个你中有我，我中有你的情形，每一个博弈都是一个你中有我，我中有你的情形，不同的博弈参与者可以选择不同的行动，但由于不同的博弈参与者可以选择不同的行动，但由于相互作用，一个博弈参与者的得益不仅取决于自相互作用，一个博弈参与者的得益不仅取决于自己采取的行动，也取决于其他博弈参与者所采取己采取的行动，也取决于其他博弈参与者所采取的行动。的行动。博弈论的精髓在于基于系统思维基础上的理性换博弈论的精髓在于基于系统思维基础上的理性换位思考，位思考，即在选择你的行动时，你应当用他人的即在选择你的行动时，你应当用他人的得益去推测他人的行动，从而选择最有利于自己得益去推测他

15、人的行动，从而选择最有利于自己的行动。的行动。17鹰鸽博弈（斗鸡博弈）鹰鸽博弈（斗鸡博弈）参与人：鹰和鸽参与人：鹰和鸽策略：保持原方向和转向策略：保持原方向和转向偏好：如果他们都保持原方向，就会撞车。如偏好：如果他们都保持原方向，就会撞车。如果都转向，就都保住了面子。如果只有对方转果都转向，就都保住了面子。如果只有对方转向，就会被称为硬汉。向，就会被称为硬汉。保持保持转向转向保持保持 0，0 3，1转向转向 1，32，2鸽鸽鹰鹰18公共财产的悲剧公共财产的悲剧12少吃少吃多吃多吃少吃少吃 2，20，3多吃多吃 3，01，119智猪博弈智猪博弈12按下按下不按不按按下按下 4，2 2

16、，3不按不按 6，-10，0小猪小猪大大猪猪20定定义义： si 是是 si 的的严严格格劣劣势势战战略略（ strictly dominated），如果），如果: ui(si ，s-i) ui(si ，s-i)“沉默沉默”是是“招认招认”的严格劣战略的严格劣战略-1，-1-9，00，-9-6，-6 囚徒囚徒 2沉默沉默招认招认沉默沉默招认招认囚徒囚徒1理性的参与人不会理性的参与人不会选择严格劣策略选择严格劣策略21公共财产的悲剧公共财产的悲剧12少吃少吃多吃多吃少吃少吃 2，20，3多吃多吃 3，01，122重复剔除严格劣策略重复剔除严格劣策略1，01，20，10，

17、30，12，0上下参与人2左中右参与人11，01，20，30，1上下参与人2左中参与人1博弈结果（上，中）博弈结果（上，中）23两人都没有严格劣策略两人都没有严格劣策略保持保持转向转向保持保持 0，0 3，1转向转向 1，32，2鸽鸽鹰鹰12按下按下不按不按按下按下 4，2 2，3不按不按 6，-10，0小猪小猪大大猪猪24定定义义： s* = (s1*，， sn*)是是一一个个纳纳什什均均衡衡 (Nash equilibrium), 如果对如果对 i，ui(si*，s i*) ui(si，s i *)纳什均衡为如下最大化问题的解纳什均衡为如下最大化问题的解 ui =

18、 ui (s1*, , si, , sn*)给定你的策略，我的策略是最好的策略给定你的策略，我的策略是最好的策略给定我的策略，你的策略也是最好的策略给定我的策略，你的策略也是最好的策略因此没有一个参与人会轻率地偏离这个策略组合而使因此没有一个参与人会轻率地偏离这个策略组合而使自己蒙受损失自己蒙受损失25纳什均衡特例：纳什均衡特例：u1(s11,s21), u2(s11,s21)u1(s11,s22), u2(s11,s22 )u1(s12,s21), u2(s12,s21)u1(s12,s22), u2(s12,s22 )u1(s13,s21), u2(s13,s21)u1(s13,s22)

19、, u2(s13,s22 )s11 s12 s13参与人参与人1 1参与人参与人2 2s21 s22(s11*, s21*)是纳什均衡，如果是纳什均衡，如果 u1(s11*,s21*) u1(s12,s21*) u1(s11*,s21*) u1(s13,s21*) u2(s11*,s21*) u2(s11*,s22).26寻找纳什均衡的方法之一：划线法寻找纳什均衡的方法之一：划线法-1，-1-9，00，-9-6，-6 囚徒囚徒 2 沉默沉默招认招认沉默沉默招认招认囚徒囚徒1-6，-6没有哪个博弈方有偏离这个预测结果的愿望没有哪个博弈方有偏离这个预测结果的愿望第一类决策矛盾：强第一类决策矛盾

20、：强烈的个人动机将导致烈的个人动机将导致集体的损失集体的损失27对于策略组合对于策略组合S和和S，如果所有的参与人相对于，如果所有的参与人相对于S都更偏好于都更偏好于采取采取S，而且至少对一个参与人来说是严格偏好的，我们就说，而且至少对一个参与人来说是严格偏好的，我们就说S比比S更有效率更有效率。用数学来表示，如果。用数学来表示，如果ui(S) ui(S)对每个参对每个参与人与人i都成立，并且不等式至少对一个参与人是严格成立的，都成立，并且不等式至少对一个参与人是严格成立的，那么那么S比比S更有效率更有效率。-1，-1-9，00，-9-6，-6 囚徒囚徒 2 沉默沉默招认招认沉默沉默招认招

21、认囚徒囚徒1（沉默，沉默）比（招认，招认）更有效率（沉默，沉默）比（招认，招认）更有效率28如果不存在其他更有效率的策略组合，我们就称这个策略组如果不存在其他更有效率的策略组合，我们就称这个策略组合合S是有效的是有效的。用数学来表示，不存在其他策略组合。用数学来表示，不存在其他策略组合S对每个对每个参与人参与人i来说都满足来说都满足ui(S) ui(S)，同时对某个参与人，同时对某个参与人j来说满来说满足足ui(S)ui(S) 。-1，-1-9，00，-9-6，-6 囚徒囚徒 2 沉默沉默招认招认沉默沉默招认招认囚徒囚徒1（沉默，沉默）（沉默，沉默）,（招认，沉默），（招认，沉默），（沉

22、默，招认）都是有（沉默，招认）都是有效的策略组合效的策略组合29寻找纳什均衡的方法之一：划线法寻找纳什均衡的方法之一：划线法1，01，20，10，30，12，0上上下下参与人参与人2左左中中右右参与人参与人11，230寻找纳什均衡的方法之一：划线法寻找纳什均衡的方法之一：划线法0，44，05，34，00，45，33，53，56，6上上中中下下参与人参与人2左左中中右右参与人参与人16，631寻找纳什均衡的方法之一：划线法寻找纳什均衡的方法之一：划线法2，10，00，01，2 帕特帕特歌剧歌剧拳拳击击歌剧歌剧拳击拳击克里斯克里斯性别战性别战 (the battle of the Se

23、xes)1，22，1第二类决策矛盾：达成第二类决策矛盾：达成均衡的方式不止一种，均衡的方式不止一种，策略不确定性有时会阻策略不确定性有时会阻碍有效结果的获得碍有效结果的获得沟通沟通32寻找纳什均衡的方法之一：划线法寻找纳什均衡的方法之一：划线法鹰鸽博弈鹰鸽博弈保持保持转向转向保持保持 0，0 3，1转向转向 1，32，2鸽鸽鹰鹰制度、规则、制度、规则、行为及文化行为及文化第二类决策矛盾：达成第二类决策矛盾：达成均衡的方式不止一种，均衡的方式不止一种，策略不确定性有时会阻策略不确定性有时会阻碍有效结果的获得碍有效结果的获得33现实生活中无效率均衡的例子现实生活中无效率均衡的例子-QWERTY

24、的键位设计的键位设计第三类决策矛盾：习惯已经根深蒂固了第三类决策矛盾：习惯已经根深蒂固了标准的键位设计（第三行以标准的键位设计（第三行以QWERTY开始）是由打字机的发明开始）是由打字机的发明者为了防止按键卡死而修正的。对于机械打字机来说，当两个者为了防止按键卡死而修正的。对于机械打字机来说，当两个位置接近的按键同时按下的时候，会导致用来敲打色带的铅字位置接近的按键同时按下的时候，会导致用来敲打色带的铅字杠杆之间发生纠结，因此发明者设计键位的原则是将那些经常杠杆之间发生纠结，因此发明者设计键位的原则是将那些经常连在一起使用的字母分开排列。但按键卡死在现代来说并不是连在一起使用的字母分开排列。但

25、按键卡死在现代来说并不是一个问题。一个问题。20实际实际30年代，年代，August Dvorak和和William Dealey通过对英语中通过对英语中单词运用的仔细研究，设计了一种新的键盘单词运用的仔细研究，设计了一种新的键盘- Dvorak键盘，人们键盘，人们确信这种键盘比使用确信这种键盘比使用QWERTY键盘打字效率显著提高。键盘打字效率显著提高。为什么为什么QWERTY键盘现在仍然是标准？键盘现在仍然是标准？34寻找纳什均衡的方法之一：划线法寻找纳什均衡的方法之一：划线法公共财产的悲剧公共财产的悲剧12少吃少吃多吃多吃少吃少吃 2，20，3多吃多吃 3，01，135寻找纳什均衡的

26、方法之一：划线法寻找纳什均衡的方法之一：划线法智猪博弈智猪博弈按下按下不按不按按下按下 4，2 2，3不按不按 6，-10，0小猪小猪大大猪猪为什么中小企业不会花钱去开发新产品？为什么中小企业不会花钱去开发新产品？36协调博弈协调博弈12A B A1，10，0B 0，01，1帕累托协调博弈帕累托协调博弈12A B A2，20，0B 0，01，1帕累托上策均衡帕累托上策均衡375 5， 5 53 3， 0 00 0， 3 33 3， 3 3鹿鹿兔子兔子猎人猎人2 2鹿鹿兔子兔子猎猎人人1 1猎鹿博弈猎鹿博弈风险上策均衡（兔子，兔子）风险上策均衡（兔子，兔子）设猎人设猎人2选抓兔子的概率为选抓

27、兔子的概率为p，则猎人，则猎人1选抓鹿的期望得益选抓鹿的期望得益:5(1-p)选抓兔子的期望得益选抓兔子的期望得益:3(1-p)+3p由由 5(1-p)2/5考虑其他博弈方可能发生考虑其他博弈方可能发生错误等时，帕累托上策均错误等时，帕累托上策均衡并不一定是最优选择，衡并不一定是最优选择，需要考虑：风险上策均衡。需要考虑：风险上策均衡。38三个主要的广播电视台：三个主要的广播电视台：A、B、C。所有这三个电视台都。所有这三个电视台都可以选择讲晚间新闻现场直播时间定在晚上可以选择讲晚间新闻现场直播时间定在晚上6点或是推迟到点或是推迟到7点，每个电视台的目标都是使他的收视率最大化。点，每个电视台的

28、目标都是使他的收视率最大化。AB6点7点6点14,24,328,30,277点30,16,2413,12,50AB6点7点6点16,24,3030,16,247点30,23,1414,24,326点7点C39缔约（缔约（contract）缔约不仅仅用于防止策略的不确定，还可以缓解缔约不仅仅用于防止策略的不确定，还可以缓解共同利益和个体利益之间的冲突。共同利益和个体利益之间的冲突。即缔约为各参即缔约为各参与者提供了一种防止无效率协调的方法与者提供了一种防止无效率协调的方法。12I N I 8，8 -4，4N 10，-2 0，012I N I 8，8 -4，4N 7，1 0，040让我们集中考虑让

29、我们集中考虑z1+z2x1+y2，z1+z2x2+y1，且，且z1+z20的情况。这意味着各参与人的收益总和在采的情况。这意味着各参与人的收益总和在采取取(I,I)时达到最大化。时达到最大化。(I,I)组合是这个基本博弈唯一组合是这个基本博弈唯一的一个有效率的结果。的一个有效率的结果。问题：假设问题：假设(I,I)是最好的结果，各参与人是否可以是最好的结果，各参与人是否可以缔约，执行规定的缔约，执行规定的(I,I) 组合？组合？ 12I N I z1，z2 y1，x2 N x1，y2 0，0基本博弈基本博弈41只要只要(I,I)是一个纳什均衡，采取是一个纳什均衡，采取(I,I)的协定就是自我实

30、施的协定就是自我实施合同。而这只有当合同。而这只有当z1x1和和z2x2的情况下才成立。的情况下才成立。但是，如果其中有一个不成立，那么各个参与人就无法但是，如果其中有一个不成立，那么各个参与人就无法依靠合同的自我实施去维持依靠合同的自我实施去维持(I,I)的结果，他们需要第三方的结果，他们需要第三方的加入，法庭就是作为这样一种第三方存在的。的加入，法庭就是作为这样一种第三方存在的。如果一方选择了如果一方选择了N，法庭的涉入可以在他们之间，强制进，法庭的涉入可以在他们之间，强制进行货币收益的行货币收益的转移支付转移支付。12I N I z1，z2 y1，x2 N x1，y2 0，042假设参

31、与人知道转移的情况，那么法庭的干预就改变了假设参与人知道转移的情况，那么法庭的干预就改变了参与人之间的博弈。这个新的博弈把转移的数字加到基参与人之间的博弈。这个新的博弈把转移的数字加到基本博弈中，显示各参与人的实际收益。本博弈中，显示各参与人的实际收益。这个博弈称为这个博弈称为引发博弈引发博弈(induced game)。12I N Iz1，z2 y1+, x2-N x1+ , y2 - ，- 12I N I z1，z2 y1，x2 N x1，y2 0，043设计适当的合同，可以很容易引发有效率的设计适当的合同，可以很容易引发有效率的(I,I)结果结果。只要符合只要符合z1x1+和和z2 x2

32、-的的和和都满足这个条件。都满足这个条件。-具具体体和和的值自由决定。的值自由决定。12I N I z1，z2 y1+, x2-N x1+ , y2 - ，- 12I N I z1，z2 y1，x2 N x1，y2 0，012I N I 8，8 -4，4N 10，-2 0，012I N I 8，8 -4，4N 7，1 0，0=-3=044但是，上例的最基本的条件是，法庭必须能够区分基本但是，上例的最基本的条件是，法庭必须能够区分基本博弈中所有不同的结果。例如，法庭必须能够核实每个博弈中所有不同的结果。例如，法庭必须能够核实每个参与人在博弈中，是选择了参与人在博弈中，是选择了I还是选择了还是选择

33、了N。我们称这个。我们称这个信息条件为信息条件为完全可证实性（完全可证实性（full verifiability）。结论：在完全可证实的条件下，存在一个合同，随着它结论：在完全可证实的条件下，存在一个合同，随着它的执行可以获得有效率的结果。的执行可以获得有效率的结果。不幸的是，完全可证实往往是特例，而不是通例。通常不幸的是，完全可证实往往是特例，而不是通例。通常证据都不足以解释基本博弈的结果。法庭也许只能确定证据都不足以解释基本博弈的结果。法庭也许只能确定最终结果的好坏。好的结果意味着双方都进行了投入，最终结果的好坏。好的结果意味着双方都进行了投入，坏的结果表示至少有一人没有投入。坏的结果表示

34、至少有一人没有投入。有限可证实性（有限可证实性（limited verifiability）：法庭无法完美地：法庭无法完美地对参与人的生产行为进行证实的情况。对参与人的生产行为进行证实的情况。45在有限可证实的情况下，对博弈矩阵中的每一个单元格，在有限可证实的情况下，对博弈矩阵中的每一个单元格，规定不同的外部实施收益转移，是不可能的。即法庭无法规定不同的外部实施收益转移，是不可能的。即法庭无法区分区分(I,N),(N,I)和和(N,N)。合同必须对所有这些结果规定相。合同必须对所有这些结果规定相同的收益转移。从博弈论的角度看，这个合同中的外部实同的收益转移。从博弈论的角度看，这个合同中的外部

35、实施部分施部分只包含一个只包含一个。(见下图见下图)12I N I z1，z2 y1+ , x2- N x1+ , y2 - ，- 46在有限可证实的情况下，要维持在有限可证实的情况下，要维持(I,I)的结果很难，甚至是的结果很难，甚至是不可能的。例如虽然提高不可能的。例如虽然提高可以降低参与人可以降低参与人2选择选择N的动机，的动机，但是又提高了参与人但是又提高了参与人1选择选择N的动机。因此的动机。因此的选择必须平的选择必须平衡双方的动机。需要满足：衡双方的动机。需要满足：z1x1+ 和和 z2x2- 整理简化以后可得：整理简化以后可得：x2-z2x1+x2时，存在一个时，存在一个同时满

36、足这两同时满足这两个不等式。个不等式。12I N I z1，z2 y1+ , x2- N x1+ , y2 - ，- 47下图所示的基本博弈为例设下图所示的基本博弈为例设 =-3，得出的右下的引，得出的右下的引发博弈，其中发博弈，其中(I,I)是纳什均衡。是纳什均衡。1212I I N N I I 8 8，8 8 -4-4，4 4N N 1010，- -2 2 0 0，0 012I N I 8，8 -7，7N 7，1 -3，3下图所示的基本博弈在有限可证实的情况下，下图所示的基本博弈在有限可证实的情况下，(I,I)(I,I)不不可能被执行。可能被执行。12I N I 10，10 -4，12N

37、12，-4 0，048(2)(2)法庭实施违约赔偿情况下的缔约。法庭实施违约赔偿情况下的缔约。法庭并不总是根据参与人起草的合同进行执法庭并不总是根据参与人起草的合同进行执行。事实上，美国法庭更可能根据某些法律行。事实上，美国法庭更可能根据某些法律原则，而不是根据合同的规定实施转移。原则，而不是根据合同的规定实施转移。在此，我们将对美国的商业环境下，对于赔在此，我们将对美国的商业环境下，对于赔偿的三个法律原则进行概括。偿的三个法律原则进行概括。49在在预期利益赔偿的法律原则预期利益赔偿的法律原则下，法庭要求被告转移给原告，下，法庭要求被告转移给原告，使得使得原告获得在合同实现的情况下的收益。原告

38、获得在合同实现的情况下的收益。根据基本博弈，参与人根据基本博弈，参与人1的期望收益是的期望收益是z1，参与人，参与人2的期望收益是的期望收益是z2。因。因此，如果参与人此，如果参与人1违约，他被强制付给参与人违约，他被强制付给参与人2的钱数，必须使得参与的钱数，必须使得参与人获得人获得z2的收益。这意味着的收益。这意味着 =y2-z2。类似地，如果参与人。类似地，如果参与人2违约，他付违约，他付给参与人给参与人1的转移是的转移是=z1-y1。在引发博弈中，如果当且仅当在引发博弈中，如果当且仅当z1x1+y2z2和和z2x2+y1z1时，时，(I,I)是纳什是纳什均衡。不等式可以整理得：均衡。不

39、等式可以整理得：z1+z2x1+y2 和和 z1+z2x2+y1它们正好是当它们正好是当(I,I)有效率时所满足的条件。有效率时所满足的条件。结论：在预期利益赔偿原则下，当且仅当结论：在预期利益赔偿原则下，当且仅当(I,I)是有效率的时候，是有效率的时候，(I,I)是是可执行的。可执行的。12I N I z1，z2 z1, x2+y1-z1N x1+y2 z2，z2 0，012I N I z1，z2 y1+, x2-N x1+ , y2 - ，- 50第二种违约补偿非常适用于第二种违约补偿非常适用于zi无法观察的情况。无法观察的情况。在在信赖利益损害赔偿原则信赖利益损害赔偿原则下，法庭实施的

40、转移，使得原告下，法庭实施的转移，使得原告能够获得他在没有签署合同情况下的收益。能够获得他在没有签署合同情况下的收益。根据左下图，信赖利益损害赔偿意味着根据左下图，信赖利益损害赔偿意味着=y2和和=-y1。引。引发博弈如右下图所示。发博弈如右下图所示。注意，当且仅当注意，当且仅当z1x1+y2 和和z2x2+y1时，时，(I，I)是引发博弈是引发博弈的纳什均衡。的纳什均衡。12I N I z1，z2 0, x2+y1N x1+y2，0 0，012I N I z1，z2 y1+, x2-N x1+ , y2 - ，- 51违约情况下普遍采用的第三种法律原则指的是违约情况下普遍采用的第三种法律原则

41、指的是回复原状赔回复原状赔偿偿，这种原则是通过取消被告因违约而牟取的，相对于无，这种原则是通过取消被告因违约而牟取的，相对于无合同情况下所增加的不当得利而得名。合同情况下所增加的不当得利而得名。回复原状赔偿意味着回复原状赔偿意味着=-x1，=x2。所得到的引发博弈形式。所得到的引发博弈形式如右下图所示。如右下图所示。注意，当且仅当注意，当且仅当z10，z20时，时，(I,I)是引发博弈的纳什均是引发博弈的纳什均衡。衡。12I N I z1，z2 x2+y1，0N 0，x1+y2 0，012I N I z1，z2 y1+, x2-N x1+ , y2 - ，- 521212I I N N I I

42、 4 4，4 4 -4-4，9 9N N 2 2，-4 -4 0 0，0 0在预期利益赔偿的法律原则下，在预期利益赔偿的法律原则下，(I,I) (I,I) 能够被执行。能够被执行。12INI4，44，1N-6，40，0基本博弈基本博弈引发引发博弈博弈531212I I N N I I 4 4，4 4 -4-4，9 9N N 2 2，-4 -4 0 0，0 0在恢复原状赔偿的法律原则下，在恢复原状赔偿的法律原则下，(I,I) (I,I) 能够被执行。能够被执行。12INI4，45，0N0，-20，0基本博弈基本博弈引发引发博弈博弈541212I I N N I I 4 4，4 4 -4-4，9

43、9N N 2 2，-4 -4 0 0，0 0在信赖利益损害赔偿原则的法律原则下，在信赖利益损害赔偿原则的法律原则下，(I,I) (I,I) 不能不能够被执行。够被执行。12INI4，40，5N-2，00，0基本博弈基本博弈引发引发博弈博弈55两方严格竞争博弈（两方严格竞争博弈（two-player, strictly competitive game）是指具有如下性质的两方博是指具有如下性质的两方博弈，对于任意两个策略组合弈，对于任意两个策略组合s, s S，当且仅当，当且仅当u2(s)u1(s)。零和博弈零和博弈是其中的一种是其中的一种3，20，46，11，3A B参与人参与人1参与人参与人

44、2 A B-1-1， 1 11 1， -1-11 1， -1-1-1-1， 1 1正正面面反反面面猜硬币方猜硬币方盖盖硬硬币币方方正正面面反反面面56对于策略对于策略来说，如果来说，如果是是的解，那么它就是一个的解，那么它就是一个安全策略安全策略，其中，其中参参与人与人i采取策略采取策略si最差的得益，参与人最差的得益，参与人i的安全得益水平为的安全得益水平为结论结论：如果一个两方博弈是严格竞争的，并且有一个纳什：如果一个两方博弈是严格竞争的，并且有一个纳什均衡均衡s*=(s1*,s2*) S，那么，那么s1*是参与人是参与人1的一个安全策略，的一个安全策略， s2*是参与人是

45、参与人2的一个安全策略。的一个安全策略。3，20，46，11，3A B参与人参与人1参与人参与人2 A B57纳什均衡与重复剔除严格劣策略的关系纳什均衡与重复剔除严格劣策略的关系命题命题2.12.1：没有被剔除的唯一的策略组合是纳什均：没有被剔除的唯一的策略组合是纳什均衡衡. .命题命题2.22.2：如果策略是一个纳什均衡，它们在重复如果策略是一个纳什均衡，它们在重复剔除严格劣策略后留下剔除严格劣策略后留下. . 上述两个命题保证在进行纳什均衡分析之前上述两个命题保证在进行纳什均衡分析之前先通过剔除严格劣策略简化博弈是可行的。先通过剔除严格劣策略简化博弈是可行的。581.1 节习题与练习节习题

46、与练习1.2 2，01，14，23，41，22，31，30，23，0TMBL C R591.3设此博弈的纯策略纳什均衡是对于参与人1来说同理，对于参与人2因此，此博弈的纯策略纳什均衡是且满足60例例1 定位博弈定位博弈例例2 合伙人博弈合伙人博弈-策略互补策略互补例例3 犯罪与治安模型犯罪与治安模型例例 4 古古诺诺双双头头垄垄断断模模型型（ Cournot Model of Duopoly）例例5 贝贝特特兰兰德德双双头头垄垄断断模模型型（Bertrand Model of Duopoly）例例6 最后要价仲裁最后要价仲裁 (Final-offer Arbitration)例

47、例7 公共财产问题公共财产问题1.2 应用举例应用举例61例例1 1 定位博弈定位博弈帕帕特特和和克克里里斯斯为为一一家家很很大大的的软软饮饮料料公公司司工工作作，他他们们的的工工作作是是在在人人们们喜喜欢欢的的一一个个海海滩滩上上销销售售这这家家公公司司的的灌灌装装苏苏打打饮饮料料，他他们们在在同同一一个个海海滩滩上上工工作作，而而且且公公司司规规定定，必必须须卖卖一一样样的的价价格格，并并且且承承诺诺每每卖卖一一听听饮饮料料给给他他们们2525美美分分的的佣佣金金。帕帕特特和和克克里里斯斯需需要要作作出出的的决定是：决定是：每天早晨要把售货棚设在哪里？每天早晨要把售货棚设在哪里？13245

48、678962每个区域中都会有每个区域中都会有50个人个人想要买苏打水。想要买苏打水。如果一个售货员可以为其中区域中的所有顾客服务，如果一个售货员可以为其中区域中的所有顾客服务，他将赚的他将赚的12.5美元。美元。顾客们都会到最近的售货摊去买顾客们都会到最近的售货摊去买。132456789利润利润=43.75利润利润=68.756312345156.25, 56.2512.5,10018.75 , 93.7525, 87.531.25 , 81.252100, 12.556.25, 56.2525, 87.531.25, 81.2537.5, 75393.75, 18.7587.5, 2556.

49、25, 56.2537.5, 7543.75, 68.75487.5, 2581.25, 31.2575, 37.556.25, 56.2550 , 62.5581.25, 31.2575, 37.568.75, 43.7562.5, 5056.25, 56.25675, 37.568.75, 43.7562.5, 5056.25, 56.2550 , 62.5768.75, 43.7562.5, 5056.25, 56.2550 , 62.543.75, 68.75862.5, 5056.25, 56.2550 , 62.543.75, 68.7537.5, 75956.25, 56.255

50、0 , 62.543.75, 68.7537.5, 7531.25, 81.25132456789646789137.5, 7543.75, 68.7550 , 62.556.25, 56.25243.75, 68.7550, 62.556.25, 56.2562.5, 50350, 62.556.25, 56.2562.5, 5068.75, 43.75456.25, 56.2562.5, 5068.75, 43.7575, 37.5562.5, 5068.75, 43.7575, 37.581.25, 31.25656.25, 56.2575, 37.581.25, 31.2587.5,

51、25737.5, 7556.25, 56.2587.5, 2593.75, 18.75831.25, 81.2525, 87.556.25, 56.25100, 12.5925, 87.518.75, 93.7512.5, 10056.25, 56.25132456789652345678256.25, 56.2525, 87.531.25, 81.2537.5, 7543.75, 68.7550, 62.556.25, 56.25387.5, 2556.25, 56.2537.5, 7543.75, 68.7550, 62.556.25, 56.2562.5, 50481.25, 31.25

52、75, 37.556.25, 56.2550 , 62.556.25, 56.2562.5, 5068.75, 43.75575, 37.568.75, 43.7562.5, 5056.25, 56.2562.5, 5068.75, 43.7575, 37.5668.75, 43.7562.5, 5056.25, 56.2550 , 62.556.25, 56.2575, 37.581.25, 31.25762.5, 5056.25, 56.2550 , 62.543.75, 68.7537.5, 7556.25, 56.2587.5, 25856.25, 56.2550 , 62.543.7

53、5, 68.7537.5, 7531.25, 81.2525, 87.556.25, 56.256634567356.25, 56.2537.5, 7543.75, 68.7550, 62.556.25, 56.25475, 37.556.25, 56.2550 , 62.556.25, 56.2562.5, 50568.75, 43.7562.5, 5056.25, 56.2562.5, 5068.75, 43.75662.5, 5056.25, 56.2550 , 62.556.25, 56.2575, 37.5756.25, 56.2550 , 62.543.75, 68.7537.5,

54、 7556.25, 56.25456456.25, 56.2550 , 62.556.25, 56.25562.5, 5056.25, 56.2562.5, 50656.25, 56.2550 , 62.556.25, 56.2567西方两党政治的稳定性和欺骗性两党政治：英国保守党和工党；美国民主党和共和党。纲两党政治：英国保守党和工党；美国民主党和共和党。纲领越来越靠近，为什么？领越来越靠近，为什么？三个不相上下的党又如何呢？不稳定！三个不相上下的党又如何呢？不稳定！01/41/23/41ABA A3/868平面定位每个区域两个顾客，每个顾客创造一美元的价值每个区域两个顾客，每个顾客创造一美

55、元的价值6912345678919,96,129,96,126,128,109,98,109,9212,69,912,69,96,129,910,89,910,839,96,129,98,106,126,129,98,109,9412,69,910,89,96,129,912,69,910,8512,612,612,612,69,912,612,612,612,6610,89,912,69,96,129,910,89,910,879,98,109,96,126,128,109,96,129,9810,89,910,89,96,129,912,69,912,699,98,109,98,106,1

56、26,129,96,129,912345678970例例2 合伙人博弈合伙人博弈-策略策略互补互补公司的利润是由合伙人分享公司的利润是由合伙人分享公公司司利利润润：4(x+y+cxy)，其其中中0 x，y 4分分别别是是合合伙人伙人1、2付出的努力，付出的努力，0 c 1/4是是互补互补程度程度合伙人合伙人1、2付出努力的成本付出努力的成本: x2，y2合伙人合伙人1的利润的利润: 1=2(x+y+cxy)- x2合伙人合伙人2的利润的利润: 2=2(x+y+cxy)- y271博弈的描述：博弈的描述：参与人参与人：合伙人：合伙人1，合伙人，合伙人2 策略策略：合伙人：合伙人1、2付出的努力

57、付出的努力x、y 收益收益：合伙人：合伙人1的利润的利润 1=2(x+y+cxy)- x2 合伙人合伙人2的利润的利润 2=2(x+y+cxy)- y272合伙人合伙人1: 2(x+y+cxy)- x2一阶导数条件：一阶导数条件：2+2cy-2x=0合伙人合伙人2: 2(x+y+cxy)- y2一阶导数条件：一阶导数条件：2+2cx-2y=0当当 ui 是可微分的时候是可微分的时候 , 纳什均衡为下列方程组纳什均衡为下列方程组的解：的解：= 0, i = 1, n73公司总利润公司总利润: 4(x+y+cxy)- x2 - y2一阶导数条件：一阶导数条件：4+4cy-2x=0 4+4cx-2y

58、=074合伙人博弈合伙人博弈的反应函数的反应函数合伙人合伙人1: 2(x+y+cxy)- x2一阶导数条件：一阶导数条件：2+2cy-2x=0 x=1+cy合伙人合伙人2:2(x+y+cxy)- y2 一阶导数条件：一阶导数条件：2+2cx-2y=0 y=1+cx75例例3 犯罪与治安模型犯罪与治安模型参与人参与人：罪犯：罪犯(C)，政府，政府(G) 策略策略：政府选择执法的程度：政府选择执法的程度x 0 罪犯选择犯罪的程度罪犯选择犯罪的程度y 0 收收益益：uG=-xc4-y2/x，其其中中-y2/x是是犯犯罪罪对对社社会会的的负负面面效效应应（-y2/x随随着着执执法法治治安安的的力力度度

59、而而趋趋于于缓缓和和），c4是执法治安的单位成本（是执法治安的单位成本（c0） uC=y1/2/(1+xy)，其其中中y1/2是是罪罪犯犯未未被被逮逮捕捕时时从事犯罪活动的价值，从事犯罪活动的价值，1/(1+xy)是罪犯逃逸的概率是罪犯逃逸的概率76政府政府(G): uG= -xc4-y2/x一阶导数条件：一阶导数条件： -c4+y2/x2=0罪犯罪犯(C): uC= y1/2/(1+xy)一阶导数条件：一阶导数条件：77例例 4 古古诺诺双双头头垄垄断断模模型型（ Cournot Model of Duopoly）19世纪初，世纪初，Augustin Cournot二二个个企

60、企业业，生生产产产产量量: q1, q2，企企业业通通过过选选择择产产量量竞竞争争，产产品品不存在差异，消费者并不关心从哪一家企业购买商品。不存在差异，消费者并不关心从哪一家企业购买商品。市场中该产品的总供给：市场中该产品的总供给：Q = q1 + q2 ，产品都能卖出。，产品都能卖出。市场价格市场价格: P = a Q企业成本企业成本: Ci (qi) = cqi, i = 1, 2.企业利润：企业利润： i (q1, q2) = Pqi Ci (qi) = (a (q1 + q2)qi cqi78博弈的描述：博弈的描述：参与人参与人：企业：企业1，企业，企业2 策略策略：产量：产量 qi

61、收益收益： i (q1, q2)企业企业 i 选择产量求选择产量求 i (qi, , qj)79一阶条件一阶条件 = a c 2q1 q2 = 0 = a c q1 2q2 = 0厂商选择自己利润最大的产量厂商选择自己利润最大的产量q1 = q2 =解纳什均衡得解纳什均衡得 q1* = q2* =利润利润1 = 2 = ( a c ( +)= 80两厂商整体利益最大化：总利润总利润Q*= (a - c)/2，总利润为，总利润为(a -c)2/4以两厂商总体利益最大：各生产以两厂商总体利益最大：各生产(a - c)/4单位产量，各自得益为单位产量，各自得益为(a -c)2/8以自身最大利益为目

62、标：各生产以自身最大利益为目标：各生产(a - c)/3单位产量，各自得益为单位产量，各自得益为(a -c)2/9自由竞争的经济存在自由竞争的经济存在低效率的问题，政府低效率的问题，政府对市场的调控、监管对市场的调控、监管是必须的是必须的81古诺模型的反应函数古诺模型的反应函数企业企业1 1对企业对企业2 2产量的反应函数产量的反应函数企业企业2 2对企业对企业1 1产量的反应函数产量的反应函数82古诺模型的重复剔除严格劣策略古诺模型的重复剔除严格劣策略83反应函数的问题和局限性反应函数的问题和局限性在许多博弈中，博弈方的策略是有限且非连续时，在许多博弈中，博弈方的策略是有限且非连续时，其得益

63、函数不是连续可导函数，其得益函数不是连续可导函数，无法求得反应函数无法求得反应函数，从而不能通过解方程组的方法求得纳什均衡。从而不能通过解方程组的方法求得纳什均衡。即使得益函数可以求导，也可能各博弈方的得益函即使得益函数可以求导，也可能各博弈方的得益函数比较复杂，因此各自的反应函数也比较复杂，数比较复杂，因此各自的反应函数也比较复杂，并并不总能保证各博弈方的反应函数有交点不总能保证各博弈方的反应函数有交点，特别不能特别不能保证有唯一的交点保证有唯一的交点。(a)(b)84例例5 贝特兰德双头垄断模型贝特兰德双头垄断模型（Bertrand Model of Duopoly）19世纪末，世纪末，J

64、oseph Bertrand两个企业生产两个企业生产有差别有差别的商品的商品消费者对企业消费者对企业 i 的需求的需求qi(pi, pj) = a pi + bpj，成本成本: Ci(qi) = cqi, i = 1, 2.策略策略 si: pi 0收益收益: i (pi, pj) = (a pi + bpj)( pi c)替代系数替代系数85若若(p1*, p2*)是纳什均衡，对每个企业是纳什均衡，对每个企业i， pi*满足满足max i (pi, pj) = max (a pi + bpj)( pi c)解得解得即即 p1* = p2* = 86例例6 最后要价仲裁最后要价仲裁 (Fin

65、al-offer Arbitration)一一个个企企业业(firm)和和一一个个工工会会(union)，通通过过一一个个仲仲裁裁人人决决定定工工资。资。企业和工会企业和工会同时提出同时提出工资工资: wf, wu 仲裁人有一个标准：仲裁人有一个标准：x，选择双方提议中比较靠近，选择双方提议中比较靠近x的提议：的提议：如果如果x ( wf + wu )/2，则，则选择选择wu wf (wf + wu )/2 x wu 企企业业和和工工会会不不知知道道x，但但知知道道x的的分分布布函函数数F(x)和和密密度度函函数数f(x)。87分析分析wf 被选择的概率：被选择的概率： Prob x = 1

66、 F期望工资期望工资Ew = wf F + wu 1 F wf* 满足满足 wf F + wu* 1 F wu* 满足满足 wf* F + wu 1 F 88双方要价的平均值一定等于仲裁双方要价的平均值一定等于仲裁者偏好方案的中值者偏好方案的中值89双方的均衡要价以仲裁者偏好方案的期望值（即双方的均衡要价以仲裁者偏好方案的期望值（即m）为）为中心对称，且要价之差随仲裁者偏好方案的不确定性中心对称，且要价之差随仲裁者偏好方案的不确定性（即（即 2）的提高而增加。）的提高而增加。90例例7 7 公共财产问题公共财产问题公共财产是具有（1）没有哪个个人、企业或组织拥有所有权；（2）大家都可以自由利用

67、。公共财产的悲剧证明：如果一种财产没有排他性的所有权，就会导致财产的过度使用、低效率使用和浪费。公海捕鱼小煤窑的过度开发91一个村庄，有一个村庄，有n个村民，在公共草地上放羊。个村民，在公共草地上放羊。村民村民i放牧的羊数：放牧的羊数：gi全村的羊总数：全村的羊总数：G = g1 + . + gn一个村民养一只羊的成本：一个村民养一只羊的成本：c养一只羊的价值：养一只羊的价值：v(G)因因为为每每只只羊羊至至少少要要一一定定数数量量的的草草才才不不至至于于饿饿死死,有有一一个个最最大大的的可存活量可存活量Gmax当当G G max, v(G) = 0当当G 0, v(G) 0, v(G) 0当

68、当草草地地上上羊羊很很少少时时，增增加加一一只只羊羊不不会会对对其其他他羊羊的的价价值值有有太太大大影响，但随着羊的不断增加，每只羊的价值将急剧下降。影响，但随着羊的不断增加，每只羊的价值将急剧下降。GGmax v9293假设假设G* G*，则，则v0v(G*) v(G*)， vv(G*) v(G*)，又因为，又因为G*/nG*纳什均衡总纳什均衡总饲养量大于饲养量大于社会最优饲社会最优饲养量养量941.2节习题与练习1.4 对于第对于第i个企业，其目标最大化自己的利润，即个企业，其目标最大化自己的利润，即（1）两端乘以）两端乘以2，再减去，再减去qi*得，得，因为所有因为所有qi*相等，则相等

69、，则带入（带入（2）得到）得到当当n趋于无穷大时，趋于无穷大时， qi*趋向于趋向于0， pi*趋向于边际成本趋向于边际成本c，市场，市场趋向于完全竞争市场。趋向于完全竞争市场。951.5（1）企业利润：）企业利润： i(q1,q2)=PqiCi(qi)=(a(q1+q2)qicqi双方都选择双方都选择qm/2时，每一方的利润时，每一方的利润一方选择一方选择qm/2，另一方选择，另一方选择qc时，时，选择选择qm/2一方的利润为一方的利润为选择选择qc一方的利润为一方的利润为双方都选择双方都选择qc时，每一方的利润时，每一方的利润u1,u1u2,u3u3,u2u4,u4qm/2qm/2qcqc

70、所以纳什均衡状态（所以纳什均衡状态（qc ，qc ），均衡状态下每一企业的福利都），均衡状态下每一企业的福利都比他们相互合作时下降，每一个企业都有一个严格劣策略。比他们相互合作时下降，每一个企业都有一个严格劣策略。961.5（2）令）令qm/2qm/2qcqc此博弈符合要求，即纳什均衡状态是（此博弈符合要求，即纳什均衡状态是（qc ，qc ），在均衡状态），在均衡状态下，每一企业的福利都比他们相互合作时下降，且都没有严下，每一企业的福利都比他们相互合作时下降，且都没有严格劣策略格劣策略u1,u1u2,u3u5,u1u3,u2u4,u4u6,u7u1,u5u7,u6u8,u8qq971.6 1(

71、q1,q2)=(a(q1+q2)q1c1q1 2(q1,q2)=(a(q1+q2)q2c2q2一阶条件一阶条件 = a c1 2q1 q2* = 0 = a c2 q1* 2q2 = 0厂商选择自己利润最大的产量厂商选择自己利润最大的产量q1 = q2 =解纳什均衡得解纳什均衡得 q1* = ，q2* =当当c1 c2 a， a+c1 0的出价，拒绝的出价，拒绝m=0的出价的出价当参与人当参与人j采取采取sj*时，如果参与人时，如果参与人i选择选择m0，那么参与人，那么参与人i得到得到1-m，他会尽可能的选择最小的，他会尽可能的选择最小的m，但是，但是m=0将导致他的得益为将导致他的得益为0，

72、因此，没有纳什均衡，因此，没有纳什均衡唯一的子博弈精炼纳什均衡：唯一的子博弈精炼纳什均衡： m=0， sj*175序贯谈判序贯谈判-赋予耐心者的谈判力赋予耐心者的谈判力参与人参与人 1和参与人和参与人2谈判分配一元钱谈判分配一元钱 (s, 1 s ).三期的谈判模型三期的谈判模型(1a) 参与人参与人 1 提议分配方案：提议分配方案：(s1, 1 s1 )；(1b) 参参与与人人 2接接受受提提议议或或拒拒绝绝提提议议。如如果果参参与与人人2拒拒绝绝，进进入入第第2阶段阶段; (2a) 参与人参与人2提议提议 (s2, 1 s2 ) (2b) 参参与与人人1接接受受提提议议或或拒拒绝绝提提议议

73、。如如果果参参与与人人1拒拒绝绝，进进入入第第3阶段；阶段；(3)参与人参与人 1提议参与人提议参与人 1 分得分得s，参与人，参与人2分得分得1s。终止。终止。贴现率贴现率: 1761 11 12 2甲不接受，甲出甲不接受，甲出s s甲接受甲接受乙不接受，乙出乙不接受，乙出s2乙接受乙接受甲出甲出s1177逆向归纳法求解逆向归纳法求解(1) 在阶段在阶段 2如果如果s2 s，甲将会接受，甲将会接受s2。取取s2 = s，则，则1 s2 (1 s)。结果结果: 乙乙将会提议将会提议 s*2 = s，甲将会接受。，甲将会接受。178(2) 在阶段在阶段 1如果如果 1 s1 (1 s*2)

74、即即 s1 1 (1 s*2 ) , 乙将会接受乙将会接受 s1当当 s1 = 1 (1 s*2 )， s1 s*2结果结果: 甲将会提出甲将会提出s*1 = 1 (1 s*2 ) = 1 (1 s)乙将会接受乙将会接受 1 s*1. 逆向递归解为逆向递归解为1 (1 s)， s179180例例5 动态定价动态定价多样化的顾客群体多样化的顾客群体零售商会从高价值客户那里取得高价格，从低价值零售商会从高价值客户那里取得高价格，从低价值客户那里取得较低的价格。客户那里取得较低的价格。零售商先设定一个高价，以吸引高价值的顾客，然零售商先设定一个高价，以吸引高价值的顾客，然后再卖给高价值顾客之后，会降

75、低价格以期望获得后再卖给高价值顾客之后，会降低价格以期望获得低价值顾客的需求。低价值顾客的需求。在每个时期所有顾客定相同的价格，所以只能通过在每个时期所有顾客定相同的价格，所以只能通过时间对他们加以区分。时间对他们加以区分。高价值的顾客如果能预期到价格会随着时间而下降，高价值的顾客如果能预期到价格会随着时间而下降，可能会延迟购买。可能会延迟购买。181一家公司出售一家公司出售LCD显示器，经理托尼显示器，经理托尼四个潜在客户：哈尔，希尔伯特（高价值）四个潜在客户：哈尔，希尔伯特（高价值）劳里，劳伦（低价值）劳里，劳伦（低价值）第一期是第一个季度，第二期是第二个季度第一期是第一个季度，第二期是

76、第二个季度如果哈尔和希尔伯特第一期购买如果哈尔和希尔伯特第一期购买LCD，支付价格为，支付价格为p，则得，则得益益=1700-p；如果哈尔和希尔伯特第二期购买；如果哈尔和希尔伯特第二期购买LCD，支付，支付价格为价格为p，则得益，则得益=500-p同样可得劳里和劳伦的得益同样可得劳里和劳伦的得益托尼的得益来自于销售总收入，不考虑成本托尼的得益来自于销售总收入，不考虑成本第一期第一期第二期第二期LCD对哈尔和希尔伯特的价值对哈尔和希尔伯特的价值1200500LCD对劳里和劳伦的价值对劳里和劳伦的价值500200182博弈过程博弈过程在第一期开始，托尼选择零售价格在第一期开始，托尼选择零售价格p1

77、，观察到价格后，哈尔、，观察到价格后，哈尔、希尔伯特、劳里和劳伦同时决定是否以这个价格购买。假希尔伯特、劳里和劳伦同时决定是否以这个价格购买。假设第一期购买后，第二期仍可以使用，不需要重新购买，设第一期购买后，第二期仍可以使用，不需要重新购买，且产品数量充足，顾客间不需要竞争。且产品数量充足，顾客间不需要竞争。在第二期开始，托尼选择零售价格在第二期开始，托尼选择零售价格p2，任何没有在第一期购，任何没有在第一期购买显示器的顾客决定是否购买。买显示器的顾客决定是否购买。第一期第一期第二期第二期LCD对哈尔和希尔伯特的价值对哈尔和希尔伯特的价值1200500LCD对劳里和劳伦的价值对劳里和劳伦的价

78、值500200183定价方案定价方案A：第一期中吸引所有的顾客来买：第一期中吸引所有的顾客来买定价方案定价方案B：第一期中使得所有的顾客都不购买定价：第一期中使得所有的顾客都不购买定价方案方案C：使得高价值顾客哈尔和希尔伯特在第一期购买，而：使得高价值顾客哈尔和希尔伯特在第一期购买，而低价值顾客劳里和劳伦在第二期购买低价值顾客劳里和劳伦在第二期购买托尼如何定价？托尼如何定价？第一期第一期第二期第二期LCD对哈尔和希尔伯特的价值对哈尔和希尔伯特的价值1200500LCD对劳里和劳伦的价值对劳里和劳伦的价值500200184定价方案定价方案A：第一期中吸引所有的顾客来买：第一期中吸引所有的顾客来

79、买托尼选择托尼选择p1=700，所有的四个顾客都会在第一期购买，这种，所有的四个顾客都会在第一期购买，这种定价策略为托尼带来定价策略为托尼带来2800的得益的得益第一期第一期第二期第二期LCD对哈尔和希尔伯特的价值对哈尔和希尔伯特的价值1200500LCD对劳里和劳伦的价值对劳里和劳伦的价值500200185定价方案定价方案B：第一期中使得所有的顾客都不购买：第一期中使得所有的顾客都不购买托尼选择托尼选择p11700，所有的四个顾客在第一期都将不再购买。，所有的四个顾客在第一期都将不再购买。托尼在第一期收益为托尼在第一期收益为0 如果托尼选择如果托尼选择p2=200，所有的四个顾客都会在第

80、二期购买，所有的四个顾客都会在第二期购买，这种定价策略为托尼带来这种定价策略为托尼带来800的得益的得益如果托尼选择如果托尼选择p2=500，只有哈尔和希尔伯特在第二期购买，只有哈尔和希尔伯特在第二期购买，这种定价策略为托尼带来这种定价策略为托尼带来1000的得益的得益因此，因此， p11700， p2=500最优，得益最优，得益=1000第一期第一期第二期第二期LCD对哈尔和希尔伯特的价值对哈尔和希尔伯特的价值1200500LCD对劳里和劳伦的价值对劳里和劳伦的价值500200186定价方案定价方案C：使得高价值顾客哈尔和希尔伯特在第一期购买，：使得高价值顾客哈尔和希尔伯特在第一期购买，

81、而低价值顾客劳里和劳伦在第二期购买而低价值顾客劳里和劳伦在第二期购买 1700-p1 500-200，则，则p1=1400，托尼在第一期为，托尼在第一期为2800的得益的得益托尼选择托尼选择p2=200，托尼在第二期为，托尼在第二期为400的得益的得益因此，因此， p1=1400， p2=200，托尼的得益为，托尼的得益为3200的得益的得益第一期第一期第二期第二期LCD对哈尔和希尔伯特的价值对哈尔和希尔伯特的价值1200500LCD对劳里和劳伦的价值对劳里和劳伦的价值500200187通过价格保证实现的高价承诺通过价格保证实现的高价承诺在某些情况下零售商存在动机随着时间的推移而降在某些情

82、况下零售商存在动机随着时间的推移而降低价格，从而分别榨取不同价值的顾客的剩余。或低价格，从而分别榨取不同价值的顾客的剩余。或许这样的定价策略对于一个公司来说是好事许这样的定价策略对于一个公司来说是好事-它帮助它帮助公司从每一种类型的顾客那里获得利润。事实上，公司从每一种类型的顾客那里获得利润。事实上，随着时间的推移而降低价格的动机可能会对公司所随着时间的推移而降低价格的动机可能会对公司所获得的利润具有相反的效应。获得的利润具有相反的效应。托尼承诺不与劳里和劳伦进行交易（如果降价，零托尼承诺不与劳里和劳伦进行交易（如果降价，零售商将差价退还给已购买的消费者），得益售商将差价退还给已购买的消费者）

83、，得益34001882.1 节习题与练习2.1 采用逆向归纳法，先最大化家长的收益：采用逆向归纳法，先最大化家长的收益：给定孩子的行动给定孩子的行动A，来选择家长自己的行动，来选择家长自己的行动B,MaxBV(Ip-B) +kU(Ic+B )一阶条件：一阶条件： V (I p-B)-kU (Ic+B ) =0（1）接着最大化孩子的收益，给定家长的反应函数接着最大化孩子的收益，给定家长的反应函数B*，来，来选选A：MaxAU(IC(A)+B)一阶条件：一阶条件：U (IC+B)IC (A)+B /A=0由于U是递增又严格凹的，U (IC+B)0因此，IC (A)+B /A=0（2）189将（将

84、（1）式关于求）式关于求A偏导偏导V (I p- B) Ip (A) - B / A - kV (I p- B) IC (A) + B / A=0 V (I p- B) Ip (A) - B / A = kV (I p- B) IC (A) + B / A=0 因为因为V严格凹的，严格凹的， V (I p- B) 0 Ip (A) - B / A =0 （3）（2）+（3） Ip (A)+ Ic (A)=01902.2 采用逆向归纳法，先最大化家长的收益：采用逆向归纳法，先最大化家长的收益：给定孩子的行动给定孩子的行动S，来选择家长自己的行动，来选择家长自己的行动B,MaxBV(Ip-B) +

85、kU1(Ic-S )+U2(S+B )一阶条件：一阶条件： -V (I p-B)+kU2 (S+B ) =0即，孩子储蓄减少，家长给予更高的赠与即，孩子储蓄减少，家长给予更高的赠与接着最大化孩子的收益，给定家长的反应函数接着最大化孩子的收益，给定家长的反应函数B*，来，来选选S：MaxSU1(Ic-S )+U2(S+B )一阶条件：一阶条件：191因此当增加因此当增加S 时，时， U1(Ic-S )会减小，同时，会减小，同时，d(S+B)/dS0，所以，所以S+B会增加，会增加，U2(S+B )会增会增加，因为（加，因为（*）式，）式， U2(S+B )增加的幅度比增加的幅度比U1(Ic-S

86、)减小的幅度大，所以孩子的收益效用增减小的幅度大，所以孩子的收益效用增大了，同时家长的收益效用也增大了。大了，同时家长的收益效用也增大了。1922.2 2.2 完全非完美信息二阶段博弈完全非完美信息二阶段博弈理论理论: 子博弈精炼子博弈精炼完全非完美信息的二阶段博弈完全非完美信息的二阶段博弈: (1) 参与人参与人 1 和和 2 同时选择同时选择 a1 和和a2; (2) 参与人参与人 3 和和 4 观察观察(a1, a2), 然后同时选择然后同时选择 a3 和和a4;(3) 收益是收益是 ui(a1, a2, a3, a4), i =1, 2, 3, 4.逆向归纳法逆向归纳法在第二阶段博弈

87、在第二阶段博弈, 参与人参与人 3 和和 4: (a*3(a1, a2), a*4(a1, a2). 在第一阶段，参与人在第一阶段，参与人 1 和参与人和参与人 2: (a*1, a*2).子博弈精炼解子博弈精炼解(sub-game perfect outcome) (a*1, a*2, a*3(a*1，a*2), a*4(a*1, a*2)193例例1：广告和竞争：广告和竞争例例2：银行挤提：银行挤提例例3：关税和国际市场竞争：关税和国际市场竞争例例4：工作竞赛：工作竞赛194例例1 广告和竞争广告和竞争考察一个双寡头模型。其中公司考察一个双寡头模型。其中公司1在与其他公司竞在与其他公司竞争

88、之前，需要进行广告宣传。争之前，需要进行广告宣传。公司公司1选择广告的程度选择广告的程度a， a 0的数。广告对于整的数。广告对于整个行业的商品需求有正的效应，可以提高价格。个行业的商品需求有正的效应，可以提高价格。市场价格为市场价格为p=a-q1-q2在公司在公司1选择选择a之后，它可以被另一个公司观察到。之后，它可以被另一个公司观察到。然后，两个公司同时并独立地选择它们的产量。然后，两个公司同时并独立地选择它们的产量。假设公司以零成本进行生产。但是，公司必须支假设公司以零成本进行生产。但是，公司必须支付的广告成本是付的广告成本是2a3/81。195逆向归纳法逆向归纳法假设在公司假设在公司1

89、选择了广告程度选择了广告程度a之后，达到一个子博弈。这之后，达到一个子博弈。这个子博弈的纳什均衡是古诺博弈。个子博弈的纳什均衡是古诺博弈。参与人参与人1的利润的利润=(a-q1-q2)q1-2a3/81 一阶条件：一阶条件：q1*=BR1(q2)=(a-q2)/2 同样公司同样公司2的最优函数是的最优函数是BR2(q1)=(a-q1)/2 联立求解：联立求解：q1=q2=a/3196代入公司代入公司1的利润函数，即的利润函数，即z1(a)=a2/9-2a3/81最优的最优的a满足满足2a/9-6a2/81=0求解求解a，我们得到，我们得到a*=3。最后确定的策略组合是最后确定的策略组合是a*

90、=3，q1(a)=a/3，q2(a)=a/3197例例2 2 银行挤提银行挤提下一阶段下一阶段r， rD， 2r-D2r-D，D提款提款不提不提客户客户2 2提款提款不提不提客客户户1 1日期日期1 1R，RD D，2R-D 2R-D，D DR，R提提款款不提不提客户客户2 2提款提款不提不提客客户户1 1日期日期2 2二个投资者在一个银行存款二个投资者在一个银行存款 D. 银行银行: 如果提前变现，得：如果提前变现，得：2r （DrD/2）如果到期，得：如果到期，得：2R （RD）198R，RD D，2R-D 2R-D，D DR，R提提款款不提不提客户客户2 2提款提款不提不提客客户户

91、1 1日期日期2 2R，Rr， rD， 2r-D2r-D，D提款提款不提不提客户客户2 2提款提款不提不提客客户户1 1日期日期1 1挤提求子博弈精炼解求子博弈精炼解(1) 在日期在日期2, (提提款，提款款，提款), 收益收益 (R, R) (2) (2) 将日期将日期2 2收益收益代回，在日期代回，在日期1 1，二个纯策略纳什均二个纯策略纳什均衡：衡： ( (提款，提款提款，提款) )，( (不提，不提不提，不提).).两阶段博弈有二个子博弈精炼解：两阶段博弈有二个子博弈精炼解：在日期在日期 1 两人都提款两人都提款, (r, r)；在日期在日期 1 两人都不提款两人都不提款, 但是在日

92、期但是在日期 2 提款提款, (R, R)。199例例3 关税和国际市场竞争关税和国际市场竞争国家国家i市场上商品总量市场上商品总量Qi国家国家i市场上出清价格市场上出清价格Pi=a-Qi, i=1, 2企业企业i生产生产hi供内销，供内销，ei供出口，供出口，Qi=hi+ej , i,j=1, 2两企业的边际成本均为两企业的边际成本均为c，无固定成本，则企业无固定成本，则企业i的生的生产总成本为产总成本为c(hi+ei)国家国家j的关税率为的关税率为tj企业企业i的出口成本为的出口成本为cei+tjei，国内销售成本为，国内销售成本为chi第一阶段第一阶段：两国同时制订关税率：两国同时制订关

93、税率t1, t2第二阶段第二阶段：两企业根据：两企业根据t1, t2同时决定各自内销和出口同时决定各自内销和出口产量产量h1, e1和和h2, e2200企业的得益函数为：企业的得益函数为：政府的得益函数政府的得益函数:由消费者剩余，本国由消费者剩余，本国企业利润和国家关税企业利润和国家关税收入构成收入构成201分析分析-第二阶段（在观察第二阶段（在观察ti与与tj后，国家后，国家i的企业选择的企业选择(hi, ei )）企业的得益函数为：企业的得益函数为：第二阶段企业选择：第二阶段企业选择：di/dhi=a2hi ejc =0di/dei=a2ei hj(c+tj) =0202hi是是ti的

94、增函数，的增函数，ej是是ti的减函数，关税具有的减函数，关税具有保护本国企业，打击外国企业的作用保护本国企业，打击外国企业的作用t t1 1=t=t2 2= =0 0时即为时即为古诺模型古诺模型203第一阶段政府选择：第一阶段政府选择：先把第二阶段根据厂商选择得先把第二阶段根据厂商选择得到结果代入政府得益，再求最优化：到结果代入政府得益，再求最优化：政府的得益函数；政府的得益函数；分析分析-第一阶段第一阶段204解得：解得：从而：从而：205例例4：工作竞赛：工作竞赛模型假设：模型假设：1.雇员雇员i(i=1,2)的产出函数为的产出函数为，为雇员努力水平，为雇员努力水平，为随机扰动。为

95、随机扰动。服从分布密度为服从分布密度为，均值为，均值为0的随机变量。雇的随机变量。雇员努力的负效用函数为员努力的负效用函数为，且，且。2.因为雇员的产出能够观察到而他们的努力水平却不能观察到，因为雇员的产出能够观察到而他们的努力水平却不能观察到，因此最多根据产量支付报酬，产量高的雇员得到高工资因此最多根据产量支付报酬，产量高的雇员得到高工资，产量低的得到低工资产量低的得到低工资。3. 第一阶段雇主决定第一阶段雇主决定和和，第二阶段是两雇员在知道雇，第二阶段是两雇员在知道雇主定的工资标准以后，同时独立选择各自的努力程度主定的工资标准以后，同时独立选择各自的努力程度。雇员的收益雇

96、员的收益: u(w, e ) = w g(e) 雇主的收益雇主的收益: y1 + y2 wh wl竞赛竞赛206分析分析- -第二阶段：雇员选择第二阶段：雇员选择雇主决定了工资以后，雇员雇主决定了工资以后，雇员i（i=1,2）同时决定努力程度：）同时决定努力程度：一阶条件一阶条件这是雇员所选择努力程度必须满足的基本条件。经济含义是这是雇员所选择努力程度必须满足的基本条件。经济含义是雇主付出努力的边际收入必须等于付出努力的边际负效用雇主付出努力的边际收入必须等于付出努力的边际负效用数值。数值。给定对方选择，给定对方选择，选择使自己期选择使自己期望得益最大的望得益最大的努力程度努力程度207分析分

97、析- -第二阶段：雇员选择第二阶段：雇员选择利用条件概率的贝叶斯法则：利用条件概率的贝叶斯法则：代入一阶条件得：代入一阶条件得：两雇员情况一样，对努力程度的选择也相同，两雇员情况一样，对努力程度的选择也相同，即即，这样就得到：这样就得到：这就是两雇员之间静态博弈的纳什均衡。这就是两雇员之间静态博弈的纳什均衡。 208分析分析- -第二阶段：雇员选择第二阶段：雇员选择两雇员之间静态博弈的纳什均衡两雇员之间静态博弈的纳什均衡说明对胜方的奖励力度（奖金额）较大，也就是说说明对胜方的奖励力度（奖金额）较大，也就是说较大，会提高雇员的努力程度较大，会提高雇员的努力程度。另一方面，如果奖。另一方面

98、，如果奖励不变，即励不变，即固定，而对产出的扰动因素的影响固定，而对产出的扰动因素的影响扩大，也就是竞赛的结果更多取决于扩大，也就是竞赛的结果更多取决于“运气运气”而不是雇而不是雇员的努力，那么雇员就会觉得努力不值得，就会选择较员的努力，那么雇员就会觉得努力不值得，就会选择较小的小的。设设增大，增大，e*减小减小209分析分析- -第一阶段：雇主选择第一阶段：雇主选择由于雇员之间博弈的均衡是对称均衡，因此双方赢得竞由于雇员之间博弈的均衡是对称均衡，因此双方赢得竞赛的机会都是赛的机会都是0.5，假设雇员能得到其他工作机会提供的得益，假设雇员能得到其他工作机会提供的得益是是，则保证雇员接

99、受工作的基本条件是：，则保证雇员接受工作的基本条件是：此即此即“参与约束参与约束”。由于在雇员接受工作的前提下，雇主必然尽可能压低工由于在雇员接受工作的前提下，雇主必然尽可能压低工资，因此约束条件取等号：资，因此约束条件取等号：于是得到：于是得到：设上述参与约束条件满足，雇主的利润函数为设上述参与约束条件满足，雇主的利润函数为210 雇主的期望利润为雇主的期望利润为，因此雇主的最优化问题：，因此雇主的最优化问题：上述雇主决策可转化为促使雇员的努力程度满足：上述雇主决策可转化为促使雇员的努力程度满足：一阶条件为：一阶条件为：代入两雇员的最优努力水平决定公式得到：代入两雇员的最优努力水平决定

100、公式得到：奖金只与工作业绩的不确定性有关，奖金只与工作业绩的不确定性有关，与产出函数随机因素概率分布的方与产出函数随机因素概率分布的方差正相关差正相关分析分析- -第一阶段：雇主选择（续）第一阶段：雇主选择（续）2112.3 2.3 重复博弈重复博弈有限次重复博弈：有限次重复博弈：给定一个基本博弈给定一个基本博弈G（可以是静态博（可以是静态博弈，也可以是动态博弈），重复进行弈，也可以是动态博弈），重复进行T次次G，并且在每，并且在每次重复次重复G之前各博弈方都能观察到以前博弈的结果，这之前各博弈方都能观察到以前博弈的结果，这样的博弈过程称为样的博弈过程称为“G的的T次重复博弈次重复博弈”，记为

101、，记为G(T)。而而G则称为则称为G(T)的的“原博弈原博弈”。G(T)中的每次重复称中的每次重复称为为G(T)的一个的一个“阶段阶段”。无限次重复博弈：无限次重复博弈：一个基本博弈一个基本博弈G一直重复进行下去的一直重复进行下去的博弈，记为博弈，记为G( )没有可以预见的结束时间，主观上认为会不断进行没有可以预见的结束时间，主观上认为会不断进行随机结束的重复博弈：随机结束的重复博弈：重复博弈的次数虽然是有限的，重复博弈的次数虽然是有限的，但重复的次数或博弈结束的时间却是不确定的但重复的次数或博弈结束的时间却是不确定的经济中的长期关系经济中的长期关系212定义：定义：在有限重复博弈在有限重复博

102、弈G(T)或无限重复博弈或无限重复博弈G( ， )中，中，参与者的一个策略是指每一个阶段，针对其前面阶段参与者的一个策略是指每一个阶段，针对其前面阶段所有可能的进行过程，参与者将会选择的行动。所有可能的进行过程，参与者将会选择的行动。定义：定义：在有限重复博弈在有限重复博弈G(T)中，由中，由t+1阶段开始的一个阶段开始的一个子博弈为子博弈为G进行进行T-t次的重复博弈，可表示为次的重复博弈，可表示为G(T-t)。由第由第t+1阶段开始有许多子博弈，到阶段开始有许多子博弈，到t阶段为止的每一阶段为止的每一个可能的进行过程之后都是不同的子博弈。在无限重个可能的进行过程之后都是不同的子博弈。在无限

103、重复博弈复博弈G( ， )中，由中，由t+1阶段开始的一个子博弈都阶段开始的一个子博弈都等同于初始博弈等同于初始博弈G( ， )。 213唯一纯策略纳什均衡博弈的有限次重复博弈唯一纯策略纳什均衡博弈的有限次重复博弈考虑重复两次的重复博弈，可以理解成警方给这两个囚徒两次考虑重复两次的重复博弈，可以理解成警方给这两个囚徒两次交待机会，两囚徒的最后得益（被关年数的负值）是两个阶段交待机会，两囚徒的最后得益（被关年数的负值）是两个阶段博弈中各自得益之和。博弈中各自得益之和。重复博弈过程：两博弈方先进行第一次博弈，双方看到第一次重复博弈过程：两博弈方先进行第一次博弈，双方看到第一次博弈的结果以后再进行第

104、二次博弈。博弈的结果以后再进行第二次博弈。-1，-1-9，00，-9-6，-6 囚徒囚徒 2 2 沉默沉默招认招认沉默沉默招认招认囚徒囚徒1 1两次重复博弈的囚徒困境两次重复博弈的囚徒困境214因为子博弈矩阵是通过把一个相因为子博弈矩阵是通过把一个相同的得益向量加到阶段博弈矩阵同的得益向量加到阶段博弈矩阵的每个单元格而构成的，所以在的每个单元格而构成的，所以在子博弈中各参与人对于行动组合子博弈中各参与人对于行动组合的偏好正好和他们单独进行一次的偏好正好和他们单独进行一次阶段博弈的偏好是相同的。也就阶段博弈的偏好是相同的。也就是说，是说，子博弈和阶段博弈正好有子博弈和阶段博弈正好有着相同的纳

105、什均衡着相同的纳什均衡。-1，-1-9，00，-9-6，-6 囚徒囚徒 2 沉默沉默招认招认沉默沉默招认招认囚囚徒徒1-7，-7-15，-6-6，-15-12，-12 囚徒囚徒 2 沉默沉默招认招认沉默沉默招认招认囚囚徒徒1子博弈精炼解子博弈精炼解: (: (招认招认, ,招认招认), (), (招认招认, ,招认招认) 215多个纯策略纳什均衡博弈的有限次重复博弈多个纯策略纳什均衡博弈的有限次重复博弈结论：结论：对任何重复博弈来说，阶段纳什组合的任意序列都对任何重复博弈来说，阶段纳什组合的任意序列都能够成为一个子博弈精炼解能够成为一个子博弈精炼解除了阶段纳什组合，是否还有其他均衡？除

106、了阶段纳什组合，是否还有其他均衡？4，30，01，40，02，10，0AB参与人参与人2X Y Z参与人参与人1216策略组合：策略组合：在第一期中选择在第一期中选择(A,X)，只要参与人，只要参与人2没有偏离没有偏离X，则在第二期中选择则在第二期中选择(A,Z)；如果参与人；如果参与人2在第一期中发生偏离在第一期中发生偏离而选择了而选择了Y或者或者Z，那么在第二期中选择，那么在第二期中选择(B,Y)。子博弈精炼解子博弈精炼解: (A,X), (A,Z)4，30，01，40，02，10，0AB参与人参与人2X Y Z参与人参与人1合作合作声誉声誉217策略组合：策略组合：在第一期中选择在第一期

107、中选择(A,X)，只要参与人，只要参与人2没有偏离没有偏离X，则在第二期中选择则在第二期中选择(A,Z)；如果参与人；如果参与人2在第一期中发生偏离在第一期中发生偏离而选择了而选择了Y或者或者Z，那么在第二期中选择，那么在第二期中选择(B,Y)参与人参与人2的动机：遵从策略组合，一期的动机：遵从策略组合，一期3，二期，二期4 偏离策略组合，一期偏离策略组合，一期4，二期，二期1参与人参与人1也没有偏离策略组合的动机也没有偏离策略组合的动机4，30，01，40，02，10，0AB参与人参与人2X Y Z参与人参与人1短期利益短期利益惩罚惩罚218无限重复博弈的得益无限重复博弈的得益219随机结束

108、和贴现率随机结束和贴现率随机结束重复博弈：停止重复概率随机结束重复博弈：停止重复概率p，重复下去概率，重复下去概率1-p。设某博弈方第。设某博弈方第t阶段得益为阶段得益为t，利率为，利率为，则该博，则该博弈方期望得益的现值为：弈方期望得益的现值为：其中，220每一期都采取阶段纳什组合，可以构成子博弈精炼解每一期都采取阶段纳什组合，可以构成子博弈精炼解触发战略触发战略(trigger strategy) ：“合作组合合作组合”“惩罚组合惩罚组合”惩罚组合假定是一个阶段纳什均衡。在触发策略均衡中，惩罚组合假定是一个阶段纳什均衡。在触发策略均衡中，参与人应该在每一期中采取合作组合，但是如果有人如果

109、参与人应该在每一期中采取合作组合，但是如果有人如果从合作组合中发生偏离，那么在此之后他们将永远采取惩从合作组合中发生偏离，那么在此之后他们将永远采取惩罚组合。也就是说，从合作组合中偏离会破坏一个参与人罚组合。也就是说，从合作组合中偏离会破坏一个参与人的声誉，从而导致在接下来的博弈中触发惩罚组合的声誉，从而导致在接下来的博弈中触发惩罚组合触发战略是否为子博弈精炼解？触发战略是否为子博弈精炼解？1，15，00，54，4 参与人参与人2 2 L2 R2L1 R1参与人参与人1 1221假设两方都遵从触发策略，考虑参与人假设两方都遵从触发策略，考虑参与人i在第一期的动机。在第一期的动机。如果参与人如果

110、参与人i采取合作态度，即取采取合作态度，即取R，双方总是取，双方总是取R，现值现值 V = 4 + 4 + 2 4 + = 4/(1- ) 如如果果参参与与人人i选选择择背背叛叛，即即取取L, 参参与与人人i的的背背叛叛会会导导致致参参与与人人j在以后的每一期同样选择背叛，在以后的每一期同样选择背叛，现值现值 V = 5 + 1 + 2 1 + = 5 + /(1 )当当4/(1 - ) 5 + /(1 - ) 即即 1/4，参参与与人人始始终终采采取取触触发发策策略略中中的的合合作作态态度度比比偏偏离离背背叛叛导导致致的的惩惩罚罚组组合合获获得得更更高高的的得得益。益。因此，触发战略构成子博

111、弈精炼解因此，触发战略构成子博弈精炼解还有没有其他的子博弈精炼纳什均衡？还有没有其他的子博弈精炼纳什均衡？222(4.5,2)1，15，00，54，4 参与人参与人2 2 L2 R2L1 R1参与人参与人1 1223G: 有限的完全信息静态博弈。有限的完全信息静态博弈。(e1，en): G 的一个纳什均衡的收益。的一个纳什均衡的收益。 (x1，xn): G 的可行收益。的可行收益。定定理理：如如果果xi ei，充充分分地地靠靠近近1, 则则无无限限重重复复的的博博弈弈G( ， )存在子博弈精炼的纳什均衡使存在子博弈精炼的纳什均衡使(x1，xn)为平均得益为平均得益.寓寓意意：通通过过使使用用

112、触触发发策策略略，几几乎乎任任何何的的重重复复博博弈弈得得益益都都能能被被耐心的参与人获得耐心的参与人获得在在上上例例中中，可可以以有有以以非非常常接接近近区区域域中中(1, 1)右右上上方方的的任任何何一一点点为得益的子博弈纳什均衡。为得益的子博弈纳什均衡。224考虑参与人考虑参与人 1的策略的策略: 第第1阶段阶段: R1. 第第t 阶段：当阶段：当t = 2k + 1，如果以前的所有奇数阶段是，如果以前的所有奇数阶段是 (R1, R2)，偶数阶段是偶数阶段是(L1，R2)，则，则R1 ，当，当t = 2k，如果以前的所有奇数，如果以前的所有奇数阶段是阶段是 (R1, R2)，偶数阶段是，

113、偶数阶段是(L1，R2)，则，则L1;参与人参与人 2的策略的策略: 第第1阶段阶段R2. 第第t 阶段：如果以前的所有奇数阶段是阶段：如果以前的所有奇数阶段是 (R1, R2)，偶数阶段是，偶数阶段是(L1，R2)，则，则R2。1，15，00，54，4 参与人参与人2 2 L2 R2L1 R1参与人参与人1 1225执行该策略的路径（结果）执行该策略的路径（结果）参与人参与人1：R1，L1，R1，L1，参与人参与人2：R2，R2，R2，R2，执行该策略的收益执行该策略的收益参与人参与人1：4，5，4，5，参与人参与人2：4，0，4，0，平均收益平均收益: u1 = (1- ) (4 + 5

114、+ 4 2 + 5 3 ) = (1- )(4 + 5 ) /( 1 2) = (4 + 5 ) /(1+ )u2 = (1- ) (4 + 4 2 + ) = (1- )4/( 1 2)=4/(1+ ) ，注意：当注意：当接近于接近于1，那么这个平均得益会逼近，那么这个平均得益会逼近(4.5,2)得益向量得益向量(4.5,2)是否满足子博弈完美均衡结果的条件？是否满足子博弈完美均衡结果的条件？226改进的触发策略：改进的触发策略：参与在第一期采取参与在第一期采取(R1,R2)，接着轮流采取，接着轮流采取(R1,R2)和和 (L1,R2)，如果有人在某个时刻偏离这个行动组合，如果有人在某个时

115、刻偏离这个行动组合，那么参与人在此之后永远的转而采用惩罚组合那么参与人在此之后永远的转而采用惩罚组合(L1,L2)从任一奇数期开始，参与人从任一奇数期开始，参与人2的得益的得益(4+0 +4 2+0 3 ) = 4/(1 2)从任一偶数期开始，参与人从任一偶数期开始，参与人2的得益的得益(0 + 4 + 0 2 + 4 3 ) = 4 /(1 2) 在每一个奇数期，参与人应该选择在每一个奇数期，参与人应该选择(R1,R2)，如果参与人，如果参与人2行为行为发生偏离发生偏离则当则当4/(1 2)5+1 +1 2+1 3. 即即在每一个偶数期，参与人应该选择在每一个偶数期，参与人应该选择(L1,

116、R2)，如果参与人，如果参与人2行为行为发生偏离发生偏离则当则当4 /(1 2)1+1 +1 2+1 3. 即即 227从任一奇数期开始，参与人从任一奇数期开始，参与人1的得益的得益(4+5 +4 2+5 3 ) = (4+5 )/(1 2)从任一偶数期开始，参与人从任一偶数期开始，参与人2的得益的得益(5 + 4 + 5 2 + 4 3 ) = (5+4 )/(1 2) 在每一个奇数期，参与人应该选择在每一个奇数期，参与人应该选择(R1,R2)，如果参与人，如果参与人1行为行为发生偏离发生偏离则当则当4+ (5+4 )/(1 2)5+1 +1 2+1 3. 即即在每一个偶数期，参与人应该选

117、择在每一个偶数期，参与人应该选择(L1,R2)，如果参与人，如果参与人2行为行为发生偏离发生偏离则当则当5+ (4+5 )/(1 2)4+1 +1 2+1 3. 即即任意任意即即时，双方都会遵从改进后的触发策略，改进后的时，双方都会遵从改进后的触发策略，改进后的触发策略是子博弈精炼解触发策略是子博弈精炼解228例例1 Cournot 1 Cournot 双头之间的共谋双头之间的共谋229设两厂商都已采用该触发策略设两厂商都已采用该触发策略若厂商若厂商2 2遵从上述触发策略，则每期得益遵从上述触发策略，则每期得益，无限次重复博弈总得益的现值为：无限次重复博弈总得益的现值为：如果厂商如果

118、厂商2 2偏离上述触发策略，则他在第一阶段所选产偏离上述触发策略，则他在第一阶段所选产量应为给定厂商量应为给定厂商1 1产量为产量为时，自己的最大利润产时，自己的最大利润产量，即满足：量，即满足：解得解得，此时利润为，此时利润为，高于触发策，高于触发策略第一阶段得益略第一阶段得益。= 230 但从第二阶段开始，厂商但从第二阶段开始，厂商1 1将报复性地永远采用古诺产量将报复性地永远采用古诺产量，这样厂商，这样厂商2 2也被迫永远采用古诺产量，从此得利润也被迫永远采用古诺产量，从此得利润。因此，无限次重复博弈第一阶段偏离的情况下总得益的现。因此，无限次重复博弈第一阶段偏离的情况下总

119、得益的现值为：值为：当当当当时，厂商时，厂商2 2愿意遵从触发策略，否则偏离是愿意遵从触发策略，否则偏离是最佳反应。最佳反应。231当当时，偏离是厂商时，偏离是厂商2对厂商对厂商1的触发策略的最佳反应，的触发策略的最佳反应，说明未来得益折算成现在值的贴现系数太小，即博弈方太不说明未来得益折算成现在值的贴现系数太小，即博弈方太不看重未来利益时，他就会只顾为自己捞取更多的眼前利益，看重未来利益时，他就会只顾为自己捞取更多的眼前利益，不会为长期利益打算，也不会害怕对方在未来阶段的报复，不会为长期利益打算，也不会害怕对方在未来阶段的报复，在这种情况下无限次重复博弈也不能提高原博弈的效率。在这种

120、情况下无限次重复博弈也不能提高原博弈的效率。当当时，说明未来得益折算成现在值的贴现系数太时，说明未来得益折算成现在值的贴现系数太大，对博弈方大，对博弈方2来说未来利益足够重要，他不会为一次性的来说未来利益足够重要，他不会为一次性的眼前利益而激怒对方，导致自己的未来利益、长期利益受眼前利益而激怒对方，导致自己的未来利益、长期利益受到损失。到损失。232当当时，上述触发策略不是无限次重复博弈的纳什均时，上述触发策略不是无限次重复博弈的纳什均衡，更不是子博弈完美纳什均衡。但并不是说当衡，更不是子博弈完美纳什均衡。但并不是说当时，时，两厂商就一定只能每阶段都采用古诺产量，实现每阶段结果两厂商就一

121、定只能每阶段都采用古诺产量，实现每阶段结果为原博弈的低效率纳什均衡的得益。为原博弈的低效率纳什均衡的得益。虽然虽然较小时，因为远期利益的重要性不足，无限次重复博弈较小时，因为远期利益的重要性不足，无限次重复博弈也不能促使两厂商把产量都控制在也不能促使两厂商把产量都控制在qm/2的低水平，但还是有可的低水平，但还是有可能使各厂商把产量都控制在比古诺产量能使各厂商把产量都控制在比古诺产量qc低的水平，即低的水平，即qm/2和和qc之间的某个中间产量水平之间的某个中间产量水平q*。233低水平的合作低水平的合作9/17时，可构造如下时，可构造如下触发策略触发策略：第一阶段生产第一阶段生产q*(qm

122、/2q*qc)，第，第t阶段，如果前阶段，如果前t-1阶段阶段的结果都是的结果都是(q*,q*)，则继续生产，则继续生产q*，否则生产古诺产量，否则生产古诺产量qc。设厂商设厂商1已采用该触发策略，则厂商已采用该触发策略，则厂商2期望得益期望得益采用触发策略：采用触发策略：*/(1-) = (a 2q* c) q*/(1-) 第一阶段偏离：此时厂商第一阶段偏离：此时厂商2的产量的产量 q2=(a-q*-c)/2，得益，得益d=(a-q*-c)2/4无限次博弈得益现值为无限次博弈得益现值为234低水平的合作低水平的合作只有当只有当厂商厂商2才愿意采用触发策略，否则肯定会偏离。即只有当才愿意采用触

123、发策略，否则肯定会偏离。即只有当 q* 时，触发策略是稳定的。时，触发策略是稳定的。结论：结论：q* 随随单调递减，单调递减，09/17时，时，qm/2q*0，低产量，低产量0。工人努力工作时一定是高产量工人努力工作时一定是高产量y，不努力时却并不一定是，不努力时却并不一定是0，而是高产量，而是高产量y的概率为的概率为p，低产量，低产量0的概率为的概率为1-p。工人努力工作时，厂商得益为工人努力工作时，厂商得益为y-w，工人得益为，工人得益为w-e ；工人工人偷懒时，厂商期望得益为偷懒时，厂商期望得益为py-w，工人得益为，工人得益为w。236触发策略触发策略厂商：在第一阶段给工资率厂商：在

124、第一阶段给工资率w*w0 ，在第，在第t阶段，如果前阶段，如果前面面t-1阶段结果都是阶段结果都是(w*,y) ，则继续给，则继续给w*，否则从此永远，否则从此永远是是w= 0。工人：如果工人：如果ww0，则接受，否则宁愿作个体户得到，则接受，否则宁愿作个体户得到w0。并在以前各期结果都是并在以前各期结果都是 (w*,y)和当前工资率为和当前工资率为w*时努力时努力工作，否则偷懒。工作，否则偷懒。设厂商已采用上述触发策略。由于设厂商已采用上述触发策略。由于w*w0，工人接受工作，工人接受工作是最佳反应。用是最佳反应。用Ve记工人努力工作时无限次重复博弈得益记工人努力工作时无限次重复博弈得益的现

125、值，则的现值，则即即237用用Vs记工人选偷懒时无限重复博弈得益的现值，则：记工人选偷懒时无限重复博弈得益的现值，则：或或因此当因此当即即时，努力是工人的最佳选择。时，努力是工人的最佳选择。基本补偿基本补偿升水升水238反过来，设工人已采用上述触发策略。若厂商给的工反过来，设工人已采用上述触发策略。若厂商给的工资率资率w*满足上式条件，并且威胁一旦产量降低就解雇满足上式条件，并且威胁一旦产量降低就解雇工人，则各阶段的得益为工人，则各阶段的得益为y-w*，无限次重复博弈得益，无限次重复博弈得益现值为现值为若不愿给若不愿给w* ，则解雇工人，以后得益为，则解雇工人，以后得益为0。因此只

126、。因此只要要y-w*0，厂商选择前述触发策略就是最佳反应。，厂商选择前述触发策略就是最佳反应。239 综上所述，在满足综上所述，在满足的条件下，双方的触发策略构成一个纳什均衡。而上述两式实的条件下，双方的触发策略构成一个纳什均衡。而上述两式实际上意味着际上意味着即工人努力的产出扣除努力负效用后的剩余，必须不小于工人即工人努力的产出扣除努力负效用后的剩余，必须不小于工人作个体户的收入即机会成本，加上一定比例的取决于努力负效作个体户的收入即机会成本，加上一定比例的取决于努力负效用、贴现系数和偷懒可能得高产量概率的附加部分。用、贴现系数和偷懒可能得高产量概率的附加部分。最后这个不等式正是存在有效工

127、资率，工作激励有效的最后这个不等式正是存在有效工资率，工作激励有效的基本条件。基本条件。2402.4 2.4 有限理性和进化博弈有限理性和进化博弈有限理性博弈方有限理性博弈方：不满足完全理性假设的博弈方：不满足完全理性假设的博弈方有限理性意味着一般至少有部分博弈方不会采用完全有限理性意味着一般至少有部分博弈方不会采用完全理性博弈的均衡策略理性博弈的均衡策略完全理性包括理性知识、分析推理能力、识别判断能完全理性包括理性知识、分析推理能力、识别判断能力和准确行为能力等多方面完美性要求，其中任何力和准确行为能力等多方面完美性要求，其中任何一方不完美就不是完全理性。一方不完美就不是完全理性。有限理

128、性意味着均衡是不断调整和改进而不是一次性有限理性意味着均衡是不断调整和改进而不是一次性选择的结果，而且即使达到了均衡也可能再次偏离选择的结果，而且即使达到了均衡也可能再次偏离有限理性博弈方会在博弈过程中学习博弈，通过试错有限理性博弈方会在博弈过程中学习博弈，通过试错寻找较好的策略寻找较好的策略有一定的统计分析能力有一定的统计分析能力和对不同策略效果的事和对不同策略效果的事后判断能力后判断能力241 在有限理性博弈中具有真正稳定性和较强预测能力的均在有限理性博弈中具有真正稳定性和较强预测能力的均衡，必须是能够通过博弈方的模仿、学习的调整过程衡，必须是能够通过博弈方的模仿、学习的调整过程达到的，具

129、有能经受错误偏离的干扰的均衡，是在受达到的，具有能经受错误偏离的干扰的均衡，是在受到少量干扰后仍然能够到少量干扰后仍然能够“恢复恢复”的均衡。这时博弈分的均衡。这时博弈分析的核心不是博弈方的最优策略的选择，而是有限理析的核心不是博弈方的最优策略的选择，而是有限理性的博弈方组成的性的博弈方组成的群体成员群体成员的策略调整过程、趋势和的策略调整过程、趋势和稳定性，稳定性，这里的稳定性是指采用特定策略的成员的比这里的稳定性是指采用特定策略的成员的比例不变例不变，而非某个博弈方的策略不变，而非某个博弈方的策略不变有限理性博弈的有效分析框架是有限理性博弈方构成的、有限理性博弈的有效分析框架是有限理性博弈

130、方构成的、一定规模的特定群体内成员的某种反复博弈一定规模的特定群体内成员的某种反复博弈242协调博弈的有限博弈方快速学习模型协调博弈的有限博弈方快速学习模型模型：模型：一个群体有5个人，进行下述“协调博弈”：12345该静态博弈有两个该静态博弈有两个Nash均衡：均衡：(A,A)和和(B,B)，由于，由于Nash均衡的多重性，即使均衡的多重性，即使博弈方则高度理性的也很难作出保险的博弈方则高度理性的也很难作出保险的预测。预测。每户居民都与各每户居民都与各自的左右邻居发自的左右邻居发生反复博弈生反复博弈50，500，4960，6049，0A博弈方博弈方2BAB博博弈弈方方1243初始状态：初始状

131、态：共共32种可能，只种可能，只有无有无A，1A，有相邻，有相邻2A，有不相邻有不相邻2A，有连，有连3A，有，有非非3连连A，4A，5A共共8种有种有实质差异实质差异12345ABBBBAABBBABABBAAABBAABABAAAAB244最优反应动态模拟：初次博弈最优反应动态模拟：初次博弈 1个个AABABABABBBAAAAABAAAABAABB选A：492选B：602选A：50+49选B：0+6050，500，4960，6049，0A博弈方博弈方2BAB博博弈弈方方1选A：492选B：602选A：502选B：02245反应、策略调整规则推导反应、策略调整规则推导设设xi(t)为在为在

132、t时期博弈方时期博弈方i的邻居中采用的邻居中采用A策略邻居的策略邻居的数量数量 xi(t)=0,1,2，博弈方博弈方i的得益：的得益：即：即：t期期i的邻居中只要有的邻居中只要有A，则，则i在在t+1期采用期采用A特点：特点：i在在t+1期策略与自己在第期策略与自己在第t期策略无直接关系期策略无直接关系50，500，4960，6049，0A博弈方博弈方2BAB博博弈弈方方1246最优反应动态模拟：初次博弈最优反应动态模拟：初次博弈 1个个AABABABABBBAAAAABAAAABAABB不相邻不相邻2A有非有非3连连A连连4A5A1A247最优反应动态模拟：初次博弈相邻最优反应动态模拟：初次

133、博弈相邻2个个AAAAAAAABAABBBAA相邻相邻2A248最优反应动态模拟：初次博弈相连最优反应动态模拟：初次博弈相连3个个ABAABAAAAAA结论：结论：总共总共32种可能的初次博弈情况中，只有一种是稳定于种可能的初次博弈情况中，只有一种是稳定于所有博弈方都采用所有博弈方都采用B的状态，其余的状态，其余31种都会收敛到采用种都会收敛到采用A状态状态。这说明所有博弈方都采用。这说明所有博弈方都采用A策略和所有博弈方都采用策略和所有博弈方都采用B策略策略都是有限理性博弈方进行上述协调博弈的稳定状态，但都是有限理性博弈方进行上述协调博弈的稳定状态，但5A稳定状态性显然更重要一些，因为博弈方

134、的调整收敛到稳定状态性显然更重要一些，因为博弈方的调整收敛到这种情况的机会要大。这种情况的机会要大。相邻相邻3A249进化稳定策略进化稳定策略(Evolutionary Stable Strategy，ESS)：(1) 在博弈方的动态调整中会达到在博弈方的动态调整中会达到(2) 对少量偏离的扰动有稳健性对少量偏离的扰动有稳健性所有博弈所有博弈方采用方采用A少量偏离少量偏离A最优反应策略会最优反应策略会使博弈方的策略使博弈方的策略很快回到很快回到A稳健性稳健性所有博弈所有博弈方采用方采用B少量偏离少量偏离B最优反应策略会最优反应策略会使博弈方离该策使博弈方离该策略越来越远略越来越远无稳健性无稳健

135、性250例：古诺调整过程例：古诺调整过程-博弈策略无限连续博弈策略无限连续古诺模型反应函数古诺模型反应函数1 2 3 4 博弈方博弈方1 2.5 1.5 2.125 1.875博弈方博弈方2 3 1.75 2.25 1.9375问题：两寡头始终假设对方产量不变问题：两寡头始终假设对方产量不变最优反应动态模拟最优反应动态模拟收敛条件收敛条件博弈方有限理性：博弈方有限理性：知知道自己的反应函数，道自己的反应函数，不知道对方的利润、不知道对方的利润、反应函数，也没有预反应函数，也没有预见能力见能力反应函数反应函数斜率斜率进化稳定策略进化稳定策略（2,2）猜测调整251对称博弈：对称博弈：复制动态和进

136、化稳定性复制动态和进化稳定性理性层次理性层次：博弈方有限理性，学习速度较慢：博弈方有限理性，学习速度较慢分析框架分析框架：大群体成员的随机配对反复博弈：大群体成员的随机配对反复博弈隐含：隐含：博弈方都是相似的博弈方都是相似的，即对称博弈，即对称博弈学习速度慢学习速度慢的表示：的表示：优势策略转变是一个渐进优势策略转变是一个渐进的过程，非所有博弈方同时调整的过程，非所有博弈方同时调整252例：签协议博弈的复制动态和进化稳定策略例：签协议博弈的复制动态和进化稳定策略签协议博弈：签协议博弈：1，10，00，00，0同意同意博弈方博弈方2不同意不同意同意同意不同意不同意博博弈弈方方1两个纳什均衡（同意

137、，同意）和（不同意，不同意），其中两个纳什均衡（同意，同意）和（不同意，不同意），其中前一个纳什均衡帕累托优于后一个纳什均衡。因此如果是在前一个纳什均衡帕累托优于后一个纳什均衡。因此如果是在两个满足完全理性假设的博弈方之间进行该博弈，那么可以两个满足完全理性假设的博弈方之间进行该博弈，那么可以预见这个博弈的结果是双方都预见这个博弈的结果是双方都“同意同意”签协议。签协议。253假设群体中采用假设群体中采用“同意同意”比例比例x ，“不同意不同意”比例比例1-x则不同策略期望得益：则不同策略期望得益：群体平均得益群体平均得益：分析框架：在理性层次较低的有限理性博弈方组成的大群分析框架：在理性层次

138、较低的有限理性博弈方组成的大群体成员随机配对反复博弈体成员随机配对反复博弈“同意同意”类型博弈方平均得益类型博弈方平均得益：“不同意不同意”类型博弈方平均得益类型博弈方平均得益：1，10，00，00，0同意同意博弈方博弈方2不同意不同意同意同意不同意不同意博博弈弈方方1254如果如果x0，“同意同意”类型博弈方的得益高于类型博弈方的得益高于“不同意不同意”类型的，也高于平均得益类型的，也高于平均得益两种类型博弈方随时间变化的函数：两种类型博弈方随时间变化的函数：x(t)，1-x(t)博弈方策略类型比例动态变化是有限理性博弈分析博弈方策略类型比例动态变化是有限理性博弈分析的核心，其关键是动态变化

139、的速度的核心，其关键是动态变化的速度决定模仿速度的因素决定模仿速度的因素：模仿对象的数量大小（可用相应类型博弈方的比模仿对象的数量大小（可用相应类型博弈方的比例表示）例表示）模仿对象的成功程度（可用模仿对象策略得益超模仿对象的成功程度（可用模仿对象策略得益超过平均得益的幅度表示）过平均得益的幅度表示）以采用以采用“同意同意”策略类型博弈方的比例为例，其动策略类型博弈方的比例为例，其动态变化速度可用下列微分方程反映：态变化速度可用下列微分方程反映：复制动态方程复制动态方程255动态微分方程的相位图动态微分方程的相位图dx/dtx010.5稳定状态、不动点：稳定状态、不动点：x*=0，x*=1签协

140、议博弈复制动态相位图签协议博弈复制动态相位图x=0时采用同意策略类型博弈方比例的变时采用同意策略类型博弈方比例的变化率为化率为0。必须要有模仿的对象才能学习。必须要有模仿的对象才能学习除除x=0外，从其他初外，从其他初始情况出发的复制动始情况出发的复制动态过程，最终都收敛态过程，最终都收敛到到x=1，即都，即都“同意同意”是进化稳定策略吗？是进化稳定策略吗？256进化稳定策略的检验进化稳定策略的检验257a, ac, bd, db, c策略策略1博弈方博弈方2策略策略2策略策略1策略策略2博博弈弈方方1一般一般22对称博弈对称博弈进化博弈设定是在一个大群体的成员中进行随进化博弈设定是在一个大群

141、体的成员中进行随机配对的反复博弈。机配对的反复博弈。基本模型是两个博弈方之间的对称博弈。含义基本模型是两个博弈方之间的对称博弈。含义是两个博弈位置是无差异的。是两个博弈位置是无差异的。其中其中abcd可以是任何得益，根据问题设定。可以是任何得益，根据问题设定。一般对称博弈的复制动态和进化稳定博弈一般对称博弈的复制动态和进化稳定博弈258复制动态分析复制动态分析复制动态的进化复制动态的进化规则是生物学中规则是生物学中生物特征进化规生物特征进化规则则设设x为采用策略为采用策略1的比例的比例a, ac, bd, db, c策略策略1博弈方博弈方2策略策略2策略策略1策略策略2博博弈弈方方1一般一般2

142、2对称博弈对称博弈259复制动态分析复制动态分析dx/dtx1x*复制动态复制动态相位图相位图1x*可能与可能与x=0或或x=1重合重合最多三个稳定状态：最多三个稳定状态：不是进化稳定策略不是进化稳定策略进化稳定策略进化稳定策略260复制动态分析复制动态分析dx/dtx1x*复制动态复制动态相位图相位图2x*可能与可能与x=0或或x=1重合重合最多三个稳定状态：最多三个稳定状态：进化稳定策略进化稳定策略不是进化稳定策略不是进化稳定策略261特例特例1 1：协调博弈：协调博弈50，500，4960，6049，0策略策略1 1博弈方博弈方2策略策略2策略策略1策略策略2博博弈弈方方1一般一般2*2

143、2*2对称博弈对称博弈dx/dtx111/16复制动态进化博弈的结果复制动态进化博弈的结果常常取决与带有很大偶然常常取决与带有很大偶然性的初始状态。性的初始状态。三个稳定状态：三个稳定状态：进化稳定策略进化稳定策略不进化稳定策略不进化稳定策略262特例特例2：鹰鸽博弈：鹰鸽博弈, , 0, 0, v, , v, 0, 0鹰鹰博弈方博弈方2 2鸽鸽鹰鹰鸽鸽博博弈弈方方1 1鹰鸽博弈鹰鸽博弈双方争夺双方争夺的利益的利益失败一方失败一方的损失的损失263复制动态方程和相位图复制动态方程和相位图dx/dtx11/6采用鹰策略博采用鹰策略博弈方比例弈方比例设设v=2,=2,c=12=12ESS，意义：在

144、较大规模群体的长期进化中，意义：在较大规模群体的长期进化中，采取攻击型策略的博弈方数量最终稳定在采取攻击型策略的博弈方数量最终稳定在1/61/6左左右，发生严重战争的可能性为右，发生严重战争的可能性为1/361/36264特例特例3 3：蛙鸣博弈：蛙鸣博弈动物进化竞争是生物多样性、复杂性的基本机制动物进化竞争是生物多样性、复杂性的基本机制P-z, P-z1-m, m-z0, 0m-z, 1-m鸣叫鸣叫雄蛙雄蛙2 2不鸣不鸣鸣叫鸣叫不鸣不鸣雄雄蛙蛙1 1蛙鸣博弈蛙鸣博弈265P-z, P-z1-m, m-z0, 0m-z, 1-m鸣叫鸣叫雄蛙雄蛙2 2不鸣不鸣鸣叫鸣叫不鸣不鸣雄雄蛙蛙1 10,

145、0266P-z, P-z1-m, m-z0, 0m-z, 1-m鸣叫鸣叫雄蛙雄蛙2 2不鸣不鸣鸣叫鸣叫不鸣不鸣雄雄蛙蛙1 1P-z, P-z267P-z, P-z1-m, m-z0, 0m-z, 1-m鸣叫鸣叫雄蛙雄蛙2 2不鸣不鸣鸣叫鸣叫不鸣不鸣雄雄蛙蛙1 11-m, m-zm-z, 1-m268蛙鸣博弈不同均衡的条件蛙鸣博弈不同均衡的条件Z Zm1 11 1鸣叫鸣叫部分鸣叫部分鸣叫不鸣叫不鸣叫m=1-P+zm=zmz, P-zz, P-z1- m269蛙鸣博弈复制动态方程和不动点蛙鸣博弈复制动态方程和不动点x鸣叫雄蛙比例鸣叫雄蛙比例可能的稳定状态点：可能的稳定状态点：x*=0x*=1x*=

146、(m-z)/(1-p)复制动态方程复制动态方程270蛙鸣博弈复制动态相位图蛙鸣博弈复制动态相位图xdx/dt1(m-z)/(1-P)0dx/dtx1(m-z)/(1-P)0(m-z)/(1-P)1271非对称博弈：复制动态和进化稳定性非对称博弈：复制动态和进化稳定性对称博弈的进化博弈分析对应的是相似博弈方对称博弈的进化博弈分析对应的是相似博弈方群体的策略进化和稳定性群体的策略进化和稳定性非对称博弈：一个大群体成员间随机配对反复非对称博弈：一个大群体成员间随机配对反复博弈就不再是合适的分析框架了，必须用两博弈就不再是合适的分析框架了，必须用两个（或多个）有差别的有限理性博弈方群体个（或多个）有差

147、别的有限理性博弈方群体的成员，相互之间随机配对博弈的分析框架的成员，相互之间随机配对博弈的分析框架进行分析进行分析272 例例1：市场阻入博弈：市场阻入博弈1 12 2进入进入不进不进打击打击不打不打（0 0，0 0）（2 2，2 2）（1 1，5 5）采用采用“打击打击”策略博弈方比策略博弈方比例例采用采用“进入进入”策略博弈方比策略博弈方比例例273博弈方博弈方1 1位置的博弈群体复制动态相位图位置的博弈群体复制动态相位图xdx/dt1y1/2xdx/dt1yv20设设v1=10，v2=2，c=12-1，-510，00，25，1鹰鹰博博弈弈方方1 1鸽鸽鹰鹰博弈方博弈方2 2鸽鸽277-1

148、，-510，00，25，1鹰鹰博博弈弈方方1 1鸽鸽鹰鹰博弈方博弈方2 2鸽鸽采用采用“鹰鹰”策略策略博弈方博弈方2比例比例采用采用“鹰鹰”策略策略博弈方博弈方1比例比例278博弈方博弈方1位置的群体复制动态相位图位置的群体复制动态相位图xdx/dt1y5/6xdx/dt1y1/6ydy/dt1x c时，克丽斯选择歌剧时，克丽斯选择歌剧, 否则选择拳击否则选择拳击.当当 tp p时，帕特选择拳击时，帕特选择拳击, 否则选择歌剧否则选择歌剧.3062+tc，1 0，00，01，2+tp 帕特帕特歌剧歌剧拳击拳击歌剧歌剧拳击拳击克里斯克里斯3072+tc，1 0，00，01，2+tp 帕特帕特

149、歌剧歌剧拳击拳击歌剧歌剧拳击拳击克里斯克里斯308与完全信息夫妻之争混合策略纳什均衡的概率分布同与完全信息夫妻之争混合策略纳什均衡的概率分布同309例例2：价格优先密封拍卖（：价格优先密封拍卖（First-price, sealed-bid）价格优先密封拍卖：两个投标人，分别为价格优先密封拍卖：两个投标人，分别为1、2，投标人，投标人i对商品的估价对商品的估价vi，即如果投标人，即如果投标人i付出价格付出价格pi得到商品，则得到商品，则i的收益为的收益为vi-pi两个投标人的估价相互独立，并服从两个投标人的估价相互独立，并服从0,1区间上的均匀分区间上的均匀分布。投标价格不能为负，且双方同

150、时给出各自的投标价。布。投标价格不能为负，且双方同时给出各自的投标价。出价较高的一方得到商品，并支付他报的价格；另一方的出价较高的一方得到商品，并支付他报的价格；另一方的收益和支付都为收益和支付都为0.在投标价相等的情况下，胜利方掷硬币在投标价相等的情况下，胜利方掷硬币决定。投标方是风险中性的，所有以上是共同信息。决定。投标方是风险中性的，所有以上是共同信息。310311线性策略均衡线性策略均衡博弈方博弈方i对博弈方对博弈方j的最的最佳反应函数：佳反应函数：由于博弈方由于博弈方i的投标价格低于博弈方的投标价格低于博弈方j最低的可能投标价格没最低的可能投标价格没有意义，而高于最高的可能的价格又显

151、然愚蠢有意义，而高于最高的可能的价格又显然愚蠢因此因此 aj pi aj+cj312线性策略均衡线性策略均衡博弈方博弈方i对博弈方对博弈方j的最佳反应函数：的最佳反应函数：如果如果0aj 1，则一定存在某些，则一定存在某些vi的值，使得的值，使得viaj，这时，这时bi(vi)就不可能是线性的了就不可能是线性的了只有只有aj 0313线性策略均衡线性策略均衡同理，在同理，在ai 0时，时，是博弈方是博弈方j的最佳反应的最佳反应贝叶斯纳贝叶斯纳什均衡什均衡是否还存在另外的贝叶斯纳什均衡，以及如果投标方估价的是否还存在另外的贝叶斯纳什均衡，以及如果投标方估价的概率分布发生变化，均衡的投标价格将如

152、何发生变化？概率分布发生变化，均衡的投标价格将如何发生变化？314例例3 3：双向拍卖：双向拍卖 (A double auction)(A double auction) 一个买者和一个卖者一个买者和一个卖者, 分别提出价格分别提出价格 pb, ps如果如果 pb ps , 则以则以p = (pb + ps )/2交易交易; 否则不交易否则不交易他们的估价为私人信息，他们的估价为私人信息，vb和和vs, 独立，为独立，为 0, 1上均匀分布上均匀分布.买者收益买者收益ub = vb p if pb ps = 0 if pb ps 卖者收益卖者收益us = p vs if pb ps = 0 i

153、f pb 1/3p1/3时选时选R R ，p1/3p1/3p1/3，更准确，更准确p=1p=1符合博弈方符合博弈方2 2，3 3均衡策略均衡策略（3 3）博弈方）博弈方1 1知道从博弈方知道从博弈方2 2开开始的子博弈均衡为始的子博弈均衡为(L,R(L,R ) )，因，因此此F F是均衡策略是均衡策略330子博弈精炼纳什均衡子博弈精炼纳什均衡: (D, L, R ) 另有战略另有战略 (A, L, L )和推断和推断 p = 0: -纳什均衡纳什均衡-满足要求满足要求 1-3.-不是精炼贝叶斯均衡不是精炼贝叶斯均衡: 不不满足要求满足要求4: p = 0与与2的策略的策略L不相容不相容.331

154、如果如果(A, A , L ) 是均衡，则参与人是均衡，则参与人3的战略要针对参与的战略要针对参与人人2的的L或或R。参与人参与人3的推断必须是的推断必须是 p = q1/(q1 + q2)但是参与人但是参与人2选选A ，q1 + q2 = 0, 因此无法计算因此无法计算p。3324.2 4.2 信号博弈信号博弈信号博弈的参与人：信号发送者信号博弈的参与人：信号发送者S，接收者，接收者R。信号博弈的时间顺序信号博弈的时间顺序自然按照概率分布为自然按照概率分布为S产生一个产生一个ti T S 观察观察 t，并选择，并选择 mj M R 观察观察 m 并选择并选择 ak A 收益收益 US(ti

155、，mj，ak)和和UR(ti，mj，ak)333334发送者战略发送者战略: 在类型为在类型为t1时发出的信号与时发出的信号与t2时发出的信号：时发出的信号： m1, m1, m1, m2, m2, m1, m2, m2混同混同(pooling)战略战略: 所有的类型发出相同的信号：所有的类型发出相同的信号： m1, m1, m2, m2分离分离(separating)战略：不同的类型发出不同的信号：战略：不同的类型发出不同的信号： m1, m2, m2, m1接收者策略接收者策略: 在收到信号在收到信号m1时与信号时与信号m2时选择的行动：时选择的行动： a1, a1, a1, a2, a2

156、, a1, a2, a2335336精精炼炼贝贝叶叶斯斯均均衡衡: 战战略略 (m*(ti), a*(mj)和和推推断断 (ti | mj) 满满足足信信号要求号要求 (1), (2R), (2S),和和 (3)。为什么没有要求为什么没有要求4？例例 T = t1, t2, t3, t4, M = m1, m2, m3 如果在均衡中，发送者的战略：如果在均衡中，发送者的战略： m*(t1) = m1，m*(t2) = m1，m*(t3) = m2，m*(t4) = m2 则则m3处于均衡路径以外，若用贝叶斯公式，分母为处于均衡路径以外，若用贝叶斯公式，分母为0。3373381. 混同于混同于L

157、?发送者发送者: (L, L). 如果为均衡，如果为均衡，p = 0.5 接收者收益分别为接收者收益分别为: 3.5(u)，或，或 0.5(d)。将选择。将选择u。发送者发送发送者发送L的收益分别为：的收益分别为：1 (t1)，2 (t2)如果发送者发送如果发送者发送 R, 当当q + (1 q)0 q0 + (1 q)2 q 2/3接接收收者者将将选选择择 d. 发发送送者者收收益益为为 0(t1),和和1(t2), 小小于于发发送送L时时分分别别所得。所得。均衡均衡: (L, L), (u, d), p = 0.5, q 2/33392. 混同于混同于R?发送者发送者: (R, R)如果是

158、均衡，如果是均衡， q = 0.5接收者的收益接收者的收益: 0.5 (u), 1 (d)。他选择。他选择 d发送者发送发送者发送R的收益分别为的收益分别为: 0 (t1), 1 (t2)如果发送者在如果发送者在t1时发送时发送L, 收益至少为收益至少为1。不构成均衡。不构成均衡。3403. 分离分离 (L, R)?发送者发送者: (L, R). 接收者推断：接收者推断：p = 1, q = 0接收者战略接收者战略: (u, d)。发送者的收益分别为：发送者的收益分别为：1 (t1, L), 1 (t2, R)但是对但是对t2, 如果发送者发送如果发送者发送L, 接收者选择接收者选择u, 发送者的收益将发送者的收益将为为2。发送者在发送者在t2时，将发送时，将发送R不是均衡。不是均衡。3414. 分离分离 (R, L)?发送者发送者: (R, L)。接收者推断：接收者推断：p = 0, q = 1，战略：，战略：(u, u) 发送者的收益分别为：发送者的收益分别为：2(t1, R), 2 (t2, L)如果发送者不这样如果发送者不这样, 收益将为收益将为 1(t1发送发送L)，和，和1(t2发送发送R)。分离精炼贝叶斯均衡分离精炼贝叶斯均衡: (R, L), (u, u), p = 0, q = 1 3422024/9/5343

展开阅读全文

博弈论经典课件

最新文档