博奕论讲稿(上海财大施锡诠).ppt

上传人:汽*** 文档编号:567631030 上传时间:2024-07-21 格式:PPT 页数:234 大小:3.22MB
返回 下载 相关 举报
博奕论讲稿(上海财大施锡诠).ppt_第1页
第1页 / 共234页
博奕论讲稿(上海财大施锡诠).ppt_第2页
第2页 / 共234页
博奕论讲稿(上海财大施锡诠).ppt_第3页
第3页 / 共234页
博奕论讲稿(上海财大施锡诠).ppt_第4页
第4页 / 共234页
博奕论讲稿(上海财大施锡诠).ppt_第5页
第5页 / 共234页
点击查看更多>>
资源描述

《博奕论讲稿(上海财大施锡诠).ppt》由会员分享,可在线阅读,更多相关《博奕论讲稿(上海财大施锡诠).ppt(234页珍藏版)》请在金锄头文库上搜索。

1、博弈论主讲施锡铨2004年3月第一章 引论应用及例题基本理论博弈论关注的是互相依存(interdependence)每一个体猜测其他个体的选择是什么?每个人将采取什么样的行动?(当最优的行动依赖于其他人的所作所为时,这个问题尤其令人关注。)这些行动产生什么样的结局?对于整个群体,这个结局好吗?如果群体不止一次地互相作用,会有任何差异吗?如果每一个体对群体内其他个体的特性没有把握,答案将发生怎样的变化?取自经济学,政治学,财政金融,法律,甚至日常生活中的若干相互依存性事例艺术品拍卖(诸如在克里斯蒂(Christie)或索士比(Sotheby)拍卖行,那里待售出自布拉克(Braque)直至维罗内塞

2、(Veronese)的艺术品)和债券拍卖(美国财政部为筹措联邦预算支出,以这种方式出售政府公债) 。联合国的选举( 例如,选举新的联合国秘书长)。动物争斗(争夺良好的栖息地以及种类中稀少的发情期雌性动物,等等)。自然资源的可持续使用(像石油那样的可耗尽资源或像森林那样的可重建资源的提取形式)。运动会和工作场所的随机药物检测(选取少量运动员和工作人员进行核实使用违禁药物的测试)。破产法(详细说明在什么时候和有多少债权人可以从已破产的公司那儿收账)。“毒药”条款(该条款给予管理部门一定的权限以抵制不受欢迎者试图接管或兼并他们的公司)R&D开支(譬如,制药公司的研究开发费用)第一次世界大战的壕沟战(

3、在法德之间的边界地区,当军队连续数月地互相对峙时,掘进到敌方的战壕里去)OPEC(石油卡特尔,控制着世界石油产量的一半,因此,在决定人们支付油价方面拥有重要的发言权群体项目(诸如为你们的博弈论课程准备案例研究)博弈论博弈论分析在一群举止行为颇具策略的理性人之间的相互作用的正规方法。博弈论博弈论是考虑以下每一项条款的正规方法:群群体体在任何博弈中有不止一个决策者;每一个决策者称为局中人相相互互作作用用任何单个局中人的行为直接影响到群体内至少一个其他的局中人。策策略略单个局中人在决定自己所取的行动时,会考虑到相互依存性。理性理性在考虑到这种相互依存性时,每一个局中人会选择自己的最优行动。来自日常生

4、活中的例子来自日常生活中的例子致力于一项群体项目,为博弈论课程准备案例研究:“群体”包括一起做案例的学生。他们之间的“相互作用”来自于这样的事实:为了写一篇论文,需要付出一定的工作量;因此,如果一个学生偷懒,另外的某个人在论文到期前的夜晚不得不投入额外的几个小时。“策略”运用包含了估计群体内总想占别人便宜者的可能性,“理性”参与需要对较好分数的好处与额外工作的成本仔细地进行比较。(奥林匹克运动会中)中随机药物检测:“群体”由比赛运动员和国际奥林匹克委员会(IOC)组成。“相互作用”是两方面的,一方面是运动员之间的相互作用他们做出在训练安排中和不管什么情况下一样服禁药的决策;另一方面是在运动员与

5、IOC之间的相互作用,后者需要维护运动的声誉。“理性策略”的应用需要运动员根据获胜的机会以及如果服用了兴奋剂之后被逮到的机会之间进行比较而作出决策。类似地,它要求IOC根据检测成本和清白声誉的价值而制定药物检测的程序和相应的惩罚措施。经济与财政金融的例子经济与财政金融的例子制药公司的R&D效果:某些评估表明,研究与开发(R&D)经费支出占美国制药公司年销售额的20%之多。以及平均来说,一种新药的开发成本大约为3亿5千万美元。公司自然关心诸如资金投入哪一条生产线,新药定价应多高,如何缩减与新药开发相伴的风险,等等问题。在这个例子中,“群体”是药物公司全体组成的集合。“相互作用”起因于药的最先开发

6、者将获得最大的收益(由于专利权的缘故)。如果R&D经费的选取大小使得在确知竞争者对这条新药生产线进行投资的前提下能最大化从新药开发中得到收益,那么“R&D”经费是策略性的和是理性的。债券拍卖:正常情况下,美国财政部通过拍卖形式处理政府证券*。主要的投标人是投资银行,如莱曼兄弟(LehmanBrothers)或摩里尔林奇(MerrillLynch)等(他们转而将证券出售给他们的客户)。因此,“群体”就是投资银行组成的集合。(实际上,从一次拍卖到又一次拍卖,这些投标人极少发生改变。)他们“互相作用和影响”着,因为其他人的标价决定了一个投标人是否分配到任何债券,也可能决定了投标人支付的价钱。如果投标

7、基于可能的竞争上和在支付太多与得不到任何债券的风险之间达到适当的平衡,那么,“出价”是“理性的”和“策略的”。*这些证券是公债和国库债券,以及公共部门(或者他们的代理人,例如共同基金信托公司或养老基金等)所拥有的准金融债券。这些证券承诺在一个固定的周期(譬如,三个月,一年,或五年)后支付一笔钱。另外,他们也可能承诺在证券有效期内定期地支付固定额的钱款。来自生物学与法律方面的例子来自生物学与法律方面的例子动物习性:刚过去的25年里,博弈论更吸引人的应用之一已经深入生物学领域,特别是关于动物之间争斗和竞争的分析。通常野生动物不得不为了稀少资源(诸如具繁殖能力的雌性动物或者动物的尸体)而竞争;于是,

8、为了发现这些资源或者为了从发现者那儿夺取资源,它们会有所付出。问题在于这种做法会导致代价昂贵的争斗。这里,“局中人群体”是眼睛盯着同一猎物的所有动物。由于资源的有限性,它们互相影响着。假如它们考虑竞争对手做出反应,选择就是“策略”,如果由于这种“策略”满足了它们的短期目标,譬如解决了饥饿,或者满足了它们的长期目标,譬如保持了物种的繁衍不绝,这样的选择是“理性的”。破产法:在美国,一旦公司宣告破产,它的财产不再由单独的债权人扣押,而代之以安全保管,直至公司与它的债权人达成某种程度的谅解。但是,债权人可以在破产宣告之前促使法庭去收帐(虽然通过这种做法债权人可能逼迫公司陷入破产)。这里,债权人“群体

9、”内的“相互作用”来自于这样的事实:个别债权人能够成功地依法占有的钱就不再可能属于其他任何一个人。“策略”的选取需要估计其他债权人可能有多大耐心,而“理性的”选择包含了在早收账与逼迫公司不必要的破产之间的权衡。例题1. 1. 拿子游戏拿子游戏 (Nim(Nim和和Marienbad)Marienbad) 这是两个室内游戏,玩法如下。有两堆火柴,和两个局中人。游戏从局中人1开始,此后局中人轮流行动。在每个局中人的轮次里,他可以从两堆火柴的任一堆中拿走任何数量的火柴。只要任何一堆中尚有剩余的火柴,则要求每个局中人拿走一定数量且不能空手而返,但每个轮次只能从一堆中取火柴。在“拿子游戏”Nim中,无论

10、那个局中人,取走最後火柴者算赢。而在Marienbad,谁拿走最后的火柴,那么这个局中人就算输。2. 2. 投票投票假设有两个竞争议案,这里表示为与,3个议员,投票人1,2和3,他们投票决定是否通过这些议案。结局可能会是两种中的某一个:要么通过和中的一个,要么议员们没有通过任何一项议案(延缓而以原来法律代替)。投票过程如下:首先,让议案A与议案B互相竞争;然后,竞争的获胜方与原来法律互相竞争,为简便起见,我们将原法律称为“都不赞成”(或者N)。在两轮投票中的每一轮,获多数票的法案算胜出。三个议员在可适用的选择中有如下偏好:投票人1:投票人2:投票人3:(这里, 表示“喜欢议案A甚于喜欢议案B”

11、)3. 3. 囚徒困境囚徒困境克雷卡尔文认罪不认罪认罪5,50,15不认罪15,01,1总总 结结1.博弈论是研究相互依存性的。它研究局中人群体中的互相作用,这些局中人根据策略地分析群体内其他人可能做什么而进行理性的选择。2.博弈论可以应用于诸如自然资源的使用,选取联合国秘书长,动物习性,和OPEC的生产策略等广泛不同的问题。3.博弈论的创建追溯到150年前。但是,学科的主要发展是近代的,大约在最近50年期间,使得博弈论成为经济学与数学范围内最年轻的学科之一。4.如拿子游戏和囚徒困境这种博弈的策略分析可以揭示理性局中人将达到的结局。对于整个局中人群体来说,这些结局并不总是称心的。博弈的规则:每

12、个博弈通过一组规则进行,规则必须说明四件事:“谁谁”(Who)在参与策略地互相作用的局中人群体。他们以“什什么么”(What)来参与每个局中人可使用的策略供替代的行动或选择。每个局中人“何时何时”(When)行动(以什么顺序)从参与博弈所作的选择中,他们得到(或失去)“多少多少”(Howmuch)关于规则的共同知识关于规则的共同知识每一个局中人知道博弈的规则,并且这一现象是众所周知的。“谁”,“什么”,和“何时”:展开型展开型展开型规则的一种图形表示式。主要的画图形式称为博弈树,是由一个根和若干枝依次排列组成。信息集和策略在展开型里怎样表示同时行动局中人1局中人2cnccnn信息集信息集决策结

13、的集合,局中人不能区分这些决策结策略策略局中人的策略是指在局中人需要做出选择的信息集处可采取的行动。策略是行动的蓝图,在每一个决策结告诉局中人如何去选择。由于局中人在任何一个信息集里不能区分决策结,策略详细说明了在每一个结所做的行动。正则(或策略)型博弈规则中另一种表示方式称为正则型正则型或策略型策略型策略型策略型有关“局中人,他们每一个人可使用的策略,和每人的得益”的完整的一览表。sssssbsscbbsccbccscccbN,TN,TN,TT,NN,TN,TN,TcT,NT,NT,NT,NT,NT,NT,NsT,NT,NN,TT,NT,NT,NN,T局中人2局中人1冯诺伊曼摩根斯坦效用函数

14、拿子游戏拿子游戏 Nim假设在一堆中有2根火柴,在另一堆中有1根火柴。记这个布局为(2,1)。与赢相联的盈利数必定高于对应于输的盈利数;假设这些数分别为1与-1。局中人1局中人11,-11,-1-1,1局中人2(0,0)-1,11,-1(2,1)(0,1)l局中人2(1,0)(0,1)(1,1)(1,0)(2,0)rLuRdm策略型表示式如下:1/2lLlRrLrR u1,-11,-11,-11,-1 m-1,1-1,1-1,1-1,1 d1,-1-1,11,-1-1,1投票博弈投票博弈假如一个投票人所赞成的议案通过,她得到的盈利为1。如果她的第二个选择通过,则盈利为0,如果她最不赞同的抉择通

15、过,此时她的盈利是-1。投票人2投票人3投票人1ABBBBBABAAABAA投票人1投票人2投票人3ANNNNNAAAANANA0,-1,11,0,0囚徒困境囚徒困境局中人1局中人2cnnc-5,-50,-15nc-15,0-1,-1博弈的展开型 策略型12cnc-5,-50,-15n-15,0-1,-1总总 结结1博弈规则必须明确说明局中人是“谁”,每个局中人可使用的选择是“什么”,和从局中人群体所作的一组选择中,每个局中人得到“多少”。2博弈规则有两种主要的表示式,展开型和策略型。3展开型是博弈的图形表示,它明确地说明了局中人选择的顺序,每个局中人有多少次选择(以及每次她可适用的选择),和

16、对于任何选择序列每个局中人最终的盈利。4策略型是这样的表示式,其中明确地说明了局中人的选择(策略)和每组选择集带来的的盈利。你可以把策略型视为博弈型式,局中人对所有的策略只做一次选择的。5博弈中的盈利应当被视为冯诺伊曼-摩根斯坦效用。对于不确定情况,盈利应当在不确定性的所有可能解上取期望值而计算得到。第2章 策略型博弈策略型博弈案例:艺术品拍卖的策略型艺术品拍卖的策略型占优策略解案例研究续:拍卖中的占优策略策略型博弈博弈的策略型由三项内容所确定:1.博弈中局中人的名单.2.每个局中人可使用的策略集.3.与任何策略组合(每个局中人一个策略)相对应的盈利.盈利是冯诺依曼-摩根斯坦效用。最简单的博弈

17、类型是两个局中人有两个策略的博弈。策略型 : 局中人2 北南局中人1 高1 , 21 , 2(高,北),(高,北)(高,南),(高,南)低1 , 21 , 2(高,北),(高,北)(高,南),(高,南)当局中人多于两个,以及每个局中人有两个以上的策略时,对策略型的三个分量使用下述符号:局中人将标记为1,2,N。一个局中人代表将表示为第i个局中人。局中人i的策略通常表示为si,一个特定的策略表示si*或si#。除了局中人i以外的所有其它局中人的策略选择记为s-i。i 将表示局中人i的盈利(或冯诺依曼-摩根斯坦效用)函数。对于策略组合,s1*,s2*,sN*,其中每一个局中人相应于一个策略,局中人

18、i的盈利将表示为i (s1*,s2*,sN*)。囚徒困境囚徒困境 (c = 认罪,认罪,nc = 拒绝认罪)拒绝认罪)卡尔文克雷cncc0,07,-2cn-2,75,5性别争端(性别争端(F = 足球,足球,O = 歌剧)歌剧)丈夫妻子FOF3,10,0O0,01,3抛硬币打赌(抛硬币打赌(Matching pennies)( h = 正面正面, t = 反面反面)局中人1局中人2正面反面正面1,-1-1,1反面-1,11,-1 鹰鹰-鸽(或懦夫博弈)鸽(或懦夫博弈)(t = 强硬强硬, c = 退让)退让)局中人1局中人2tct-1,-110,0c0,105,5投票投票对每一个投票者,在这个

19、博弈中的策略有三个部分:在第一轮中如何投票和第二轮中如何投票,而在第二轮中的投票本身有两个分量。第一个分量是,如果议案A在第一阶段通过后在第二轮中投票人如何投票,第二分量是,如果(在第一轮中)议案B通过后,该投票人又将如何投票。特别地,每个投票人有下述8个策略可供选择*。AAN;AAB;ANB;ANN;BAN;BAB;BNB;BNN;*当然,投票人知道她在第一轮中自己是怎样投票的。原则上,她的策略也可以根据这个信息。目前我们将略去这种复杂性,因为这样的话,每一个策略中分量的个数将增加到5替代原来的3。(为什么?)与展开型的等价性两种表示博弈的方式是等价的:每一个展开型博弈可以写成策略型且反之亦

20、然。案例:艺术品拍卖的策略型案例:艺术品拍卖的策略型艺术品拍卖:描述艺术品拍卖:描述假如我们被带入位于纽约洛克菲勒中心的索士比派克伯尼特的大型拍卖场之一。拍卖商站在房间前面的讲台上。她的旁边有一对随从举着待拍卖物件的影像。设想待拍卖的物件是雷诺伊(Renoir, 18411919)的一组绘画;你很想拥有标号为“#264”的那件可爱的咖啡吧景色。你必须开始做如下的事。注册:如果你打算投标,必须在商品展销室的入口处注册。那里你将得到一块写有编号的拍卖牌。(为了注册,恐怕你需要一张信用卡。)出价程序:一旦轮到标号#264,“你出价所必须做的就是举起你的拍卖牌并等待拍卖商理会你,你不必叫出你出价的数通

21、常由拍卖商以10%的增量自动确定高一些的出价。你不必坐的毕恭毕敬;抓耳挠腮不能算作为一个出价(除非你与拍卖商事先就做了安排)。如果没有人超过你的出价,就是说,没有其他的拍卖牌举起,那么拍卖商敲下小木槌以结束拍卖。”艺术品拍卖:策略型艺术品拍卖:策略型局中人:注册的那些人策略:考虑局中人策略的一个简单方法是认定局中人愿意举牌的最高价。结局:最后一个举牌的拍卖者赢得雷诺依作品(抓耳挠腮者不能得到)。盈利:赢者将付多少钱?占优策略解定定义义.如果不管其他局中人选择什么样的策略,局中人i的策略si的盈利严格地大于他的所有其他策略的盈利,换言之,i (si,s-i)i (si,s-i)对一切si和s-i

22、成立其中s-i是除了局中人i以外的其他局中人选择的策略向量。那么我们称策略si强优于局中人i的所有其他策略.考虑局中人1,我们称该局中人的策略b记作s1b优于其他策略s1a,意指针对局中人2的两个策略来说,s1b比s1a更好一些;于是1(s1b, s2a)1(s1b,s2a)1(s1b,s2b)1(s1a,s2b)第一个不等式指出了,如果局中人2采用了他的第一个策略,那么s1b比s1a产生较高一些的盈利;第二个不等式指出了即使局中人2选择他的第二个策略,同样的事实也成立。定定义义. 如果局中人i的策略si,对于其他局中人的每一个策略来说,至少与他的另一个策略s#i一样地好,而对于其他局中人的某

23、个策略来说,si严格地好于s#i,即则称策略si(弱)优于策略s#i。在这种情况,我们称s#i为劣策略。如果si弱占优于其他任何一个策略si,那么si被称为弱占优策略*。*同样的定义应用于强优。如果公式3.1中令si =si#,称策略si强优于策略。于是策略si#称作强劣的。占优策略解占优策略解当每一个局中人都有占优策略时,博弈就有一个占优策略解占优策略解。一个策略的组合,如果每一个局中人的策略都是占优策略,那称这个策略的组合为占优策略解。例如,囚徒困境中(认罪,认罪)构成了一个占优策略解。左右顶7,35,3底7,03,-1案例研究续:拍卖中的占优策略竞拍人以她对雷诺依作品的真实估价作为她的最

24、高叫价的策略是一个占优策略。不管其他竞拍人怎样叫价,你所能做得最好的办法是,以你认为画所值的价格作为叫价来。从不同的方式讲,如果你认为画值3000美元,你最好的办法是闭上你的眼睛,举着你的拍卖牌直到听到拍卖商宣布的叫价高于3000美元为止为什么它是个占优策略,与其他几个策略作比较。假使你决定“节省你的出价”,并且在2500美元处放下拍卖牌。有两种可能的情况。一种情况是,还有某些人最高叫价超过3000美元,其次,若最高叫价即赢得雷诺依作品的叫价是2700美元。现在,你感觉自己象个傻瓜!你失去了一幅估价为3000美元的画,而你用(稍高于2700美元)就可以拥有它。3000美元的最高叫价比起2500

25、美元的叫价来决不会差些而有时候严格地更好一些。总总 结结1.策略型博弈由局中人的名单,每个局中人可使用的策略,和关于任何策略组合(一个策略对应于一个局中人)的盈利来描述。2.每当博弈中有两个局中人,策略型可以很方便地表达为盈利矩阵。对于更多的局中人情况,符号表示式更方便一些。3.每一个展开型博弈可以表示成策略型。每一个策略型博弈至少有一种展开型表示。4.不管其他局中人如何做,占优策略比其他每一个策略给出较高的盈利。5.当每一个局中人都有占优策略时,博弈存在占优策略解。6.艺术品拍卖可以建模为策略型博弈,真实地叫价是该博弈的占优策略解。第三章占优可解性概念1.劣与非劣策略劣与非劣策略2.累次剔除

26、劣策略累次剔除劣策略案例研究:选举联合国秘书长更正式的定义讨论概念概念1.劣与非劣策略定义。定义。策略s#i 劣于另一个策略s-i,如果对于其他局中人的每一个策略,后者与s#i 至少一样好,而对于其他局中人的某些策略,si严格地好于s#i,以致如果一个策略不劣于任何其他策略,则称它为非劣非劣策略策略。将劣策略认为“坏”策略,而将非劣策略认为“好”策略2. 累次剔除劣策略累次剔除劣策略局中人1局中人2左(L)右(R)上(U)1,10,1中(M)0,21,0下(D)0,-10,03 .更多例题更多例题例例1: 伯川德(价格)竞争伯川德(价格)竞争 假设双寡垄断市场中的两个公司都可以开出三个价格中的

27、任一个高,中或低。进一步假设不管哪个公司开价较低的话就可以得到整个市场。如果两个公司开价相同,他们将平分市场。这些假设和任何的价格对转换成两个公司的收益水平。例如,对于公司1,只有当它的价格不高于公司2的价格,才能有所收益。假定收益由如下盈利矩阵给出公司1公司2高中低高6,60,100,8中10,05,50,8低8,08,04,4剔除“高”策略后,留给我们如下盈利矩阵公司1公司2中低中5,50,8低8,0,4,4例例3:投票博弈:投票博弈投票博弈:采用多数规则,三个投票人挑选两个议案A或B中的一个。通过了第轮的方案再面临与维持原状N(“都不”)进行决赛。三个投票人的真实偏爱如下:投票人1:投票

28、人2:投票人3:每一个策略有三个分量:策略A(后面跟)AN是指“投A的票而反对B,然后在第轮中投A的票(反对N),或投N的票(反对B)。”至于盈利,让我们使用约定,如果他最愿意的方案通过,则获盈利1,第二喜欢的通过,盈利为0,如果第三喜欢(即,最不喜欢)方案通过,则他的盈利为-1。在第轮中真实地投票优于非真实性投票;于是,对投票人1来说,AAN优于ANN,ANB,和AAB。类似地,BBN优于BNN,BNB,和BAB。由同样的逻辑推理,对于局中人2,作为第轮中的投票策略,AB优于NB,NN,和AN;对局中人,第轮的投票策略NN优于其他策略。可以看到如果投票人在第轮中真实地投票,那么在那个阶段,A

29、击败N,而B输给N。剔除了(第轮非真实的)劣策略后,策略型如下投票人采用ANN投票人投票人AABBABAAN1,0,01,0,0BAN1,0,00,-1,1投票人采用BNN投票人投票人AABBABAAN1,0,01,-1,1BAN0,-1,10,-1,1现在看到,对局中人,AAN优于BAN,对局中人AAB优于BAB,而对局中人,BNN优于ANN。从而,我们得到了IEDS结局为:投票人取AAN,投票人取AAB,投票人取BNN,A(以票)赢得第轮,而在决赛中继续击败N。案例研究:选举联合国秘书长考虑有两个投票人的选举假如为美国与非洲。投票人1美国首先投票并着手否决三个候选人A(安南),B(加利),

30、和H(布鲁特莱特)中的一个。然后,投票人2非洲否决两个余下的候选人中的一位。假如美国和非洲关于三个候选人的中意顺序如下:美国:非洲:非洲HAAHHAHABHHBBAABHABABBHB美国A-1,1-1,1-1,1-1,11,-11,-11,-11,-1B1,-10,01,-10,01,-10,01,-10,0H-1,1-1,10,00,0-1,1-1,10,00,0在一轮剔除之后,实际上的博弈成为:美国非洲HHAA-1,1B0,0H-1,1占优可解性的更正式的定义考虑有N个局中人的策略型博弈;局中人i的策略用si来表示;令Si表示局中人i的策略集。在第轮,局中人i的劣策略集表示为 Di(I)

31、,换言之, Di(I)= siSi: si是劣策略理性的局中人不会采用劣策略。就是说,不启用 Di(I)中的策略,这对i=1,2,N均成立。进入第轮,局中人i可以在留给自己的策略集SiDi(I)中作进一步的决定,看看它们当中是否又有哪些现在成为劣策略了。一个策略si# 现在成为劣的,是指:假定每一个其他局中人也都在第轮中剔除了劣策略之后,在SiDi(I)中存在另外一个,它始终至少与si#一样地好,而在某些时候严格地好于si#。于是,其中,S-iD-i(I)是除了局中人i以外的所有局中人的非劣策略组合的集合 1。记局中人i在第轮中或者在第轮中为劣的所有策略的全体为Di()。一旦知道了没有一个局中

32、人会采用属于Di()中的策略,继续剔除任何这样的步骤,现在又成为劣的那些策略。通过这种做法,又建立了一个在前三轮中为劣策略的集合;称这个集合为Di()。如此等等。1尤其S-i D-i(I)包含了策略向量(s1, , si 1, si + 1, , sN),其中每一个策略sj都是非劣的。假如我们最终达到这样一个状态,剩给每一个局中人的只有一个策略,即,假定经过T轮剔除之后,剩下的集合Si Di(T),恰好包含了一个策略,并且这一事实对i=1,2,N都成立。在那种情况,这些每个人剩下的单一策略构成的向量称为累次剔除劣策略(IEDS)的结局,该博弈则称为占优可解的。假如这样的情况不发生如果在某一轮,

33、对某些局中人,尽管仍然留下多个策略,但是没有更多的策略可以被剔除博弈就称为没有IEDS解。没有人会采用劣策略是合理的假设。没有局中人会采用,那些一旦其他的劣策略被剔除之后成为了劣策略的策略,这件事看来也是合理的。没有一个局中人会采用只是在15轮剔除劣策略之后才转变成的劣策略,这件事似乎就不太合理。这是因为它假定,每个人都同意在连续(14次)高次数地剔除行动中所有的人都是理性的。如果其他局中人某一次理性的“失误”可能代价昂贵的话,这尤其成问题。考虑下述博弈:12左中心右顶4,51,65,6中间3,52,55,4底2,52,07,0理性的层次理性的层次剔除的顺序剔除的顺序(和非唯一的结局)当策略是

34、劣的但不是强劣的,剔除的顺序就要紧了。考虑下面的博弈。12左右顶0,00,1底1,00,0不存在性。不存在性。不是所有的博弈都是占优可解的。例如,在性别争端、扔硬币打赌和布鲁特上校中,不存在劣策略,因而,不存在IEDS结局。在以下博弈中,每一个局中人都有一个劣策略“差”可是在剔除那个策略后留下来的是一个只有非劣策略的22博弈。12左中差顶1,-1-1,10,-2中-1,11,-10,-2差-2,0-2,0-2,-2总总 结结1.没有一个理性的局中人会采用劣策略,他宁愿采用一个非劣的策略。而且一个理性的局中人不认为他的对手会采用劣策略。2.劣策略的剔除可以导致一系列连锁反应,逐步缩小一组局中人采

35、取行动的范围。如果存在一个最终唯一预测,则称它为IEDS解。3.当在IEDS解中包含有许多轮次的剔除时,有理由去关心其预测的合理性。第4章纳什均衡定义例题案例研究IEDS和纳什均衡之间的一般关系局中人i的策略与其他局中人的策略向量,如果它们满足对所有si,则称是关于的最优反应。策略向量s* = s1* , s2*, sN*, 如果满足条件: 对所有i与所有si则称s*是纳什均衡。 定义:定义:性别争端性别争端丈夫妻子足球(F)歌剧(O)足球(F)3,10,0歌剧(O)0,01,3伯川德定价伯川德定价公司1公司2高(H) 中(M) 低(L)高(H)6,60,100,8中(M)10,05,50,8

36、低(L)8,08,04,4案例研究:动物王国中的纳什均衡荒漠蜘蛛的故事,雌蜘蛛在网里产卵,由于这样的网很难搭建,因此,网是稀少的。生物学家看到雌蜘蛛经常为已有的蜘蛛网争斗或者几乎是争斗;两只雌性并排在网前,并且作出诸如猛烈地摇晃网这样的威胁姿态(虽然它们很少有真正的肉体接触),当一只蜘蛛撤退而留下另一只单独地占有蜘蛛网时,冲突就得到了解决。生物学家试图解释有关动物争斗的两个特定程式的事实:1.多数冲突无需战斗而得到解决。此外,冲突的胜利者常常从失败者那儿“以不同的方式获得”某种维持生命必需的东西。2.当奖励较高时,战斗的可能性更大。蜘蛛1蜘蛛2认输(c)战斗(f)认输(c)5,50,10战斗(

37、f)10,0x,xIEDSIEDS和纳什均衡之间的一般关系和纳什均衡之间的一般关系命题命题考虑任何具有IEDS结局的博弈。必定是这样的情况:IEDS结局是纳什均衡。但是,不是每一个纳什均衡可作为IEDS结局而得到。总总 结结1.如果关于对手的策略选择,局中人i的一个策略选择为他产生了最高可能的盈利。那么,这个策略选择就是关于对手该策略选择的最优反应。2.如果在一个策略组合里,每一个局中人的策略选择是关于他对手选择的最优反应。那么这个策略组合是纳什均衡。3.在所有的博弈理论中,纳什均衡是最普遍的求解方法。它可以有各种各样的方式来产生。4.纳什均衡已经被用来解释野生世界动物之间的可观察到的习性形式

38、。5.任何IEDS解必定是纳什均衡,但是,存在着可能不是IEDS解的纳什均衡。6.同样的事情对于占优策略解是真实的;它一定是纳什均衡,但相反的含义未必成立。第第5 5章章应用:古诺特双头卖主垄断应用:古诺特双头卖主垄断基本模型基本模型古诺特古诺特- -纳什均衡纳什均衡卡特尔解卡特尔解基本模型古诺特提出的模型中,两家公司关于同类产品在市场上竞争。两家公司在市场上面临单纯的需求曲线,假设需求曲线为Q = P其中0,0。而Q= Q1+Q2是由公司1和公司2生产的总量。需求曲线的另一种理解方式是,如果Q=Q1+Q2是双寡头自身之间生产的量,由此产生的价格是我们通过记和来简化这个(逆)需求曲线的表达式;

39、即,从这个观点出发我们将使用的逆需求函数为P =ab Q假设每家公司的成本函数相同,并且每单元成本不随生产的单元数变化。更正规一些,每家公司具有常数边际成本函数;生产数量Qi的成本为cQi,其中c0是常数边际成本,i=1,2。每家公司将生产多少?为做出该决策,每家公司必须采取两步:1. 对另一家公司的生产量进行预测。这一步将给于公司一个有关可能的市场价格的想法;例如,如果它认为对手将生产大量产品,那么,不管它自己生产多少,价格将偏低。2.决定生产的数量。为做出这个决定,公司必须权衡从增加产量得到的好处那样,它将出售较多产品以及这样做所需要的成本即,这些大量的产品将以较低价格出售(而它们不得不以

40、较高的总成本生产)。当两家公司满意地解决了这两件事时,将得到工业范围的或纳什均衡。古诺特-纳什均衡最大化利润的生产量公司1最优反应函数卡特尔解作为对比,如果两个公司如卡特尔那样地运作,即,如果它们对于它们的生产决策进行协调,我们来计算它们将生产的产量,如果公司经营为卡特尔,可以合理地假设它们以最大化它们的联合利润或总利润这样的方式来设置生产目标。预先指定生产“配额”为Q1与Q2;它们的选择是使得总利润最大化:每家公司的价格每家公司的生产数量利润注意到如果公司如卡特尔那样经营,它们比起在纳什均衡里的产量生产得少一些;卡特尔的产量是古诺特-纳什均衡产量水平的75%。在纳什均衡中,两家公司比起它们象

41、卡特尔那样经营来利润较低(因为在纳什均衡里,它们过度地生产)。第6章应用:公共问题公共问题公共问题简单的模型简单的模型社会最优性社会最优性 在人口众多时问题更糟在人口众多时问题更糟 公共问题存在着两个关键性的特征:(几乎)每个人的享用。限制享用是行不通的(考虑环境问题)和不可取的(考虑国家公园)。资源枯竭。使用资源的人越多或者每个人使用资源越密集未来的资源就越少。简单的模型简单的模型假如我们有大小为y0的公共财产资源。两个局中人中的每一个可以提取一个非负量c1或c2用于消费,当然,假设c1+c2y。在他们试图过度消费的事件中,假定总量简单地由他们平分;即,每个人最终消费y/2。当总的消费量少于

42、y时,剩余量y (c1+ c2),形成了未来资源的基底,未来的消费出自于这个量。为使事情简便,将未来紧缩成恰好还有一个周期的消费;即,在这个模型中有两个时间周期。在第2个周期中,每一个局中人必须确定从可利用量 y(c1+c2)内有多少可供消费。因为再也没有下面的周期了,因此没有理由对在第2周期可用的量节省任何部分。于是每个局中人将乐意尽可能多地消费,因而,在第2周期,他们平分余下的总量每个人得到 。我们回到第1周期,如果局中人1消费c1,他这样做的效用将取为logc1,局中人1必须确定他从资源的可利用储备中可以消费多少。他的效用依赖于局中人2选择的消费量,因为后者(部分地)决定了剩下来的资源基

43、底的大小。如通常情况,局中人1对局中人2的消费有个猜测,并且在该基础上决定他自己的消费水平。换句话说,局中人1的最优反应问题是局中人1的最优反应消费量是同样的推理,求出局中人2的最优反应函数或纳什均衡为c1*=c2*=y/3社会最优性定定义义消费模式,如果它们使两个局中人的效用之和最大化,即,如果它们是下述问题的解:则称是社会最优的。这种方法可求得社会最优解为。在这种情况,正好一半资源用于第1个周期与纳什均衡相比,那里用于第1个周期的资源有三分之二之多。在该意义下,在纳什均衡中我们对资源存在过分地榨取;即,我们经受了公共问题的悲剧。在人口众多时问题更糟如果局中人1猜测其他人在第1个周期消费的量

44、将是,那么他的效用-最大化消费由下列最优化问题确定:纳什均衡在纳什均衡中的总消费量是 。结果,在第1周期后留下的量是y/(n+1)。当N变大时,第2周期可使用的资源量变得微乎其微。在人口众多的情况下加剧了公共问题的悲剧。 第7章混合策略定义定义含义含义混合策略可以优于某些纯策略混合策略可以优于某些纯策略混合策略能虚张声势混合策略能虚张声势混合策略和纳什均衡混合策略和纳什均衡定义假设局中人有M个纯策略,s1, s2,sM。这个局中人的一个混合策略是分布在他的纯策略上的概率分布;即,它是一个概率向量(p1,p2,pM),其中pk 0,k=1,2, M,且特别简单的混合策略是每一个纯策略为等可能的,

45、即 。计算期望盈利分两步走:第一步,对每一个纯策略的盈利使用采取该策略的概率进行加权。第二步,把加权了的盈利合计在一起。定义定义现在假设其他局中人也采用混合策略;假如,以概率q取策略s#-i,而以概率1q采用策略s*-i。那么局中人i的期望盈利等于讨论使用混合策略而不使用纯策略的含义定义定义。考虑由概率向量(p1,p2,pM)给出的混合策略。这个混合策略的支撑由所有那些(在这个战略行动中)具有正概率的纯策略构成。一个混合策略的期望盈利就是组成这个混合策略支撑部分的纯策略盈利的平均值。如果这个支撑中每一个纯策略的盈利不相同,那么剔除具有最高盈利的纯策略之外的所有其他纯策略必定可以提高平均数,即,

46、必定增加期望盈利。换句话说,如果策略s1和s3对于s#-i可产生最高盈利,那么,只包含这两个纯策略的混合策略将比也包含了策略s2,s4,sM在内的任何一个混合策略产生更高的盈利。含义。含义。(a)混合策略(p1,p2,pM)是关于s#-i的最优反应,当且仅当它的支撑中的每一个纯策略本身是关于s#-i的最优反应(b)在那种情况,在这个支撑上的任何混合策略都是最优反应。混合策略可以优于某些纯策略混合策略可以优于某些纯策略混合策略能虚张声势混合策略能虚张声势 混合策略和纳什均衡混合策略和纳什均衡没有混合策略,纳什均衡未必一定存在。第8章零和博弈1.1.定义和例题定义和例题 2.2.稳妥地参与:最大最

47、小稳妥地参与:最大最小3.3.充分地参与:最小最大充分地参与:最小最大4.4.实实施施纳纳什什均均衡衡策策略略:既既稳稳妥妥又充分地参与又充分地参与1.零和博弈零和博弈是这样的一个博弈,不管两个局中人采取的是什麽样的策略向量,他们的盈利总是相加为零;就是说,对所有的策略s1和s2,成立1(s1,s2)+2(s1,s2)=0在(两人)零和博弈零和博弈中,局中人2的盈利正好是局中人1的盈利的负值。例例1: 1: 扔硬币打赌扔硬币打赌12LCRU5,-58,-84,-4M-7,79,-90,0D9.-91,-1-2,2例例2: 2: 壁球壁球 12向前(F)后退(B)前面(f)20,8070,30后

48、面(b) 90,1030,70在每一格中,分别为局中人1和局中人2赢的百分比。例2是从任何角度都很象零和博弈的一类博弈中的一个例子。这类博弈称为常数和博弈常数和博弈。在这类博弈中,两个盈利合计总是等于常数。2. 稳妥地参与:最大最小地参与:最大最小在零和博弈中,当且仅当局中人1干得差时,局中人2干得好。对于任意策略s1,存在局中人2可以选择的策略b(s1) ,使得他的盈利可能最高而同时使得局中人1的盈利最低。策略b(s1) 形式上定义为 在传统方法中,局中人1认定,不管她采取何种策略,局中人2将正确地预测并且采取一个(使局中人1)最差或赢利最小化的策略b(s1)。因此,为了有把握(或稳妥)地参

49、与,局中人1应该取策略s1,它使局中人1最差情况下的盈利比起她采取其它任何一个策略的最差情况盈利要好一些。在选择自己最好的“最差盈利”时,重要的是局中人1完全有理由同时考虑混合策略。毕竟,回想起当我们研究壁球游戏时,我们发现稍许有点虚张声势会使局中人得处境好一些;如果她击球落点是在球场前面和后面之间的混合,她赢的百分比就会高一些。现在我们来给出保证盈利(或者最差情况下的最高盈利)的正式定义。这个盈利称为最大最小盈利并记为m1:如果策略p*满足p*,b(p*)=m1,则称p*为局中人1的稳妥策略。注1:由于策略b(p)使得局中人1的盈利最小化,因此,它是局中人2对付p的最优反应(因此使用这个记号

50、)。所以,稳妥的方法是,局中人预期她的对手采取最优反应并且防范任何随之发生的不利结局。注2:稳妥方法给予局中人1一个单方面手段去参与博弈。她知道,如果采取一个稳妥策略p*,她不可能比m1更差。如果事实上她的对手没有采用最优反应,那么她的盈利只能更高一些。这不像最优反应行为,该行为要求局中人1彻底地全面考虑问题:我在对什么作出最优反应?当然,这样的单方面策略的实施可能产生很高的代价;稳妥地参与可能不像采用最优反应那样有利。那种可能性将是下面小节的主题。3. 3. 充分地参与:最小最大充分地参与:最小最大代替采用防止最差情况结局,局中人1可以通过采用最优反应从而“更加积极地”对付局中人2的策略。人

51、们可以认为这是更乐观的办法;试图预测对手的行动并且对此作出最优的反应。与之相联的概念称作最小最大盈利;它是局中人1的最优(反应)盈利中最差的一个(将它记为M1):这里,(s1,q)是当局中人1采取纯策略s1和她的对手采用混合策略q时她的期望盈利。命题命题1 (最小最大优于最大最小)(最小最大优于最大最小)。局中人1的最小最大盈利至少和她的最大最小盈利一样高,即M1m1。不管我们考虑的是纯策略或者是混合策略,该陈述都是正确的。命命题题2(一一个个局局中中人人的的最最小小最最大大是是另另一一个个局局中中人人的的最最大大最最小小)。局中人1的最小最大盈利正好是局中人2的最大最小盈利(的负值),即M1

52、=-m2=b(q*),q*(反过来,局中人2的最小最大盈利是局中人1的最大最小盈利的负值。)4. 实施纳什均衡策略:既稳妥又充分地参与定定义义:一对混合策略,如果对所有纯策略s1和s2,有则 构成零和博弈的纳什均衡。命题命题3(稳妥和充分地参与)(稳妥和充分地参与)。 令 构成零和博弈的纳什均衡。那么 和 是稳妥策略,并且最大最小(和最小最大)盈利互相相等且等于 。反之,假使最小最大和最大最小盈利相等。那么稳妥策略构成了博弈的纳什均衡。第第9章章展开型博弈和后推归纳展开型博弈和后推归纳1.展开型2.策略,混合策略,和事件结 3.完美信息博弈 4.后推归纳法 5.与策略型中IEDS的联系6.案例

53、研究:“毒药”和其他收购威慑剧院博弈1. 展开型为了让“树”描绘博弈,其结点和枝需要满足三条性质:1单单一一的的出出发发点点。重要的是知道博弈从何处开始,所以必须有一个,也只能有一个出发点。因而,如图11.3那样的情况是不允许的。2无无循循环环。重要的是在博弈运行中,我们不要陷入僵局;树枝循原路折回并造成一个循循环环一定是不可接受的。3单单方方向向前前进进。重要的是,对于博弈如何进行下去不能模棱两可,因此,必定不存在二个或多个枝导向同一个结。为保证这三条性质,在前结点上强加下述限制:1结点不能是自身的前结点。2前结点的前结点也是前结点:如果结点是的前结点,依次结点是的前结点,那么也是的前结点。

54、3前结点可以排序:如果和都是的前结点,必定是或者是的前结点,或者反过来。4必定存在一个共同的前结点:考虑任意两个结,和,它们之间没有一个是另一个的前结点。那么,必定存在一个结点,它是和双方的前结点。策略,混合策略,和事件结策略策略局中人的策略是行动的一个完全的,有条件的计划。说它是有条件的,因为如果博弈到达某个决策结后,它告诉局中人从这个结点出发后顺沿哪条枝。说它是完全的,因为它告诉局中人在每一个有关的决策结上选择什么策略。混合策略混合策略混合策略定义的方式以与策略型完全相同;它就是在纯策略上的一个概率分布。因此在序贯的剧院博弈中,局中人1的混合策略有两个数p和q给定,他们分别是选择b和选择c

55、的概率(而1pq是选择s的概率)。局中人2的混合策略由33-1个数给定,每个数对应于指派给每个纯策略的概率。事件结事件结我们也可以在展开型内建立不确定性,这种不确定性是博弈本身所具有的(与之对立的是局中人通过混合策略引进的不确定性)。例如,乘地铁需要的时间可能依赖于在地铁系统中是否存在一个高峰时间的延迟。对这种可能性建模的一个方法是允许第三类型的结点,称之为事件结;这是一个其枝表示若干随机可能性的结点。2.完美信息博弈完美信息的博弈完美信息的博弈具有如下性质的展开型博弈:在每一个信息集中正好有一个结。一个完美信息的博弈完美信息的博弈是不存在(具有多个结的)信息集的展开型博弈。例例1:进入:进入

56、考虑下述经济模型。一家公司譬如,“可口可乐”正在盘算是否进入一个新市场比方说是前苏联(FSU)在那里,市场由它的竞争对手“百事”所独占。新市场的潜在赢利影响“可口可乐”的决策,而这主要依赖于“百事”对“可口可乐”进入它的市场将做出怎样的反应。如果“百事”发动一场广告大战,花费大量金钱用于改善设施,以排他性协议捆住零售商换句话说,反应“强硬”那么“可口可乐”将会遭受损失。另一方面,如果“百事”不发动这样强硬的反击毕竟这样做代价昂贵“可口可乐”将赚到钱。在图11.6中,E(进入)和O(呆在外面)表示“可口可乐”的抉择,而T(强硬)和A(宽容)指“百事”在如何制止“可口可乐”的进入方面的两个选择。注

57、意,在每一对盈利中的第一项是“可口可乐”的盈利。例例2:进入:进入对于(稍微)复杂一些的模型,我们考虑如下变体。假设在“百事”的决策之后,“可口可乐”有进一步的决策可做;它必须决定自己是否发动一场积极的广告战并花费大量资金于设备方面,采取诸如此类的行动。换句话说,假使在看到了“百事”的反应之后,“可口可乐”本身将不得不行为“强硬”或“宽容”例例3:(不完美信息)进入:(不完美信息)进入假设,万一“可口可乐”进入FSU市场,“可口可乐”和“百事”两家将对在这个市场上投资多少作出决策。即,行为或者“强硬”或者“宽容”。但是,例2不同,假定这些决策是同时策划的(这个事实使得这种情况不是完美信息的博弈

58、)3. 后推归纳我们感兴趣的问题是,例1和例2中行为的合理预测是什么?这实际上是关于序贯理性的问题。它包含了理性,因为在考虑到局中人所想的将会是博弈的未来行为,因此,他将在决策结上选择他可使用的最优行动。它包含了序贯性,因为局中人将推断未来将会怎样,并且知道在未来,局中人将以同样的方式推理。尤其,在随后结点上的决策者,考虑到他对博弈今后未来的猜想,反过来选择可采用的最优行动。注意到“可口可乐”的每一个策略必定有三个分量。第一个分量告诉我们“可口可乐”是否进入市场,第二个分量告诉,如果“百事”反应“强硬”,它是否会行为“强硬”,而第三个说明了如果“百事”宽容的话,“可口可乐”将采取的行动。例如E

59、AT表示(1)进入,(2)以宽容对付强硬的“百事”,(3)采取强硬策略对付宽容的“百事”。但是,“百事”正好有二个策略要么反应强硬,要么宽容“可口可乐”。百事TA可口可乐ETT-2,-10,-3ETA-2,-11,2EAT-3,10,-3EAA-3,11,2OTT0,50,5OTA0,50,5OAT0,50,5OAA0,50,5该策略型基本上有三个纯策略纳什均衡:1其“百事”取T,而“可口可乐”取它呆在外面的(四个)策略中的任何一个的纳什均衡,OTT,OTA,OAT,和OAA。2(ETA,A)其结局为,“可口可乐”进入而两家公司都宽容。3(EAA,A)跟第二个均衡有相同的结局。承诺的力量在生活

60、中,通常,只有少量的选择总比有较多的选择要差一些。你也许认为这对博弈也应该是对的。但是,展开型博弈,尤其是完美信息博弈,提供了少量(选择)可以蕴含更多(均衡盈利)的例子。这种陈述最初听起来似乎自相矛盾,但是直觉上的确很易明白。如果局中人在后面有许多选择,比起如果她有少数几个选择来,在未来的行为可以相当地不同。反过来,这种行为将影响她同时也影响其他局中人的当前措施。这种变化基本上对于具有增加了的选择的局中人可能是有利的或者有害的。只强硬的只强硬的“百事百事”假如我们以下述方式简化这个(已经简单的!)例子:在“可口可乐”进入FSU市场之后,“百事”除了采取“强硬”之外别无其他选择。(即,我们通过剔

61、除“宽容”而缩减了“百事”的选择可能)。只强硬的只强硬的“可口可乐可口可乐”假如我们以下述方式修改例子:在“可口可乐”进入FSU市场之后,除了强硬之外,“可口可乐”没有其他的选择(即,假定“可口可乐”少了一个选择:它不能宽容)。后推归纳法科恩(和策墨罗)定理。科恩(和策墨罗)定理。每一个具有有限个结的完美信息博弈有后退归纳解。事实上,如果对每一个局中人,不存在相同的两个盈利,那么存在唯一的后退归纳解。5. 与策略型中IEDS的联系博弈展开型中的后退归纳解与在策略型中用累次剔除劣策略(IEDS)求解博弈得到完全相同的结果。6.案例研究:“毒药”和其他收购威慑法律法律“毒药毒药”1假设没有“毒药”

62、条文,那个博弈就如例1那样南诺福克(NorfolkSouthern)必须决定是否反对CSX-联合铁路公司的联盟。一方面,如果他们决定反对(并提出一个股份报价),CSX-联合铁路公司要么可以通过拒绝谈判,或抬高自己的条款,等等采取强硬策略,要么他们可能宽容并达成某种三边协议。另一方面,假使有“毒药”条文,博弈就如例1那样:CSX-联合铁路公司达成协议采取强硬措施。此外,现在假设CSX-联合铁路公司必须作一最初选择,决定是否用“毒药”来武装自己。于是展开型就如图所见到的那样(注意,在盈利向量中的第一项是第一个行动者的盈利,即,CSX-联合铁路公司的盈利)。没有“毒药”,CSX-联合铁路公司将会宽容

63、,从而南诺福克进入,于是前者的利润为2。设立“毒药”,南诺福克将选择不收购,因而CSX-联合铁路公司将得到利润3。显然,CSX-联合铁路公司乐意采取“毒药”,这一承诺使他们获得额外的1千万美元利润。法律法律“毒药毒药”2你认为如此过分的事情很好,但是在实际中难道南诺福克不会提出收购计划吗?好吧,那样的话也许展开型中的盈利稍有不同。考虑下图。如前一样,不设立“毒药”,CSX-联合铁路公司的盈利是2。现在,虽然,尽管有“毒药”,南诺福克发现进入仍是有利可图的(因为它得到了利润0.5)。CSX-联合铁路公司获得利润2.5,这仍然比他们不采用“毒药”而得到的2好一些。因此后退归纳结局是CSX-联合铁路

64、公司宁愿采用“毒药”条文,南诺福克愿意提出一个股份报价(发动对联合铁路公司的收购),CSX-联合铁路公司采取强硬措施。这个例子反映了在铁路货运危机中实际发生的事情。第10章应用:研究和发展R&D模型后退归纳:模型分析R&D模型假如在一个行业有两家公司,RCA与索尼(Sony)此后称为公司R和公司S每一家都在为生产HDTV而进行R&D。在HDTV可以进入市场之前有若干必须成功地完成的阶段。为了使分析容易处理,我们做一些简化假设:1.可以度量离最终目的的距离,例如,我们可以说,公司S处于离项目完成还有n步。2.两家公司在任何一个周期都可以前进1步,2步或3步后完成项目。3.向前移动一步花费2(百万

65、)美元,向前移动二步花费7(百万)美元,和向前移动三步花费15(百万)美元。4.无论哪家公司最先完成所有步骤的则获得专利;专利值20(百万)美元。卡特尔,第1步证实下面的陈述:因为两家公司中只有一家将获得专利,它只支付其中的一家去做R&D。卡特尔,第卡特尔,第2步步证实下面的陈述:无论哪一家公司做R&D,它将花费最少可能的资金,并且一次向前进展一步。而且,被选中的公司将是比较接近于完成的那一家。后退归纳:模型分析5. 两家公司轮流决定在R&D花费的资金;如果RCA在这个周期作出R&D决策,直到它知道索尼接下去的R&D资助后它才作进一步的决策。而且,索尼在RCA宣告之后的周期里作出它的通告。假设

66、5把专利竞争转入完美信息博弈;我们来看它的展开型。首先RCA有R&D决策,RCA和索尼离完成项目分别有3步和4步。更清晰的描述可用位置空间图给出第第1步步假如博弈处在(1,s),并且轮到公司行动。它的最优决策显然是在一次行动中完成博弈。这将产生价值20(百万)美元的专利和花费2(百万)美元成本。类似地,如果位置是(r,1)并且轮到S行动,S将一次完成项目。第第2步步现在假设两家公司或者在(2,1),或者在(3,1),并且轮到公司R行动。它可以一次完成,如果R这样做,它在两个位置都得到正利润:在第一种情况为$20$7,而如果它离完成尚有3步的话,利润则为$20$15。事实上,如果R不是一次完成博

67、弈,它知道S就在下一个机会中完成项目(为什么?),于是R要么从那一刻起什么也得不到,要么蒙受损失。例如,如果R选择不作进展,这使它无需成本,但是它将发现S在下一周期会赢得专利。如果它做不完全的进展从(2,1)出发走1步或从(3,1)出发走2步或不到2步他将招致成本损失却不会赢得专利。第第3步步(a)使用前面的分析去证明,如果博弈处于(2,2),无论哪家公司首先行动都应该对两步投资并完成博弈。(b)然后,如果博弈处于(3,2)并轮到公司R行动,你能证明它应该一次完成项目吗?如果博弈处在(2,3)并且轮到S首先行动,情况会怎样?经由第1步到第3步,我们已经证明了下述:命题(命题(1) 如果博弈处在

68、任何位置(r,s),r 3和s3,无论哪一家公司在那时首先行动都将触发完工,即,将一次结束项目。称这样的位置集为“触发区域I”.第第4步步例如,关于像(4,3)这样的位置,当轮到公司R行动的时候我们可以得到什么结论?注意,R不能一次完成博弈。它最多可以做的是将项目朝前推进3步到(1,3)。或者它可以移动2步到(2,3)或者1步到(3,3)。或者它可以通过停止R&D而留在原处。在这些情况中的头3个,R知道S将在下一步完成博弈(为什么?)。因此R的最佳反应是挑选第4种选择,不进展。这等价于退出竞争。作为唯一的幸存者,公司S将最终获得专利。由于迅速的R&D比缓慢的R&D更昂贵,S的最好办法是以花费最

69、少的方式行动,一次一步,逼近专利。第第5步步证明相同的结论,对于位置(4,2)和(4,1)同样会发生R退出竞争,然后S慢慢地推进。位置(5,3),(5,2),和(5,1)的情况怎么样?命题命题 2 2 对于所有的位置(r, s),只要r 3 和s 3,公司R作为最先行动者,可以做得最好的事情是退出(竞争)。此后,公司S可以一次向前一步。 所有位置(r,s),只要r3和s3,是公司R的安全区域I。在触发区域I中将有一场抢先行动,而在安全区域I中“战争”烟消云散。称作S的安全区域I第第6步步考虑如(4,4)那样的位置。假设轮到公司R行动。事实上,公司R可以一步使博弈进入它的安全区域I以代价2。此后

70、它知道S将退出,从而它可以一次一步地走向最终的圆满完成;那三步将再花费$6,于是总代价为$8,它少于专利的价值。更一般地,只要R有办法进入它的安全区域此后一次一步行动而消耗少于专利的价值$20的代价,那么这值得R这样去做。当然该论证可对称地应用于公司S。第第7步步从位置(r,s)证明,如果r,s=4,5,首先行动者将发现让博弈导入自己的安全区域I是有利可图的。证明如果R必须在(5,4)行动,它的最终纯利润是$7。但是,如果处于(6,5),就不值得公司R转入它的安全区域。那样总花费为$21(为什么?),超过了专利的价值。命题命题3在(3,3)与(5,5)之间存在第二个触发区域;在这个区域的最先行

71、动者应该使博弈移入它自己的安全区域I。也存在着第二个安全区域集合。R的安全区域为3r5和s5(对称地,S的安全区域II为3s5和r5)。在公司R的安全区域,S应该立即退出。以这种方式继续下去第11章子博弈完美均衡例题子博弈和子博弈内的策略子博弈完美均衡 若干注记 案例分析:第一次世界大战战壕中的和平 总结例例1:进入:进入 回忆可口可乐公司正在争论是否进入先前尚未占领的东欧市场,这一次是在特兰西瓦尼亚(Transylvania罗马尼亚中部地区)。百事公司是那个市场的目前供货者,并且肯定会以强硬(T)或者用宽容(A)对付可口可乐公司的进入。可口可乐公司可以作出一组同样的选择T或者A。最后,假设由

72、可口可乐公司和百事公司所作的那些进入市场后的选择是同时决定的(从而,这是一个不完美信息博弈。)进入后的竞争阶段其盈利如下:可口可乐百事 TAT-2,-10,-3A-3,11,2可口可乐百事 TAET-2,-10,-3EA-3,11,2OT0,50,5OA0,50,5这个博弈中恰好存在三个纯策略纳什均衡:1.可口可乐公司取(进入,宽容)即,EA而百事公司取A。2.可口可乐公司取(在外,宽容)即,OA而百事公司取T。3.可口可乐公司取OT而百事公司取T。问题在于,所有这些均衡都“合理”吗?产生可信性的想法与基本的后退归纳想法非常雷同;在可口可乐公司进入市场以后,如果一个局中人坚持盈利刺激并正确地对

73、此作出选择,那么在进入后的阶段中预期的选择是可信的。特别地,必定是这样的情况,局中人不可能通过违约和采取某些其他行动而得到更多好处;即,她的预期选择必定是最优反应。因此,对于这对局中人来说,两个选择必定是进入后市场中的纳什均衡。检验整个博弈中的三个纳什均衡。考虑第二个;“策略对”OA 和T。这个均衡要求可口可乐公司在进入后的博弈中采取行动A对付百事公司的策略T。但是,如果可口可乐公司进入了特兰西瓦尼亚市场,那么A并不是可口可乐公司的最优反应(事实上T也不是百事公司的最优反应)。对付强硬的百事公司,可口可乐公司将通过同样强硬的措施减轻自己的损失,而百事公司将通过对宽容的可口可乐公司礼尚往来(不是

74、通过强硬措施)而得到更大的利润。换句话讲,在进入后的博弈中,(A,T)不是纳什均衡。关于可信性的另一种思考方式是进入后发生的博弈本身就是博弈.子博弈和子博弈内的策略博弈的某些部分看起来非常象自身就是一个博弈。例如,在进入博弈中,进入后的阶段本身就是一个博弈。当我们有如此的性质时,称原先博弈的那个部分为子博弈。定义定义。子博弈是展开型的一部分;它是满足下述三个性质的结点和枝的集合:(1)从单个决策结出发。(2)包含了这个结点的每一个后续者。(结点x的后续者是指沿着由x发出的一系列枝可以到达的所有结点。)(3)如果它包含了一个信息集的若干部分,那么它一定包含该信息集中的所有结点。子博弈完美均衡如果

75、对每一个子博弈g,s1(g)和s2(g)构成子博弈中的纳什均衡,那么s1和s2构成子博弈完美(纳什)均衡。不难看到子博弈完美均衡实际上是后退归纳解的推广.命题。命题。在完美信息的博弈中,子博弈完美均衡正是后退归纳解。因此,每当后退归纳解是唯一的,则存在着唯一的子博弈完美均衡。 例例2:一次重复囚徒困境:一次重复囚徒困境假如囚徒困境博弈进行两次。第一轮次,两个局中人在(认罪c,不认罪n)中进行选择。然后这些选择被公布,并且两个局中人再次开始在c和n之间选择。这两轮相互作用的盈利是每轮盈利之和。博弈的展开型在图13.5中表示。首先,注意有5个子博弈;其中四个是在第一轮分别取(c,c),(c,n),

76、(n,c),和(n,n)后的第二轮的相互作用。第五个是整体博弈。不管在第一轮中局中人做了什么,他们的第二轮盈利将是取(c,c)的盈利。若干注记对子博弈完美均衡强调的第一件事是铭记一个观念“过去的事情就让它过去吧”。另一方面,这是一个非常强烈的理性假定;不管无理性的其他局中人在过去怎么样,局中人仍然相信这些人在未来将是理性的。唯一的子博弈完美均衡如下:无论哪个局中人认罪;每个人就在第一次并且再在第二轮都认罪(即使他的对手在第一轮没有认罪,即使他本人错误地在第一次没有认罪)。案例分析:第一次世界大战战壕中的和平假设可能存在两种水平的准备状态:高(H)和低(L)。不管准备状态的水平如何,每方在有关它

77、可以采取的行动方面有两种选择供使用,战斗(f)或和解(a)。例如,如果准备状态的水平为高,那么策略型(子)博弈如下:轴心国协约国faf-1/2, -1/21, 1a 1, 10, 0如果德国的准备状态的水平为低,而英法的水平仍为高,那么策略型(子)博弈看来是这样的:轴心国协约国faf-3/4,-3/40,0a2,21,3假设德国(轴心国)军队可以单方面决定他们的准备状态水平(那就是为什么他们通过黄昏孤零零的炮弹向协约国军队发出信号的原因;发射这颗炮弹标志着他们正在解除准备状态的高水平转向低水平,而不发射则标志着他们保持高水平准备状态使战争逐步升级)。当准备状态水平为高时,f是双方的优策略。因此

78、子博弈唯一的纳什均衡为(f,f),相应的盈利是()。如果德国选择降低(准备状态的水平),那么子博弈有唯一的纯策略纳什均衡(a,a)相应的盈利是(1,3)。返回到博弈树的根,德国军队将选择发射信号弹;即,他们将选择“低”水平准备状态。总结1.子博弈是整个博弈的一部分,它本身就是一个博弈;它包含了所有的未来结果,并且它包括了参与这部分博弈必需的所有信息。2.在子博弈里的策略向量,如果它形成了子博弈中的纳什均衡,则是可信的;没有一个局中人会有动机然后去违背。3.如果在每一个子博弈里的每一个牵制是(该子博弈的)纳什均衡的话,整个博弈的策略向量是子博弈完美(纳什)均衡。4.子博弈完美可以用来在博弈的整个

79、纳什均衡集里挑选合理的均衡。例如,在进入博弈中,它指出了可口可乐公司将进入的唯一条件是,假如它预期百事公司(和它自身)宽容“进入”。第11章有限重复博弈在每一个重复博弈中,有一个实施许多遍的组件博弈有时候称作阶段博弈。博弈中的盈利是每个阶段的盈利之和修改版囚徒困境我们对标准的囚徒困境添入一个策略;除了c与n之外,每个局中人有第三个策略,设为p,表示“部分认罪”。考虑如下阶段博弈:2cnpc0,07,-23,-1n-2,75,50,6p-1,36,03,31无限重复囚徒困境无限重复囚徒困境假设在每一个阶段两个局中人参与囚徒困境。但是,没有固定的重复次数。他们每一次参与阶段博弈,存在概率 使相同的

80、局中人再次参与阶段博弈。反过来,存在着概率1 使当前的相互作用成为最后一次相互作用。这个博弈叫做无限重复囚徒困境;此术语归因于博弈没有固定终点这一事实。无限重复囚徒困境的盈利计算如下。假设在第t阶段,局中人i得到盈利it。在实际中实施到第t阶段的可能性是 t。从而第t阶段的期望盈利是 tit。总期望盈利是这些阶段博弈期望盈利之和;即,等于定义定义重复博弈由阶段博弈G和它的重复次数(设为T)确定。阶段博弈G是策略型博弈:其中Si是局中人i的策略集,i是他的盈利函数它依赖于(s1,s2,sN)。经济应用1.短期国库券拍卖。短期国库券拍卖。2.专利药品市场的竞争。专利药品市场的竞争。3.NASDAQ

81、市场制作。市场制作。4.国际石油市场国际石油市场或或OPEC。有限重复博弈T次重复囚徒困境的唯一子博弈完美均衡是,在每一突发事件中局中人认罪。假如修改版囚徒困境进行T次。考虑如下策略对:从(n,n)开始,除了最后一次以外,在所有阶段继续取(n,n)在最后阶段,采取(p,p)。沿着所提供的这个程序,没有一个局中人会偏离它(并在首T个阶段中的任何一个阶段中采取非n的其他策略)。倘若发生了偏离,从随后的阶段起并一直下去都采取(c,c)。所述的策略是子博弈完美均衡。命命题题考虑有限重复博弈(G,T),其中G=Si,i;i=1,2,N。假如阶段博弈G恰好只有一个纳什均衡,设为(s1*,s2*,sN*)。

82、那么重复博弈有唯一的子博弈完美均衡。在这个均衡中,不管局中人i或其他任何局中人,在任何一个以前的阶段中采取了什么样的行动,局中人i在T个阶段的每一个中都取si*。案例分析:短期无息国库券拍卖对某些有价证券,存在单价拍卖。其间所有购买者支付同样价钱。对某些其它的有价证券,存在多重价格拍卖,其间不同的购买者支付不同的价格。现在我们要研究的问题如下:如果财政部希望极大化它的筹资数量,它应该采用两种拍卖形式中的哪一种?简化假设。第一,我们将假设在这次拍卖中有两家金融机构,或者局中人。第二,财政部在一次又一次的拍卖中所出售的量保持不变;令这个量等于100。第三,我们将假设每个购买者可以报两种价格和两个购

83、买量;称为高(h)及低(l)和数量50及75。第四,购买者只关心利润;每种有价证券的利润,如果价格为h,则表示为h,同样地如果价格是l 则利润表示为l。假定两种利润水平都是正的(当然,l h)。如果每个购买者都想以高价购买,那么在这个价格上的总需求至少是100并且所有国库券都以这个价格出售。同样,如果两个购买者都希望以低价购入,那么市场价格就低。但是,如果购买者之一想以h购买而另一个想以l购买,那么价格结局依赖于拍卖形式。在单价拍卖中,市场价格将为低,而在多重价格拍卖中,一个购买者将支付h而另一个支付l。在任何一种情况,高投标者得到他要求的所有数量,剩下的数量则分配给低投标者。最终,如果价格投

84、标相同,那么数量以需求比例进行分配。例如,如果一个购买者想要75单元而另一个想得到50单元,那么前者得到现成的100单元中的60单元。单价拍卖的策略型如下:购买者购买者150,h75,h50, l75,l购买者购买者250, h50 h,50 h40 h,60 h50 l,50 l50 l,50 l75, h60 h,40 h50 h,50 h75 l,25 l75 l,25 l50, l50 l,50 l25 l,75 l50 l, 50 l40 l,60 l75,l50 l,50 l25 l,75 l 60 l,40 l50 l,50 l多重价格拍卖的策略型购买者购买者250,h75,h5

85、0,l75,l购买者购买者150,h50 h,50 h40 h,60 h50 h,50 l50 h,50 l75,h60 h,40 h50 h,50 h75 h,25 l75 h,25 l50,l50 l,50 h25 l,75 h50 l,50 l40 l,60 l75,l50 l,50 h25 l,75 h60 l,40 l50 l,50 l考察缩小了的单价拍卖:购买者购买者275,h75,l75,h50 h ,50 h75 l ,25 l75,l25 l ,75 l50 l ,50 l缩小了的多重价格拍卖:购买者购买者275,h75,l75,h50 h ,50 h75 h ,25 l75

86、,l25 l ,75 h50 l ,50 l购购买买者者1购购买买者者1情况情况I:竞争的情况:竞争的情况假设,即使以低价格购买一半数量是无利可图的;即,假如50h25l。那么在缩小了的单价拍卖中h是优策略。因此阶段博弈中唯一的纳什均衡是(h,h)。财政部特别喜欢,因为在每一个阶段中的(h,h)也就成为唯一的子博弈完美。(为什么?)如财政部所作的那样,重复拍卖,使得在市场上竞争的剧烈程度不起作用并且不允许参与者为保持低价格而作确实有效的交易。现在考虑缩小的多重价格拍卖。如果对于低价格的最优反应也是出低价,即,如果50l75h,那么这次就可能有第二个纳什均衡了。在那种场合,(l, l)也是纳什均

87、衡;即,购买者企图无保留地进行串通,使价格保持低位。因而一个子博弈完美均衡是双方购买者一直都出价l。情况情况II:共谋串通情况:共谋串通情况在多重价格拍卖中,l是优策略(从而,购买者由于报低价而“亏待”财政部)。在单价拍卖中,阶段博弈存在唯一的混合策略纳什均衡.唯一的阶段博弈均衡策略也是唯一的子博弈完美均衡策略。因此,在多重价格拍卖中,(l, l)被重复地实施,而在单价拍卖中,l和h的对等混合(纳什均衡)重复地实施。因为在后者均衡中,财政部发现至少在某些时候为高价格,显然财政部觉得这样更可取。总的来说,单价拍卖总是受到财政部的青睐。在竞争场合,它一直确保高价格,而在共谋串通情况,有些时候保证高

88、价格。第12章 无限重复博弈折扣 局中人i的总折扣盈利 为有关折扣总和的一个事实是非常有用的:事实事实1:当每个阶段的阶段博弈盈利都等于1时,总和1+ +2+ t+等于因此,当阶段博弈盈利为常数,比方,那么总和等于触发策略和好行为 囚徒困境阶段博弈周而复始地进行,没有明确的最后阶段。考虑如下策略对,每个局中人对应一个策略:由采用(n,n)开始。如果在任何阶段没有一个局中人认罪,那么继续采用(n,n)。但是,如果在某个阶段两个局中人中只要有一个认罪,那么从此以后每个阶段一直采用(c,c)。像这样的策略称为严厉的触发策略:对可取行动(n,n)的偏离,开启了“惩罚阶段”(c,c)。触发在下述意义下是

89、严厉的,惩罚阶段一旦开始,决不撤消。对于严厉触发策略,实际上只有两类子博弈(1)在首t个阶段重复采用(n,n)之后的子博弈,和(2)其它的子博弈。对于类型(2),策略明确说明从此以后都采用(c,c)。在这个子博弈里面,它的确是纳什均衡。没有一个局中人能在任何阶段通过取n来对付c从而增加自己的盈利;而且,他不会改变今后预期的行动方式。对于类型(1)的子博弈,让我们检查一下局中人在任何阶段是否有认罪的动机而其他的局中人在那个阶段取的是n。做这样的事将给认罪的局中人带来眼前的盈利7,但在以后的每一个阶段结果盈利为0。(为什么?)继续采用这个策略将为这个局中人产生当前阶段的盈利5和未来每一个时期中一连

90、串的盈利5。因而,继续采用这个策略的总盈利为显然,只要 ,即,只要 大于 2/7 ,继续采用所提出的严厉触发策略较好一些。在无限重复博弈中“好”是可以持续的,因为在每一个阶段有可能做出有条件的好人承诺如果今天你“好”,那么明天我也“好”。(伴随的威胁是,如果今天你“恶”,那么此后我一直“恶”。)承诺保证了盈利5的持续不断;凶恶地威胁表明了从此以后盈利降为零。如果一个局中人单方面决定今天当一回恶人,那么在他们中间,构成了将来损失5 /(1- )的盈利。如果很在乎未来,即,如果 大的话,这种“大棒胡萝卜”是十足的威慑。严厉的触发策略由两个部分组成:第一,存在严厉的惩罚,永远地(c,c)下去。第二,

91、存在可取的“好人”行为,永远地(n,n)。对可取行为的任何背离会触发惩罚。如果 足够地大,那么严厉惩罚是十足的威慑以及“好人”行为是可以如愿以偿的。严厉惩罚的威慑也可以有助于实现其他行为。伴随不同的(和不太苛刻的)惩罚,“好人”行为也许是可实现的。其它的惩罚其它的惩罚 考虑下述内容:由取(n,n)开始,如果没有一个局中人认罪则继续采用(n,n);然而,如果任一个局中人在某个阶段认罪,那么在下面T个阶段采用(c,c)。此后,返回到(n,n),不过,记住以后每一次背离(n,n)也将遇到T阶段的(c,c)。像这样的策略称为宽容触发。对可取行为(n,n)的偏离触发了惩罚阶段(c,c)的开启,但是所有这

92、些在T阶段惩罚之后得到宽容。宽容触发是充分威慑吗?当一个局中人被认为取n时他却取了c,他得到了盈利7,然后跟着T个阶段得0,接下来一旦行动回到(n,n)得到5的无限序列。这样从这个“异常”行为得到的总盈利是但是,继续采用提出的不认罪 行为产生了5的无限序列,即,终身盈利为如果 或者等价地那么触发是确实有效的。当折扣因子接近于1,公式的左边近似地为5(T+1)。因此,当未来重要时即,当 接近于1时即使一个周期的惩罚即,即使T=1惩罚也是充分的。定义定义一个行为循环是行动的重复周期;T1个阶段采用(n,n),然后T2个阶段实施(c,c),接着T3个阶段的(n,c),然后T4个阶段的(c,n)。在这

93、些T1+T2+T3+T4个阶段结束时,又开始了循环,然后再开始。如此等等。无名氏定理无名氏定理均均衡衡行行为为考虑任何个人理性行为循环。每当折扣因子 接近于1,那么这个循环可实现为子博弈完美均衡的行为。均均衡衡策策略略构成均衡的一个策略是严厉触发;从可取的行为循环开始,如果两个局中人不做其它事则继续采用它。如果两者之中任何一个局中人偏离去做其它某些事情,那么此后一直采取(c,c)。所有可能的行为都是均衡行为所有可能的行为都是均衡行为在任何均衡中,每一个局中人在循环上的盈利必定至少为零。该陈述是正确的,因为每一个局中人可以使自己的盈利高于在每一阶段完全地都认罪。无名氏定理的结果指出了对于均衡来说

94、,正盈利不仅是必要的,而且也是充分的;每一个具有正盈利的行为循环都是关于高 值的均衡。考虑所有的盈利考虑所有的盈利你也许认为,只考虑循环,我们排斥了一定类型的行为。虽然是的确如此,然而这种限制并不造成损失,因为我们并没有排斥任何可能的盈利。说明一下,从盈利到行为循环的一个考虑方法是利用它的每一阶段平均盈利,。当我们察看不同的行为循环时我们得到不同的每阶段平均盈利。假如我们察看的行为不是循环。这种型式当然也有它的每阶段平均盈利。得到的结论是,不管这个每阶段平均盈利等于多少,总存在一个行为循环恰好具有与它相同的每阶段平均盈利。未来必须是重要的未来必须是重要的结论只对高 值有效,因为那正好是做出具有

95、威慑价值的承诺和威胁所必需的 值。如我们前面所见,高的 意味着未来的盈利是重要的。转而,该事实意味着未来的承诺或威胁可以影响当前行为。无限多个均衡无限多个均衡结论的含义是在无限重复囚徒困境中存在无限多个子博弈完美均衡。从预测的观点来看这很令人失望。所有我们可以推断的是,将要发生的威胁和奖励是如此有影响以至于局中人可能愿意去做几乎任何事情。可观察行动可观察行动迄今为止,分析的一个缺陷在于它要求偏离是完全可观察的从而可以立即给予惩罚。在许多场合这个假设是不切合实际的,因为其他局中人关于对手在过去已经作了什么可能没有精确的信息。具不完美察觉的重复博弈 定义。定义。临界触发策略定义为一个数,比如m。局

96、中人由取(n,n)开始,并且如果两个局中人在每一阶段的盈利保持在m之上,则继续这样做。两者之中任一个盈利第一次掉到m以下时,局中人持续T阶段取(c,c);然后重新开始此策略。触发越严厉,即,T越高,这个策略越有可能成为均衡。触发越严厉或者越迅速(m越高),策略越无利可图。第13章应用于公共问题的动态博弈 公共问题:模型 阶段t的博弈环境是在该阶段的资源储存(resourcestock)的大小yt;yt0。资源可以为任何局中人所享用,让我们继续假设有两个局中人。局中人i在t阶段消耗的资源或提取记为cit。又,自然地仅考虑cit 0。消耗给局中人I带来盈利或效用。yt的精确值限制了可以提供消耗的总

97、量;即,在每一个阶段t,必须是如下情况于是,没有提取的资源量为。这是可以用来产生未来增长的投资;称它为xt。由前面的公式,得到xt0。通过生产函数 投资产生了下一个周期的库存yt+1。我们考虑可再生资源(renewableresource),即资源满足yt+1x t。假如局中人i通过消耗数量ci得到的效用为logci;假设投入xt引起阶段(t+1)的储存具有大小有趣的问题是:资源储存yt如何随时间而演化,和是否存在一个可以持续下去的最终数量?社会最优的可持续资源库存是多少?策略地相互作用会导致资源的过度提取吗?可持续发展和社会最优效果 我们从社会最优效果开始:如果人们希望在一个“两人社会”中,

98、使他们尽可能地开心,每一个人应该怎样提取资源?剩余的阶段数消耗量(y中所占比例)123T(猜想)模式事实上,我们可以再往前猜想一步;在无限阶段模型中每一个阶段的消耗比例将是恒等的,因为在每一种情况中剩下恰好相同数目的阶段。这个恒等的消耗量函数,称为c(y),将由当T趋于无限时最优消耗量的极限给出。因为转而我们可以断言可达到预期目的的发展和博弈均衡 与社会最优问题一样,我们现在可以发现一个模式:剩余的阶段数消耗量(y中所占比例)123T(猜想)在无限阶段模型,均衡消耗函数,记作c*(y),将由当T趋于无限时均衡消耗量的极限给出。因为我们可以断定社会最优与均衡结局的比较 总的教训是单方面提取导致过

99、度提取;均衡解的消耗量高于社会最优解的消耗量。第第14章章具不完全信息的博弈具不完全信息的博弈囚徒困境囚徒困境 假设局中人1具有囚徒困境博弈中通常的优先选择:无论局中人2认罪与否,它总是愿意认罪。但(局中人1)不知道局中人2的优先选择;他可以或者是一个“强硬的”局中人,或者是一个“宽容的”局中人。“强硬的”局中人具有囚徒困境的优先选择,而“宽容的”局中人宁可不认罪(对付认罪的对方),因而博弈可以表示成两个盈利矩阵,每个矩阵对应于一种类型的局中人2(表1a与1b);局中人1不知道哪一个是相应的矩阵,而局中人2知道。表112cn12cnc0,07,-2c0,-27,0n-2,75,5n-2,55,

100、7(a)强硬的(b)宽容的表212cn12cnc0,07,-2c-2,-25,0n-2,75,5n0,57,7(a)强硬的(b)宽容的性别争端性别争端回忆性别争端博弈。丈夫(H)和妻子(W)必须决定是去看足球(F)还是去剧院(O)。他们宁可在一起而不愿意分开,但是丈夫喜欢两人一同去看F而他的妻子则喜欢一同去O。现在假设丈夫对他的妻子的优先选择没有把握。他不知道他的妻子是否乐意与他在一起(充满深情)或者是否她喜欢自己一个人去任何一处(离开)。换句话说,他无法肯定她的优先选择是由表3a所给出的通常优先选择,还是由表3b所给出的选择。表3HWFOHWFOF3,10,0F3,00,1O0,01,3O0

101、,31,0(a)充满深情(b)离开贝叶斯-纳什均衡三个假设:假设1:妻子知道自己的优先选择:即,她知道“正确的”博弈是由表20.4a给出还是由表20.4b给出。假设2:丈夫不知道他的妻子真正的优先选择;他对她的真实优先选择由表20.4a给出这一事实附加了概率(于是由表20.4b给出的事实具有概率1)。假设3:妻子知道她的丈夫关于她的优先选择的估计;即,她知道值。在约翰海萨尼(JohnHarsanyi)于1967和1968年所写的三篇论文中,他提出了适合于不完全信息博弈的纳什均衡的推广。海萨尼的建议分为两个部分。首先,把不完全信息博弈转为不完美信息博弈。其次,使用(这个不完美信息形式的)纳什均衡

102、 作为解。在不完全信息博弈中,赋予纳什均衡一个专用名称;叫做“贝叶斯-纳什(Bayes-Nash)均衡”。定义。博弈的贝叶斯-纳什均衡是三个部分(,1,2),其中每个局中人(和每一种类型的局中人)采取最优反应,如下:(1)如果丈夫以概率选取F,那么概率i最大化类型i妻子的盈利。这对于i=1和2都成立。(2)如果丈夫相信,以概率他相遇类型1妻子,并且她将以概率1采取F(而以概率1相遇将以概率2选取F的类型2妻子),那么概率将使丈夫的期望盈利达到最大。命题命题1.每当时,存在两个纯策略贝叶斯-纳什均衡。在第一个中,丈夫选取F而妻子“们”选取(F,O),第二个中,丈夫选取O和妻子“们”选取(O,F)

103、。倘若, 只有一个纯策略贝叶斯-纳什均衡,那就是第一个。最后,如果 ,则不存在纯策略贝叶斯-纳什均衡。混合策略贝叶斯-纳什均衡命题命题2. 无论值为多少,总是存在一个混合策略贝叶斯-纳什均衡;一般准则不完全信息博弈通过假想“自然”首先行动并“选择”了一对(j,i)而被简化为不完美信息博弈。局中人2意识到自己属于I ;于是这个局中人选择一个策略,在考虑到她所认为的局中人1类型的分布下最大化她的期望盈利。对称地,局中人1意识到自己属j,并且作为类型j选择一个策略,在给定他所认为的局中人2类型的分布下最大化他的期望盈利。如果我们可以求出每个局中人中每种类型的策略,这些策略就是互相之间的最优反应,那么

104、我们得到了贝叶斯-纳什均衡。2024/7/21213博弈论初步博弈论初步及及其应用其应用施锡铨2024/7/21214内容概述中东战争进入WTO后中、外银行之间博弈博弈三大要素完全信息静态博弈多重均衡问题完全信息动态博弈Bayes博弈与Bayes均衡机制设计完美Bayes均衡2024/7/21215概述博弈论:研究理性人的理性行为。最早从战争、战略战术研究出发,二次大战以后逐步将这方面的研究转移到经济、管理领域2024/7/21216中东战争布什萨达姆萨达姆投降甚至下台抵抗甚至采取“恐怖”手段布什不倒萨后果坚决打伊拉克短期解决中期解决长期拖累2024/7/21217进入WTO后中、外银行之间博

105、弈杭州印染转投驻沪外资银行外资:采用“高门槛”,集中精力于高级客户中资:?2024/7/21218博弈三大要素局中人、策略空间、盈利(或收益)函数例1:长街上超市海滩小贩n静态场合的分析n动态分析:在已有“麦当劳”的地段,新开一家“必胜客”的最佳位置。n美国经济学教科书:决策即就开在“麦当劳”旁边。0AACB11/22024/7/21219类似的例子:电视台节目之间的竞争航空公司航班的安排美国总统的选举2024/7/21220例2:智猪博弈类似的例子:1.OPEC石油产量的配额。2.北约军事组织的军费大猪踩不踩小猪踩0.5,4.5-0.5,6不踩5,0.50,02024/7/21221完全信息

106、静态博弈累次占优囚徒困境囚徒1合作背叛囚徒1合作1,1-1,2背叛2,-10,0有限次:(背叛,背叛)为Nash均衡无限次:Parto占优的可能性2024/7/21222Nash均衡每一个局中人所采取的策略一定应该是关于其它局中人所取策略的最佳反应。没有一个局中人会轻率地偏离这个均衡结局使自己蒙受损失。2024/7/21223多重均衡问题分蛋糕(p,q),(0 p,q 1)Nash均衡p + q = 1 的一切(p,q)聚焦取有利于自己的Nash均衡Pareto占优风险考虑防联盟考虑2024/7/21224完全信息动态博弈1.展开型博弈.博弈树221122024/7/212252.后退归纳法2

107、C C12(2 2,0 0)(1 1,1 1)(0 0,0.50.5)(2 2,2 2)(3 3,1 1)L LB BA AE ED DF FR R2024/7/212263.子博弈完美Nash均衡(U,R),(D,L)空头威胁问题12(2 2,2 2)(3 3,1 1)(0 0,0 0)L LD DU UR R局中人2LR局中人1U2,22,2D3,10,02024/7/21227Bayes博弈与Bayes均衡进入阻扰博弈在位者在位者扩展不扩展扩展不扩展进入者进入-1,21,1-1,-11,1不进入0,40,30,00,3扩展成本低扩展成本高2024/7/212282024/7/21229若

108、干例子“搭便车”有两个局中人,i1,2。他们同时决定是否向公共财产捐款,捐款可以用01决策来描述,即:要么捐款,要么不捐款。如果他们两个人之间至少有一个捐款,则每个局中人得益为1;如果没有一个人捐款给公共财产则大家均获益0。局中人i捐款额为ci。2024/7/21230盈利矩阵如图人们很可能存在这样的想法,只要捐款小于1,那么他一定有正收益,于是捐款是划得来的。其实不然,Bayes均衡告诉我们,即使捐款额位于(2/3,1,它显然小于从公共财产得到的部分,此时局中人仍不捐款。捐款不捐捐款1c1,1c21c1,1不捐1,1c20,02024/7/21231机制设计:(游戏规则的确定)个人理性或参与约束激励约束1.保险公司的新险种推出2.新股定价显示准则:任何一个机制所能达到的Bayes均衡分配结果都可以通过一个讲真话的直接机制来实施。2024/7/21232完美Bayes均衡信号博弈“人才招聘”“廉价交谈”2024/7/212332024/7/21234

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号