第十三章 博弈论初步目前博弈论发展的非常进一步,这里只是简介某些初步知识在四、五十年代,由冯·诺依曼(Von Neumann)、摩根斯坦恩(Morgenstern)把对策论、运筹学引入经济学,形成了最早的博弈论几时年来,博弈论在经济学中发挥着越来越大的重要作用,1994年的诺贝尔经济学奖就授予三位博弈论学家:纳什(Nash)、泽尔腾(Selten)和海萨尼(Harsanyi)博弈论的英文是GAME THEORY,字面的意思是游戏方略,及用类似游戏中解决问题的措施,揭示解决社会、经济及其她领域问题的方略、对策,因此有的还把博弈论译成对策论精确的说博弈论是在给定的条件下谋求最优方略,这里给定的条件涉及其她人的方略以及本人的决策对其她决策主体的影响方略性活动在社会、经济、政治生活中大量存在,也可以说,整个社会、经济、政治生活都是博弈行为因此,博弈论作为一种措施,广泛的应用在经济、政治、军事、外交中,只是博弈论在经济学中应用的最广泛、最成功如前面简介过的古诺均衡、STACKELBERG均衡、CHAMBERLIN 均衡、BERTRAND 均衡、HOTELLING 均衡,都属于经济学中的博弈过程。
第一节 基本概念一、 博弈论1.定义:博弈论是描述、分析多人决策行为的一种决策理论,是多种经济主体在互相影响下的多元决策,决策的均衡成果取决于双方或多方的决策如下棋,最后的成果就是由下棋双方你来我往轮流做出决策,决策又互相影响、互相作用而得出的成果 2.博弈论与优化理论的异同点 1)相似点:博弈论与优化理论都是在给定的条件下,谋求最优决策的过程; 2)不同点:A. 优化理论可以当作是单人决策,而博弈理论可以当作是多人决策 在优先理论的决策过程中,影响成果的所有变量都控制在决策者自己手里;而在博弈论的决策过程中,影响成果的变量是由多种决策者操纵的如公司在追求成本最小化、产量最大化、利润最大化的过程中总是假定外部条件给定,这事实上表白是一种优化问题,由于除了给定的外部条件外,剩余的因素均有决策者来控制,从而决策者自己就能控制决策的成果;如果外部条件不是给定的,而是有其她主体参与的过程,这时的决策过程就变成了一种博弈过程了,由于决策的最后成果不仅取决于决策者自身,并且也取决于其她决策者的决策B. 优化过程是一种拟定的过程,而博弈过程是拟定性和不拟定性的统一 优化过程是一种拟定的过程,由于做出决策后,拟定的成果就出来了。
说博弈过程有拟定性,是由于决策各方的决策做出后,每一方的收益就拟定了;说博弈过程有不拟定性,在于一方做出决策后,影响成果的变量尚有众多的其她决策者,在不懂得其她主体行为的状况下,成果就不拟定例如:在一次具体的战斗中,一方与否发起攻打,是一种决策如果发起攻打,对方肯定有所反映,客观上讲,必然会有一种拟定的成果存在,这是拟定性的体现但是最后的成果如何,取决于对方如何应对, 因此在发起攻打时,并不能懂得结局是如何的,这就是不拟定性的体现如果一方发起攻打后,另一方立即投降,则战斗结束;如果对方进行反攻,从理论上来讲,成果取决于双方实力以及双方收益的大小由此可以看出博弈的广泛存在, 在现实生活中做出任何决策时,事实上都受到其她主体决策的影响并对我们做决策产生一定影响,决策的成果除了由我们自己决定外还要受到其她决策主体的影响,这事实上就是一种博弈过程二、参与者(PLAYER) 参与博弈的利益主体叫做参与者英文原意为玩主,也有译成局中人的在二人博弈中,有两个参与者;在三人博弈中,有三个参与者;在多人博弈中,有多种参与者三、方略和方略空间: 1.方略: 在给定条件博弈中,参与者完整的一套行动筹划叫做方略。
例如国内古代出名的谋略故事“田忌赛马”中,国王的赛马筹划是:先出上等马,再出中档马,最后出下等马;田忌的赛马筹划是:先出下等马,再出上等马,最后出中档马这里的赛马筹划就是一套完整的行动筹划,也就是一种方略 2.方略空间: 参与者可以选择的方略的全体就构成了方略空间例如在“田忌赛马”中,共有六种行动方案可供选择:上中下(先出上等马,再出中档马,最后出下等马)、上下中、中上下、中下上、下上中、下中上决策时田忌可以选择其中任何一种方略,在故事中,由于国王固定选择了上中下,因此田忌选择了下上中,从而赢得了比赛任何一人方略的变化都将使成果也随之变化,例如国王选择了中下上,而田忌选择了下上中,则国王将赢得比赛四、报酬函数与报酬矩阵: 1.报酬函数: 每一种参与博弈的参与者,她的收益依附于各个参与者所出的方略,这种收益与方略的依附关系就构成了报酬函数也就是说,第i个参与者的收益取决于所有参与者的方略,而不仅仅是自己的方略,表达到数学式子就是:Ri=Ri(S1,S2,其中Ri表达第i个参与者的收益,Si (i=1n) 表达第i个参与者所出的方略 2.报酬矩阵: 参与博弈的多种参与者的报酬可以用一种矩阵或框图表达,这样的矩阵或框图就叫做报酬矩阵。
例如有甲乙两个供货商构成一种价格卡特尔,双方均有选择遵守商定价格或者违背商定价格的权利报酬矩阵如下图所示:乙守约违约甲守约8,86,10违约10,67,7 图 13-1 矩阵中每组数字中的前一种数字表达甲的收益,后一种数字表达乙的收益当甲守约时,乙如果守约,收益为8,乙如果违约,收益为10;当甲违约时,乙如果守约,收益为6,乙如果违约,收益为7因此,当甲守约时,乙会选择违约(10>8);当甲违约时,乙也会选择违约(7>6)反之不管乙如何选择,甲都会选择违约,最后的成果是双方都选择违约报酬矩阵变化,就会影响到双方的决策例如双方的报酬矩阵变成下图所示:乙守约违约甲守约12,122,10违约10,2-4,-4 图 13-2 此时双方也许都选择守约,由于当甲守约时,乙会选择守约(12>10);当甲违约时,乙也会选择守约(2>-4)反之不管乙如何选择,甲都会选择守约,最后的成果是双方都选择守约 博弈过程参与者的决策行为要受到博弈规则的影响,即博弈规则的变化会变化报酬矩阵中的报酬值例如在图 13-1中,由于卡特尔中的每一种供货商都追求自身利益的最大化,并且没有措施来保证遵守价格商定,双方表面上也许都信誓旦旦的承诺守约,但是实际中双方会违约。
如果卡特尔追求整体利益的最大化,并且由于历史、政治、制度、惩罚等措施来保证遵守价格商定,双方就也许和平共处,遵守价格商定在历次中东战争中,由于民族宗教因素,OPEC石油的产量和价格都得到了严格的执行五、均衡及博弈的解: 当博弈的所有参与者都不想改换方略时所达到的稳定状态叫做均衡,均衡的成果叫做博弈的解例如图13-1中甲乙两个供货商构成的卡特尔不管甲如何选择,乙必然选择违约,同样不管乙如何选择,甲必然选择违约最后双方都选择了违约,并且只要给定的条件不变,双方就都不会变化方略,成果非常稳定,达到均衡在这个均衡中,不管甲如何选择,乙都不会变化方略,同样无论乙如何选择,甲也不会变化方略,这种均衡就叫做占优均衡这种无论对方如何决策,自己总是会选择的方略叫做占优方略,由双方的占优方略所达到的均衡叫做占优均衡例如,在学校中,学生平时学习也许是非常努力也也许是非常懒散;教师也许把考试题出的很难,也也许出的很容易从博弈论的角度,这里的教师和学生就构成了一种博弈,双方的报酬矩阵如下:教师出考题难易学生努力90,85100,90学习懒散50,6090,70 图 13-3 由于教师出难题比出容易题要耗费更多的时间和精力,因此收益较低,从而无论学生平时努力限度如何,教师一定选择出容易的题;由于学生只要努力学习就会获得更好的成绩,因此无论教师所出考题难度如何,学生一定会选择努力学习,这同样构成一种占优均衡。
常常遇到的尚有一种均衡,是有条件的均衡叫做纳什均衡简朴的说就是敌变我变、敌不变我亦不变在背面第二节中将具体简介纳什均衡 作业:改造图 13-3 中师生博弈的报酬函数,构造出纳什均衡六、囚犯两难困境:prisoners’ dilemma 囚犯两难困境是博弈论中一种出名的例子,讲的是甲乙两名嫌疑犯作案后被警察抓住,分别被关在不同的屋子里受审,双方不能互通消息,每名嫌疑犯都面临坦白和不坦白两种选择警察告诉她们:在两人都坦白的状况下,各判刑;在两人都不坦白的状况下,各判刑3年;在一人坦白另一人不坦白的状况下,坦白的一方会被从轻惩罚,只被判刑1年,不坦白的一方则被重判可以根据坦白后与否会受到制裁两种状况来讨论最后的均衡成果1. 坦白后不会受到制裁时的状况: 此时,双方收益矩阵如下:乙不坦白坦白甲不坦白-3,-3-15,-1坦白-1,-15-10,-10 图 13-4 如图,在乙不坦白的状况下,如果甲坦白,甲会被从轻惩罚,只被判刑1年,乙被重判;如果甲也不坦白,由于证据局限性,甲乙都只会被判刑3年在乙坦白的状况下,如果甲也坦白,甲乙会被判刑;如果甲不坦白,乙会被从轻惩罚,只被判刑1年,甲则被重判。
可见,在乙不坦白的状况下,甲最佳是坦白,从而可以被从轻惩罚;在乙坦白的状况下,由于被判刑总比要好,甲最佳也是坦白,因此甲会选择坦白同理,无论甲如何选择,乙的最佳选择也是坦白成果双方都选择坦白,都被判刑可见,国内公安机关“坦白从宽,抗拒从严”的心理攻势在大多数状况下都是可以奏效的囚犯两难困境阐明个人的理性也许导致集体成果的不妙在现实社会中,人人都追求完美反而也许会导致社会变得很糟糕2. 坦白后会受到制裁时的状况:博弈论的一种重要思想就是规则变化报酬矩阵,变化了报酬矩阵就会影响到行为方式如果犯罪组织有着严格的惩罚制度,任何一种罪犯坦白后,不管坦白的事情严重与否,犯罪组织一定会杀人灭口,并且总是能迅速做到这个规则将变化报酬矩阵,新的报酬矩阵如下图所示:乙不坦白坦白甲不坦白-3,-3-15,-∝坦白-∝,-15-∝,-∝ 图 13-5 由于坦白后将被灭口,因此收益将是-∝ 在乙不坦白的状况下,甲最佳是不坦白;在乙坦白的状况下,由于被判刑总比死去要好,甲最佳也是不坦白,因此甲会选择不坦白同理,无论甲如何选择,乙的最佳选择也是不坦白成果双方都选择不坦白,各自被判刑3年。
第二节 纳什均衡一、 举例 假定A、B两个公司都生产白酒,白酒分为高度和低度两种报酬矩阵如图所示:A公司高度低度B公司高度700,600900,1000低度800,900600,800 图 13-5 A公司如果选择了生产高度白酒,那么B公司会选择生产什么呢?由于800 > 700 ,因此B公司会选择生产低度白酒A公司如果选择了生产低度白酒,由于900 > 600 ,那么B公司会选择生产高度白酒如果B公司选择了生产高度白酒,A公司就会选择生产低度白酒如果B公司选择了生产低度白酒,A公司就会选择生产高度白酒这里,A公司的决策取决于B公司的决策,同样B公司的决策取决于A公司的决策但是A公司选择了生产高度白酒后来,只要不变化,B公司就会选择生产。