《第八章博弈论ppt课件》由会员分享,可在线阅读,更多相关《第八章博弈论ppt课件(129页珍藏版)》请在金锄头文库上搜索。
1、第八章第八章 博博 弈弈 论论 Game Theory 主主 要要 内内 容容l1.博弈论概述博弈论概述l2.完全信息静态博弈完全信息静态博弈l3.完全信息动态博弈完全信息动态博弈l4.不完全信息静态博弈不完全信息静态博弈l5.不完全信息动态博弈不完全信息动态博弈一一 博弈论概述博弈论概述l 博弈论(博弈论(Came theory)又称对策论、游戏理论或又称对策论、游戏理论或策略运筹学。它最早由德国数学家,哲学家莱布尼兹策略运筹学。它最早由德国数学家,哲学家莱布尼兹于于1710年提出。年提出。l 1713年,杰姆斯年,杰姆斯瓦尔德格雷夫首次提出了博弈瓦尔德格雷夫首次提出了博弈论中的极大中的极小
2、定理(论中的极大中的极小定理(minimax)。)。然而,直到然而,直到1944年,以冯年,以冯诺依曼和奥斯卡诺依曼和奥斯卡摩根斯坦合著摩根斯坦合著博博弈论与经济行为弈论与经济行为一书的出版为标志,博弈论才得以一书的出版为标志,博弈论才得以广泛应用于经济学领域,并成为微观经济学的一个新广泛应用于经济学领域,并成为微观经济学的一个新的重要组成部分。的重要组成部分。 博弈博弈思想最早产生于我国古代。思想最早产生于我国古代。 早早在在两两千千多多年年的的春春秋秋时时期期,孙孙武武在在孙孙子子兵兵法法中中论论述述的的军军事事思思想想和和治治国国策策略略,就就蕴蕴育育了了丰丰富富和和深深刻刻的的对对策策
3、论论思思想想。孙孙武武的的后后代代孙孙膑膑,为为田田忌忌谋谋划划,巧巧胜胜齐齐王王,这这个个著著名名的的“田田忌赛马忌赛马”,就是典型的对策思想的成功运用。,就是典型的对策思想的成功运用。l 1994年年10月月11日,瑞典皇家科学院公布了该年日,瑞典皇家科学院公布了该年度诺贝尔经济学奖评先结果:度诺贝尔经济学奖评先结果:l 美国普林斯顿大学的纳什(美国普林斯顿大学的纳什(F.J.Nash)和加利和加利福尼亚大学的豪尔绍尼(福尼亚大学的豪尔绍尼(J.Harsanyi)与德国波与德国波恩大学经济学家泽尔腾(恩大学经济学家泽尔腾(Reinhard.selten),),因因长期致力于博弈论及其在经济
4、学中运用的研究,长期致力于博弈论及其在经济学中运用的研究,共同获此殊荣。共同获此殊荣。纳什纳什John Nashl 2005年年10月月10日,瑞典皇家科学院在瑞典首都斯德日,瑞典皇家科学院在瑞典首都斯德哥尔摩的皇家科学院议事厅宣布,将哥尔摩的皇家科学院议事厅宣布,将2005年诺贝尔经年诺贝尔经济学奖授予有以色列和美国双重国籍的罗伯特济学奖授予有以色列和美国双重国籍的罗伯特奥曼奥曼和美国人托马斯和美国人托马斯谢林,以表彰他们通过博弈理论的谢林,以表彰他们通过博弈理论的分析增强世人对合作与冲突的理解。分析增强世人对合作与冲突的理解。l 博弈论与传统经济学有关理论的区别博弈论与传统经济学有关理论的
5、区别l 传统经济学涉及的个人决策,是在给定价格参数和收入的条传统经济学涉及的个人决策,是在给定价格参数和收入的条件下,追求效用最大化的决策(消费者均衡或生产者均衡);个件下,追求效用最大化的决策(消费者均衡或生产者均衡);个人效用只依赖于自己的选择,而外在于他人的选择;个人最优选人效用只依赖于自己的选择,而外在于他人的选择;个人最优选择只是价格和收入的函数而不包含其他人选择的函数。择只是价格和收入的函数而不包含其他人选择的函数。l 在博弈论看来,个人效用不仅依赖于自己的选择,而且依赖于在博弈论看来,个人效用不仅依赖于自己的选择,而且依赖于他人的选择;个人的最优选择是其他人选择的函数。他人的选择
6、;个人的最优选择是其他人选择的函数。 非合作博弈的发展非合作博弈的发展l 博弈论包括合作博弈与非合作博弈两种类型。我们博弈论包括合作博弈与非合作博弈两种类型。我们谈到的博弈论,一般是指非合作博弈,如下象棋等。谈到的博弈论,一般是指非合作博弈,如下象棋等。l 非合作博弈创立于非合作博弈创立于50年代。年代。1950年,年,22岁的纳什岁的纳什连续发表两篇划时代的论文:连续发表两篇划时代的论文:N个人对策的均衡点个人对策的均衡点与与讨价还价问题讨价还价问题,1951年又发表了年又发表了非合作对非合作对策策。(。(纳什均衡纳什均衡)l 塔克(塔克(A.Tucker)在)在1950年他的一篇名为年他的
7、一篇名为两个之两个之谜谜的论文中对的论文中对“囚徒困境囚徒困境”作了明确的定义。他们作了明确的定义。他们两人的著作基本上奠定了现代非合作博弈论的基石。两人的著作基本上奠定了现代非合作博弈论的基石。l 泽尔腾则在泽尔腾则在60年代中期将纳什均衡的概念引入年代中期将纳什均衡的概念引入动态动态分析分析。他在。他在1965年发表年发表需求减少条件下寡头垄断模需求减少条件下寡头垄断模型的对策论描述型的对策论描述一文,提出了一文,提出了“子博弈精炼纳什均子博弈精炼纳什均衡衡”(Subgame perfect Nash equilibrium)的概念,的概念,又称又称“子对策完美纳什均衡子对策完美纳什均衡”
8、。这一研究对纳什均衡。这一研究对纳什均衡进行了第一次改进,选择了更具说服力的均衡点。进行了第一次改进,选择了更具说服力的均衡点。l 豪尔绍尼在豪尔绍尼在60年代末把年代末把不完全信息不完全信息引入博弈分析。引入博弈分析。他在他在1967年发表的开拓性论文年发表的开拓性论文由贝叶斯局中人参加由贝叶斯局中人参加的不完全信息博弈的不完全信息博弈中重新给出了不完全信息的新定中重新给出了不完全信息的新定义,并由此提出义,并由此提出“贝叶斯均衡贝叶斯均衡”的概念。的概念。l 进入进入80年代后,克瑞普斯(年代后,克瑞普斯(kreps)和威尔逊和威尔逊(wilson)则对不完全信息动态博弈的研究作出了突则对
9、不完全信息动态博弈的研究作出了突出的贡献,并提出了更高级的均衡概念:出的贡献,并提出了更高级的均衡概念:“贝叶斯精贝叶斯精炼纳什均衡炼纳什均衡”或称或称“完美贝叶斯均衡完美贝叶斯均衡”。l 1博弈论在经济学领域中应用最广泛,最成功;博博弈论在经济学领域中应用最广泛,最成功;博弈论的许多成果也是借助于经济学的例子来发展引申弈论的许多成果也是借助于经济学的例子来发展引申的的;l 2经济学家对博弈论的贡献也越来越大,特别是经济学家对博弈论的贡献也越来越大,特别是在动态分析和不完全信息引入博弈后,例如克瑞普斯,在动态分析和不完全信息引入博弈后,例如克瑞普斯,威尔逊都是经济学家威尔逊都是经济学家;l 3
10、最根本性的原因是经济学和博弈论的研究模式最根本性的原因是经济学和博弈论的研究模式是一样的,都强调个人理性,即追求给定条件下效用是一样的,都强调个人理性,即追求给定条件下效用最大化。最大化。博弈专家之所以获经济学奖,原因大致有三点:博弈专家之所以获经济学奖,原因大致有三点:博弈论的基本概念博弈论的基本概念 博弈是指一些个人、团队或组织,面对一定的环境博弈是指一些个人、团队或组织,面对一定的环境条件,在一定的规则下,同时或先后,一次或多次,条件,在一定的规则下,同时或先后,一次或多次,从各自允许选择的行为或策略中进行选择并加以实施,从各自允许选择的行为或策略中进行选择并加以实施,各自从中取得相应结
11、果的过程。各自从中取得相应结果的过程。 博弈论就是描述在这种形势下各方理性地选择自己博弈论就是描述在这种形势下各方理性地选择自己的行动所实现的结果,分析各决策主体的行为发生相的行动所实现的结果,分析各决策主体的行为发生相互作用时的决策以及这种决策的均衡问题。互作用时的决策以及这种决策的均衡问题。例:房地产开发例:房地产开发l1、A B两个开发商,投资两个开发商,投资1亿;亿;l2、如果市场上有两栋房出售,需求大,每栋:、如果市场上有两栋房出售,需求大,每栋:1.4亿;需求小,每栋:亿;需求小,每栋:7千万;千万;l 如果市场上有一栋房出售,需求大,每栋:如果市场上有一栋房出售,需求大,每栋:1
12、.8亿;需求小,每栋:亿;需求小,每栋:1.1亿;亿;l3、开发与不开发。、开发与不开发。l 8种可能的结果种可能的结果l1、需求大,、需求大,A开发,开发,B不开发,则不开发,则A的利润的利润8千万,千万, B的利润为的利润为0;l2、需求大,、需求大,A开发,开发,B开发,则开发,则A的利润的利润4千千万,万, B的利润的利润4千万;千万;l3、需求大,、需求大,A不开发,不开发,B开发,则开发,则A的利润的利润0, B的利润为的利润为8千万;千万;l4、需求大,、需求大,A不开发,不开发,B不开发,利润各为不开发,利润各为0l5、需求小,、需求小,A开发,开发,B不开发,则不开发,则A的
13、利润的利润1千万,千万, B的利润为的利润为0;l6、需求小,、需求小,A开发,开发,B开发,则开发,则A的利润的利润-3千千万,万, B的利润的利润-3千万;千万;l7、需求小,、需求小,A不开发,不开发,B开发,则开发,则A的利润的利润0, B的利润为的利润为1千万;千万;l8、需求小,、需求小,A不开发,不开发,B不开发,利润各为不开发,利润各为0l 如果需求是不确定的,是否开发依赖于各自在如果需求是不确定的,是否开发依赖于各自在多大程度上认为市场需求是大的及对方是否开发。多大程度上认为市场需求是大的及对方是否开发。l 例:如需求大的概率为例:如需求大的概率为0.3,A认为认为B开发的可
14、能开发的可能性为性为x,那么那么A开发的期望利润为:开发的期望利润为:l Eu=0.34000x+8000(1-x)+l 0.7-3000x+1000(1-x)lA不开发的期望利润为不开发的期望利润为0。解。解Eu0 x31/40博弈三要素、信息及博弈均衡博弈三要素、信息及博弈均衡l(1)局中人()局中人(player):):指参加博弈的各个决策个体,指参加博弈的各个决策个体,既可以是自然人,也可以是团体。局中人都是既可以是自然人,也可以是团体。局中人都是“理性理性”的,即他清楚地了解自己的目标或利益所在,在决的,即他清楚地了解自己的目标或利益所在,在决策时考虑自己的知识(信息)以及对其他局中
15、人策略策时考虑自己的知识(信息)以及对其他局中人策略的期望,总是采取最佳行动(或策略)以实现其支付的期望,总是采取最佳行动(或策略)以实现其支付的最大化。的最大化。l 虚拟局中人:自然,是外部随机变量,对所有利益虚拟局中人:自然,是外部随机变量,对所有利益主体都无差异。主体都无差异。l (2)行动与策略()行动与策略( actions or strategies) 。行动是。行动是局中人在博弈的某个时点的决策变量;每一个局中人的所局中人在博弈的某个时点的决策变量;每一个局中人的所有可能选择的行动的集合称这该局中人的行动空间有可能选择的行动的集合称这该局中人的行动空间(action space)
16、;);所有局中人的行动的一个有序集合称所有局中人的行动的一个有序集合称为该博弈的一个行动组合(为该博弈的一个行动组合(action profile););l 策略是局中人在所有给定信息集(信息集是局中人在特策略是局中人在所有给定信息集(信息集是局中人在特定时刻进行决策时所面对的集合)下的行动规则,他规定定时刻进行决策时所面对的集合)下的行动规则,他规定局中人在什么时候选择什么行动。局中人在什么时候选择什么行动。l l 策略和行动不是等同的,它是行动的规则而不是行动本策略和行动不是等同的,它是行动的规则而不是行动本身,策略必须具有完备性,即一个策略是关于行动的一个身,策略必须具有完备性,即一个策
17、略是关于行动的一个完整计划完整计划它明确了局中人在每一种可能情况下对可行它明确了局中人在每一种可能情况下对可行动的选择;一个局中人所有可能策略的集合称为该局中人动的选择;一个局中人所有可能策略的集合称为该局中人的策略空间(的策略空间(stratgy space),),所有局中人策略的一个所有局中人策略的一个有序集合称为博弈的一个策略组合(有序集合称为博弈的一个策略组合(strategy profile。l Si=si S=(s1,s2,si sn)l 如果一个策略规定局中人在每一个给定信息的情况下,如果一个策略规定局中人在每一个给定信息的情况下,选择一种特定的行动,则这个策略称为纯策略(选择一
18、种特定的行动,则这个策略称为纯策略(pure strategies)。)。相反,如果一个策略规定局中人在每一个相反,如果一个策略规定局中人在每一个给定信息的情况下,以某种概率分布随机地选择不同的行给定信息的情况下,以某种概率分布随机地选择不同的行动,则这种策略称为混合策略(动,则这种策略称为混合策略(mixed strategies)l (3)支付()支付(pay off):):指在一个特定的策略组合下,局中人得到指在一个特定的策略组合下,局中人得到的效用水平或期望效用水平。一个局中人的支付是所有局中人的策略的效用水平或期望效用水平。一个局中人的支付是所有局中人的策略选择的函数,它不仅取决于自
19、己的策略选择,而且还取决于(他所设选择的函数,它不仅取决于自己的策略选择,而且还取决于(他所设想的)所有其他局中人的策略选择,任何一个局中人改变自己的策略想的)所有其他局中人的策略选择,任何一个局中人改变自己的策略都将影响其他局中人的支付水平,即,局中人之间的利益是相互牵制都将影响其他局中人的支付水平,即,局中人之间的利益是相互牵制的和制约的。所有局中人的支付的一个有序集合称为博弈的一个支付的和制约的。所有局中人的支付的一个有序集合称为博弈的一个支付组合(组合(payoff profile。l Ui=Ui(s1,s2,si sn)l 参与博弈的多个局中人的收益可用一个矩阵或框图表示,这种矩阵参
20、与博弈的多个局中人的收益可用一个矩阵或框图表示,这种矩阵或框图叫做收益矩阵。或框图叫做收益矩阵。l (4)信息()信息(information):):是局中人有关博弈的知识,是局中人有关博弈的知识,特别是有关其他局中人的特征(如策略空间、支付函数等特别是有关其他局中人的特征(如策略空间、支付函数等等)和行动的知识。信息集(等)和行动的知识。信息集(information sets)是局中是局中人在特定时刻进行决策时,所面对的信息变量值的集合。人在特定时刻进行决策时,所面对的信息变量值的集合。共同知识(共同知识(common knowledge)是指是指“所有局中人知所有局中人知道,所有局中人知
21、道所有局人知道,道,所有局中人知道所有局人知道,”(或信息)。(或信息)。如果局中人的策略选择、支付函数等都是共同知识,则称如果局中人的策略选择、支付函数等都是共同知识,则称之为完全信息(之为完全信息(complete information ),),否则就是不否则就是不完全信息(完全信息(incomplete information )l (5)博弈均衡()博弈均衡(games equilibrium):):是指所有局中是指所有局中人的最优策略组合。这里所讲的均衡与一般均衡是有区别人的最优策略组合。这里所讲的均衡与一般均衡是有区别的,前者是局中人的最优策略组合,即局中人之间的冲突的,前者是局
22、中人的最优策略组合,即局中人之间的冲突与合作达到一种相对稳定的状态;而后者则是这种策略组与合作达到一种相对稳定的状态;而后者则是这种策略组合所产生的结果。从某种程度上讲是合所产生的结果。从某种程度上讲是“均衡均衡”和和“均衡结均衡结果果”的关系。前者是一种动态概念,后者是一种静态概念。的关系。前者是一种动态概念,后者是一种静态概念。与纯策略相对应的均衡是纯策略均衡,与混合策略相对应与纯策略相对应的均衡是纯策略均衡,与混合策略相对应的均衡是混合策略均衡。的均衡是混合策略均衡。博弈的类型博弈的类型 根据博弈者选择的策略,博弈论可划分为合作根据博弈者选择的策略,博弈论可划分为合作博弈与非合作博弈。纳
23、什(博弈与非合作博弈。纳什(Nash)、)、泽尔腾泽尔腾(Selten)和)和豪尔绍尼豪尔绍尼(Harsanyi)()(19941994诺贝尔经诺贝尔经济学奖获得者)的主要贡献在于非合作博弈方面,而济学奖获得者)的主要贡献在于非合作博弈方面,而且现在大多数经济学家论及博弈时,也主要是指非合且现在大多数经济学家论及博弈时,也主要是指非合作博弈。作博弈。 合作博弈和非合作博弈的区别在于人们的行动为相互作合作博弈和非合作博弈的区别在于人们的行动为相互作用时,当事人能否达成一个具有约束力(用时,当事人能否达成一个具有约束力(binding agreement)的协议。若有,就是合作博弈;否则就是非合的
24、协议。若有,就是合作博弈;否则就是非合作博弈。作博弈。 合作博弈强调的是团体理性、效率、公正和公平。非合作合作博弈强调的是团体理性、效率、公正和公平。非合作博弈强调的是个人理性、个人最优决策,其结果可能是有效博弈强调的是个人理性、个人最优决策,其结果可能是有效率的,也可能是无效率的。率的,也可能是无效率的。 从局中人行动的先后顺序可划分为静态博弈(从局中人行动的先后顺序可划分为静态博弈(Static Static gamegame)和动态博弈(和动态博弈(dynamic gamedynamic game)。)。静态博弈是指在博静态博弈是指在博弈中,局中人同时选择行动或虽非同时行动但后行动者并弈
25、中,局中人同时选择行动或虽非同时行动但后行动者并不知道先行动者采取了什么具体行动。动态博弈是指局中不知道先行动者采取了什么具体行动。动态博弈是指局中人的行动有先后顺序,且后行动者能够观察到先行动者所人的行动有先后顺序,且后行动者能够观察到先行动者所选择的行动。选择的行动。 从局中人是否具有有关其他参与人(对手)的特征、从局中人是否具有有关其他参与人(对手)的特征、策略空间及支付函数方面的知识的角度,可划分为完策略空间及支付函数方面的知识的角度,可划分为完全信息博弈全信息博弈( (game of complete information) )和不完全信和不完全信息博弈息博弈( (game of
26、incomplete information) )。 此外,根据支付结构不同:常和与变和博弈此外,根据支付结构不同:常和与变和博弈l博弈的分类博弈的分类特征特征完全信息完全信息不完全信息不完全信息静态静态纳什均衡纳什均衡纳什(纳什(1950,1951)贝叶斯纳什均衡贝叶斯纳什均衡豪尔绍尼(豪尔绍尼(1967,1968)动态动态子博弈精练纳什均子博弈精练纳什均衡衡泽尔腾(泽尔腾(1965)精练贝叶斯纳什均衡精练贝叶斯纳什均衡泽尔腾(泽尔腾(1975)克瑞普斯和威尔逊克瑞普斯和威尔逊(1982)博弈的表述方式:策略式与扩展式博弈的表述方式:策略式与扩展式l策略式:支付矩阵策略式:支付矩阵 囚犯囚犯
27、B的的 策略策略囚犯囚犯A的策略的策略坦白坦白抵赖抵赖坦白坦白-8,-80,-10抵赖抵赖-10,0-1,-1l扩展式:博弈树扩展式:博弈树(4,4)(8,0)(-3,-3)(1,0)(0,8)(0,0)(0,1) (0,0)开发开发不开发不开发开发开发不开发不开发开发开发不开发不开发开发开发不开发不开发BBBB大大大大小小小开发开发不开发不开发NN(1/2)(1/2)(1/2)(1/2)8-1A 博弈论进入主流经济学,反映了经济学发展的博弈论进入主流经济学,反映了经济学发展的以下几个趋势:以下几个趋势: l l 第一,经济学研究的对象越来越转向个体,放弃了一第一,经济学研究的对象越来越转向个
28、体,放弃了一些没有微观基础的假定,如消费函数及其投资函数、销售些没有微观基础的假定,如消费函数及其投资函数、销售最大化等,一切从个人效用函数及其约束条件开始,解约最大化等,一切从个人效用函数及其约束条件开始,解约束条件下的个人效用函数及其约束条件开始,解约束条件束条件下的个人效用函数及其约束条件开始,解约束条件下的个人效用最大化问题而导出行为及均衡结果。下的个人效用最大化问题而导出行为及均衡结果。 l 第二,经济学越来越转向人与人关系的研第二,经济学越来越转向人与人关系的研究,特别是人与人之间行为的相互影响和作用,究,特别是人与人之间行为的相互影响和作用,人们之间的利益冲突与一致,竞争与合作的
29、研人们之间的利益冲突与一致,竞争与合作的研究。究。 l 第三,第三, 经济学越来越重视对信息的研究,经济学越来越重视对信息的研究,特别是信息不对称对个人选择及制度安排的影特别是信息不对称对个人选择及制度安排的影响。响。 “完全信息完全信息”指的是每个局中人对所有其他参与指的是每个局中人对所有其他参与人的特征(策略空间、支付函数等)有完全的了解,人的特征(策略空间、支付函数等)有完全的了解,“静态静态”指的是所有局中人同时选择行动且只选择指的是所有局中人同时选择行动且只选择一次。纳什均衡是完全信息静态博弈解的一般概念,一次。纳什均衡是完全信息静态博弈解的一般概念,也是所有其他类型博弈解的基本要求
30、。先讨论纳什也是所有其他类型博弈解的基本要求。先讨论纳什均衡的特殊情况,然后讨论纳什均衡的一般概念。均衡的特殊情况,然后讨论纳什均衡的一般概念。 二二 完全信息静态博弈完全信息静态博弈 在策略式表述中,所有参与人同时选择各自的策略,所有在策略式表述中,所有参与人同时选择各自的策略,所有参与人选择的策略一起决定每个参与人的支付。参与人选择的策略一起决定每个参与人的支付。 策略式表述给出:策略式表述给出: 通常情况下,每个局中人的支付是博弈中所有参与人策通常情况下,每个局中人的支付是博弈中所有参与人策略的函数,故每个局中人的最优策略选择依赖于所有其他参略的函数,故每个局中人的最优策略选择依赖于所有
31、其他参与人的策略选择。但与人的策略选择。但在一些特殊博弈中,一个参与人的最优在一些特殊博弈中,一个参与人的最优策略选择可能并不依赖于其他参与人的策略选择,即无论其策略选择可能并不依赖于其他参与人的策略选择,即无论其他参与人选择什么策略,他的最优策略是唯一的,这种最优他参与人选择什么策略,他的最优策略是唯一的,这种最优策略被称为策略被称为“占优策略占优策略”(dominant strategy)。)。 例:例:“囚徒困境囚徒困境” 囚徒困境是博弈论中的经典案例。该故事讲的是,两个嫌囚徒困境是博弈论中的经典案例。该故事讲的是,两个嫌疑犯作案后被警察抓住,分别被关在不同的房间里进行审讯。疑犯作案后被
32、警察抓住,分别被关在不同的房间里进行审讯。警察知道两人有罪,但缺乏有力的证据,除非两人之中有一警察知道两人有罪,但缺乏有力的证据,除非两人之中有一个坦白。警察告诉每个人,他们的可选择的策略与支付如下个坦白。警察告诉每个人,他们的可选择的策略与支付如下表:表:(一一)占优策略均衡占优策略均衡 在该博弈中,每个囚徒有两种可能选择的策略:坦白和抵在该博弈中,每个囚徒有两种可能选择的策略:坦白和抵赖。显然,无论同伙选择什么策略,每个囚徒的最优策略都赖。显然,无论同伙选择什么策略,每个囚徒的最优策略都是是“坦白坦白”。如,。如,B选择坦白,若选择坦白,若A选择坦白时支付为选择坦白时支付为-8,选,选择抵
33、赖时支付为择抵赖时支付为-10,因而坦白比抵赖好;若,因而坦白比抵赖好;若B选择抵赖,选择抵赖,A坦白时的支付为坦白时的支付为0,抵赖时为,抵赖时为-1,因而坦白比抵赖好。即是说,因而坦白比抵赖好。即是说,“坦白坦白”是是A的占优策略。同样,的占优策略。同样,“坦白坦白”也是也是B的占优策略。的占优策略。 囚犯囚犯B的的 策略策略囚犯囚犯A的策略的策略坦白坦白抵赖抵赖坦白坦白-8,-80,-10抵赖抵赖-10,0-1,-1 一般地,称 对应地,所有的对应地,所有的 被称为被称为“劣策略劣策略”。注意:这里。注意:这里 在一个博弈里,可以预测到的唯一均衡,因为没有一个理性的在一个博弈里,可以预测
34、到的唯一均衡,因为没有一个理性的参与人会选择劣若所有参与人都有占优策略存在,则占优策参与人会选择劣若所有参与人都有占优策略存在,则占优策略均衡是策略。在囚徒困境的博弈里,(坦白,坦白)是占略均衡是策略。在囚徒困境的博弈里,(坦白,坦白)是占优策略均衡优策略均衡。l广告战广告战 广告广告 AB不不广告广告广告广告不不广告广告10,515,06,810,2( (二二) )重复剔除的占优策略均衡重复剔除的占优策略均衡 在绝大多数博弈中,并不存在占优策略均衡。但在有些博在绝大多数博弈中,并不存在占优策略均衡。但在有些博弈中,仍可应用占优的逻辑找出均衡。弈中,仍可应用占优的逻辑找出均衡。 案例:案例:“
35、猪智博弈猪智博弈” 猪圈里有两头猪(大猪和小猪),猪圈一头有一猪食槽猪圈里有两头猪(大猪和小猪),猪圈一头有一猪食槽,另一头安装着一个按制猪食供应的按钮,按一下钮,有另一头安装着一个按制猪食供应的按钮,按一下钮,有8个单个单位的猪食进槽,但需位的猪食进槽,但需2个单位的成本。两头猪有两种策略:按个单位的成本。两头猪有两种策略:按钮和等待。具体的博弈支付和结果如下表:钮和等待。具体的博弈支付和结果如下表: 按按钮的猪按按钮的猪吃到的猪食吃到的猪食大猪大猪小猪小猪大猪大猪44小猪小猪71两猪同时两猪同时53 按按钮对对吃食量的影响按按钮对对吃食量的影响小猪小猪按按钮按按钮等待等待大猪大猪按按钮按按
36、钮3,12,4等待等待7,-10,0智猪博弈智猪博弈 依赖于小猪的策略:若小猪选依赖于小猪的策略:若小猪选“等待等待”,大猪的最优策略,大猪的最优策略是是“按按”;若小猪选;若小猪选“按按”,大猪的最优策略为,大猪的最优策略为“等待等待”。因此,不能用上述占优策略找出均衡。因此,不能用上述占优策略找出均衡。 可能的均衡是什么呢?若小猪是理性的,他只会选可能的均衡是什么呢?若小猪是理性的,他只会选“等待等待”,因为,因为“等待等待”严格优于严格优于“按按”。假定大猪知道小猪是理。假定大猪知道小猪是理性的,则会预测到小猪的选择;此时,大猪的最优选择只能性的,则会预测到小猪的选择;此时,大猪的最优选
37、择只能是是“按按”。因此,(按,等待)是该博弈唯一的均衡。因此,(按,等待)是该博弈唯一的均衡。 找出上述均衡的思路是:先找出某个参与人的劣策略(假定存找出上述均衡的思路是:先找出某个参与人的劣策略(假定存在),把它剔除,重新构造一个不包含已剔除策略的新博弈;在),把它剔除,重新构造一个不包含已剔除策略的新博弈;然后再剔除新博弈中某个参与人的劣策略;然后再剔除新博弈中某个参与人的劣策略;直至剩下一直至剩下一个唯一的策略组合。该策略组合就是博弈的均衡解,称为个唯一的策略组合。该策略组合就是博弈的均衡解,称为“重复剔除的占优策略重复剔除的占优策略 均衡均衡”。上例中,先剔除小猪的劣策略。上例中,先
38、剔除小猪的劣策略“按按”,在新博弈中,在新博弈中,小猪只有小猪只有“等待等待”一个策略,大猪仍有两个策略,但一个策略,大猪仍有两个策略,但“等待等待”是它的劣策略,剔除它,就剩下唯一的策略组合(按,待是它的劣策略,剔除它,就剩下唯一的策略组合(按,待待)。待)。 占优策略是指一个参与人所有可选择的策略中严格优于所占优策略是指一个参与人所有可选择的策略中严格优于所有其他策略的那个策略。但应用重复剔除方法寻找均衡时,有其他策略的那个策略。但应用重复剔除方法寻找均衡时,一个策略是占优策略或劣策略只是相对于另一特定的策略而一个策略是占优策略或劣策略只是相对于另一特定的策略而言的。言的。 l l 重复剔
39、除的占优策略均衡:策略组合重复剔除的占优策略均衡:策略组合 称为重复称为重复剔除的占优均衡,若它是重复剔除劣策略后剩下的唯一均衡。若剔除的占优均衡,若它是重复剔除劣策略后剩下的唯一均衡。若该唯一的策略组合是存在的,则该博弈是重复剔除占优可解的。该唯一的策略组合是存在的,则该博弈是重复剔除占优可解的。 例:找出下列博弈的重复剔除的占优策略均衡例:找出下列博弈的重复剔除的占优策略均衡 局中人局中人BLMR局中人局中人AU1,01,20,1D0,30,12,0 解解:局中人局中人BLM局中人局中人AU1,01,2D0,30,1局中人局中人BLM局中人局中人AU1,01,2l例:股份公司中,大股东与小
40、股东例:股份公司中,大股东与小股东l 股票市场上,大户与小户股票市场上,大户与小户l 新产品开发中,大企业与小企业新产品开发中,大企业与小企业l “多劳不多得,少劳不少得多劳不多得,少劳不少得” (三三)纳什均衡纳什均衡 纳什均衡纳什均衡 (Nash equilibrium)是指这样一种均衡,博弈是指这样一种均衡,博弈中的每个局中人都确信,在其他局中人策略给定的情况下,中的每个局中人都确信,在其他局中人策略给定的情况下,他选择了最优策略。他选择了最优策略。博弈的理想结局是,每个局中人选择的博弈的理想结局是,每个局中人选择的策略是对其他局中人所选策略的最佳反应,其中每一个局中策略是对其他局中人所
41、选策略的最佳反应,其中每一个局中人都不能因单方面改变自己的策略而获益。人都不能因单方面改变自己的策略而获益。 容易检验,囚徒困境中的(坦白,坦白)是一个纳什均衡,而(抵赖,抵赖)不是一个纳什均衡,因为给定同伙选择抵赖,自己选抵赖得-1,选坦白得0,因而抵赖不是自己的最优策略,类似地,(坦白,抵赖)和(抵赖,坦白)也不是纳什均衡。同样( U,M)也是一个纳什均衡。 在两人博弈中,有一简单的方法。首先,考虑A的策略,对于每一个B的给定策略,找出A的最优策略,在其对应的支付下划一横线,然后,用类似的方法找出B的最优策略,若某个支付格的两个数字下都有横线,则该格对应的 策略组合就是一个纳什均衡。策略组
42、合就是一个纳什均衡。 表表参与人BLCR参与人AU0,44,05,3M4,00,45,3D3,53,56,6l斗鸡斗鸡博弈博弈 AB进进退退进进退退-3,-32,00,20,0l麦片商麦片商博弈博弈 咸麦片咸麦片甜麦片甜麦片AB咸咸麦片麦片甜甜麦片麦片-5,-510,1010,10-5,-5*纳什均衡与占优策略均衡及重复剔除的占优均衡之间的关系 (1)每一个占优策略均衡、重复剔除的占优均衡一定是)每一个占优策略均衡、重复剔除的占优均衡一定是纳什均衡,但逆命题不一定成立。如在囚徒困境博弈里,纳什均衡,但逆命题不一定成立。如在囚徒困境博弈里,(坦白,坦白)是一个占优策略均衡、重复剔除的占优均衡,(
43、坦白,坦白)是一个占优策略均衡、重复剔除的占优均衡,也是一个纳什均衡;猪智博弈中的(按,等待)是一个重复也是一个纳什均衡;猪智博弈中的(按,等待)是一个重复剔除的占优均衡,也是一个纳什均衡;但在表剔除的占优均衡,也是一个纳什均衡;但在表中的(中的(D,R)是一个纳什均衡,但不是一个重复剔除的占优均衡或占是一个纳什均衡,但不是一个重复剔除的占优均衡或占优策略均衡。优策略均衡。 (2)纳什均衡一定是在重复剔除严格劣策略过程中没有)纳什均衡一定是在重复剔除严格劣策略过程中没有被剔除掉的策略组合,但没有被剔除掉的策略组合不一定是被剔除掉的策略组合,但没有被剔除掉的策略组合不一定是纳什均衡,除非它是唯一
44、的。如(抵纳什均衡,除非它是唯一的。如(抵 赖,抵赖)被剔除掉了,故它不是一个纳什均衡,而(坦白,赖,抵赖)被剔除掉了,故它不是一个纳什均衡,而(坦白,坦白)是一个纳什均衡,故它没有被剔除掉。在表坦白)是一个纳什均衡,故它没有被剔除掉。在表中,没中,没有任何一个策略严格劣于另一个策略,因而没有一个策略组有任何一个策略严格劣于另一个策略,因而没有一个策略组合能被剔除掉,即没有被剔除掉的策略组合很多,但(合能被剔除掉,即没有被剔除掉的策略组合很多,但(D,R)是唯一的一个纳什均衡。是唯一的一个纳什均衡。 有些博弈不存在纳什均衡。有些博弈不存在纳什均衡。 例一:社会福利博弈(支付矩阵如下表)例一:社
45、会福利博弈(支付矩阵如下表)。流浪汉流浪汉找工作找工作游荡游荡政府政府救济救济3,2-1,3不救济不救济-1,10,0 (四四)混合策略纳什均衡混合策略纳什均衡 例二:猜谜游戏(猜硬币)(支付矩阵如下表)。例二:猜谜游戏(猜硬币)(支付矩阵如下表)。儿童儿童B正面正面反面反面儿童儿童A正面正面-1,11,-1反面反面1,-1-1,1 该博弈是一个零和博弈,没有纳什均衡。如(正面,正该博弈是一个零和博弈,没有纳什均衡。如(正面,正面)不是纳什均衡,因为给定面)不是纳什均衡,因为给定B选正面,选正面,A的最优选择是反面。的最优选择是反面。类似地,(反面,正面)、(反面,反面)、(正面,反面)类似地
46、,(反面,正面)、(反面,反面)、(正面,反面)都不是纳什均衡。都不是纳什均衡。 这两个例子虽然不存在上面所定义的纳什均衡,但具有这两个例子虽然不存在上面所定义的纳什均衡,但具有下面将要描述的混合策略纳什均衡。下面将要描述的混合策略纳什均衡。 纯策略和混合策略纳什均衡。纯策略和混合策略纳什均衡。 如果一个策略规定参与人在每一个给定的信息情况下下只选如果一个策略规定参与人在每一个给定的信息情况下下只选择一种特定的行动,则称该策略为纯策略。若一个策略规定参择一种特定的行动,则称该策略为纯策略。若一个策略规定参与人在给定信息情况下以某种概率分布随机地选择不同的行动,与人在给定信息情况下以某种概率分布
47、随机地选择不同的行动,则称该策略为混合策略。在博弈的策略式表述中,混合策略可则称该策略为混合策略。在博弈的策略式表述中,混合策略可定义为在纯策略空间上的概率分布。定义为在纯策略空间上的概率分布。 社会福利博弈的支付矩阵流浪汉流浪汉找工作找工作游荡游荡政府政府救济救济3,2-1,3不救济不救济-1,10,0 假定政府的混合策略为假定政府的混合策略为G=(=(,1-,1-) )(即政府以即政府以的概率选的概率选救济,救济,1-1-的概率选不救济),流浪汉的混合策略为的概率选不救济),流浪汉的混合策略为L=(r,1-r)=(r,1-r)(即流浪汉以即流浪汉以r r的概率选找工作,以的概率选找工作,以
48、1-r1-r的概率选的概率选游荡)。则政府的效用函数为游荡)。则政府的效用函数为: : 求其微分可得到政府最优化的一阶条件求其微分可得到政府最优化的一阶条件: : 在混合策略均衡在混合策略均衡, ,流浪汉以流浪汉以0.2的概率选寻找工作,的概率选寻找工作, 0.8的概的概率选游荡。率选游荡。 问题是,解政府的最优化问题得到的却是流浪汉的混合策略。问题是,解政府的最优化问题得到的却是流浪汉的混合策略。对此的可作如下解释:首先假定最优混合策略是存在的。给对此的可作如下解释:首先假定最优混合策略是存在的。给定流浪汉选择混合策略(定流浪汉选择混合策略(r,1-r),),政府政府选纯策略救策略救济(即(
49、即=1=1)的期望效用为:的期望效用为: 选择纯策略不救济(即选择纯策略不救济(即=0=0)的期望效用为:的期望效用为: 如果一个混合策略如果一个混合策略 是政府的最优选择,则一定意味着是政府的最优选择,则一定意味着政府救济与不救济之间是无差异的,即:政府救济与不救济之间是无差异的,即: 上式意味着上式意味着 。即若。即若 政府将选择不救济;若政府将选择不救济;若 ,政府将选择救济;只有当,政府将选择救济;只有当 时,政府才会选择混时,政府才会选择混合策略合策略 或任何纯策略。或任何纯策略。 要找出政府的均衡混合策略,需求流浪汉的最优化问题。要找出政府的均衡混合策略,需求流浪汉的最优化问题。流
50、浪汉的效用函数为:流浪汉的效用函数为: 最优化一阶条件为: 因此, l该结论可解释为:若该结论可解释为:若0.5,其最优选择是游荡;只有当其最优选择是游荡;只有当=0.5时,他才选择混合策略或任何纯策略。时,他才选择混合策略或任何纯策略。 纳什均衡要求每个参与人的混合策略是给定对方纳什均衡要求每个参与人的混合策略是给定对方的混合策略下的最优选择。故的混合策略下的最优选择。故*=0.5,r r*=0.2是唯一是唯一的纳什均衡。即在均衡时,政府以的纳什均衡。即在均衡时,政府以0.5的概率选救济,的概率选救济,0.5的概率选不救济;流浪汉以的概率选不救济;流浪汉以0.2的概率选找工作,的概率选找工作
51、,以以0.8的概率选游荡。的概率选游荡。 也可从反面进行说明。假定政府认为流浪汉找也可从反面进行说明。假定政府认为流浪汉找工作的概率严格小于工作的概率严格小于0.2,则政府的唯一最优选择,则政府的唯一最优选择是纯策略不救济;但若政府以是纯策略不救济;但若政府以1的概率选不救济,的概率选不救济,流浪汉的最优选择是找工作,这又将导致政府选流浪汉的最优选择是找工作,这又将导致政府选择救济,流浪汉则选游荡,择救济,流浪汉则选游荡,。因此,。因此,r r0.2不构成纳什均不构成纳什均衡。容易验证衡。容易验证, 0.5也都不构成纳什也都不构成纳什均衡。均衡。社会福利博弈的反应曲线0.50.2NE11r =
52、 (r)r=r() 纳什均衡的弱点:(纳什均衡的弱点:(1) 多重性。同一博弈里有时会出现多重性。同一博弈里有时会出现多个纳什均衡,即一般怀况下不能保证其唯一性。(多个纳什均衡,即一般怀况下不能保证其唯一性。(2)有些)有些纳什均衡并不合理。纳什均衡并不合理。女女足球足球芭蕾芭蕾男男足球足球2,10,0芭蕾芭蕾0,01,2 如在如在“性别战性别战”博弈中,有两个纯策略纳什均衡:(足球,博弈中,有两个纯策略纳什均衡:(足球,足球),(芭蕾,芭蕾)。事实上,可以验证,还有一个混足球),(芭蕾,芭蕾)。事实上,可以验证,还有一个混合策略纳什均衡,即男的以合策略纳什均衡,即男的以2/3的概率选择足球赛
53、,以的概率选择足球赛,以1/3的概的概率选择芭蕾舞;女的以率选择芭蕾舞;女的以1/3的概率选择足球赛,以的概率选择足球赛,以2/3的概率选的概率选择芭蕾舞。择芭蕾舞。 (五五)最大最小(或最小最大原理)最大最小(或最小最大原理) 设设2人博弈的局中人为甲和乙,甲的策略为人博弈的局中人为甲和乙,甲的策略为,乙的策略为,乙的策略为 ;二者的支付函数为:;二者的支付函数为: 和和 ,相应支付矩阵为:,相应支付矩阵为: 该博弈的支付矩阵如下表:第一行和第一列表示局中人的不该博弈的支付矩阵如下表:第一行和第一列表示局中人的不同策略,其他的有序对表示局中人的支付,其中的第一项和同策略,其他的有序对表示局中
54、人的支付,其中的第一项和第二项表示甲和乙在其对应策略下可获得的支付或收益,如第二项表示甲和乙在其对应策略下可获得的支付或收益,如f11和和g11 ,局中人的目标是选择使自己的收益最大化的策略。局中人的目标是选择使自己的收益最大化的策略。 两人博弈的支付矩阵:两人博弈的支付矩阵: 决策问题:决策问题: 假定支付为共同知识,如果甲知道乙采用策略假定支付为共同知识,如果甲知道乙采用策略yj,甲必然采取甲必然采取相应策略使自己的收益最大,即:相应策略使自己的收益最大,即: 在甲不知道乙会采取何种策略时,如果甲是一个风险规避者,在甲不知道乙会采取何种策略时,如果甲是一个风险规避者,他将从收益矩阵中找出自
55、己的每一种策略下所能获得的最小他将从收益矩阵中找出自己的每一种策略下所能获得的最小支付,即先求解支付,即先求解 , 然后再这些最小收益策略中选择收益最大的策略。即然后再这些最小收益策略中选择收益最大的策略。即 该方法的合理性是无论对方采取何种策略,甲至少可获得这个该方法的合理性是无论对方采取何种策略,甲至少可获得这个最小值中的最大值,最小值中的最大值,最小最大原理。局中人按该原则所最小最大原理。局中人按该原则所确定的策略叫做稳妥策略。确定的策略叫做稳妥策略。 类似地,对乙也有:类似地,对乙也有: 用同样的方法可导出最大最小原理。即局中人先从支付矩阵中找出其每一种策略下的最大损失,然后从这些最大
56、损失策略中选择损失最小的策略。 例:寡头企业的博弈过程例:寡头企业的博弈过程 两寡头企业甲和乙展开竞争,两者可采用三种经营策略(1,2,3),且甲在竞争中得到的收益恰好等于乙在竞争中失去的收益。甲的支付矩阵如下表: 甲的策略乙的策略12317 8 926233540 1.乙先行动。若乙选1,则甲选3;乙选2,则甲选1;乙选3,则甲选1。乙在行动时会估计到甲的行动,它估计三种选择中的最高代价为策略1(损失900万),其次为策略2(损失600万),最低为策略3(损失为500万)。因此,乙必选代价最低的策略3。最大最小原理。结论:乙选择3,甲选1作为回应,乙损失500万,甲获益500万。 乙的支付矩
57、阵: 甲的策略乙的策略1231-7-8-92-6-2-33-5-40 2.甲先行动。若甲选1,则乙选3;甲选2,则乙选2;甲选3,则乙选3。甲必在收益最小值中选最大值。最小最大原理。结论:甲选1,乙以3进行回应。甲得500万,乙损失500万。三、完全信息动态博弈三、完全信息动态博弈l(一)动态博弈的特点动态博弈的特点l(1)静态博弈是一次定乾坤,而现实竞争中,行动)静态博弈是一次定乾坤,而现实竞争中,行动往往有先有后,多有连续博弈:这一方先做出决策,往往有先有后,多有连续博弈:这一方先做出决策,另一方后做出对策,然后,这一方再做出对策,另一另一方后做出对策,然后,这一方再做出对策,另一方再做出
58、对策,只有经过多个回合的较量以后,才能方再做出对策,只有经过多个回合的较量以后,才能有个水落石出。因此,构成动态博弈的是许多乃至无有个水落石出。因此,构成动态博弈的是许多乃至无限个子博弈或阶段博弈。限个子博弈或阶段博弈。l(2)静态博弈不一定考虑对手怎样应付自己的策略)静态博弈不一定考虑对手怎样应付自己的策略选择,而动态博弈必须预估对方各种可能反应,制定选择,而动态博弈必须预估对方各种可能反应,制定包括各种行动方案的策略。如果说,静态博弈的一个包括各种行动方案的策略。如果说,静态博弈的一个策略就是一个行动,动态博弈则一个策略包括一系列策略就是一个行动,动态博弈则一个策略包括一系列可能的行动。可
59、能的行动。l(3)静态博弈面对既定策略(包括纯策略和)静态博弈面对既定策略(包括纯策略和混策略)进行自己的策略选择,动态博弈则必混策略)进行自己的策略选择,动态博弈则必须首先识别对方策略选择的可信性问题,包括须首先识别对方策略选择的可信性问题,包括对自己不利的威胁和对自己有利的许诺。排除对自己不利的威胁和对自己有利的许诺。排除不可置信的威胁和许诺,是动态博弈有别于静不可置信的威胁和许诺,是动态博弈有别于静态博弈的重要标志。态博弈的重要标志。l (4)正因如此,静态博弈往往有不止一个、)正因如此,静态博弈往往有不止一个、甚至无穷多个纳什均衡解,而动态博弈则可能甚至无穷多个纳什均衡解,而动态博弈则
60、可能减少乃至得到惟一纳什均衡解。减少乃至得到惟一纳什均衡解。 在静态博弈中,所有参与人同时行动(或行动虽有先在静态博弈中,所有参与人同时行动(或行动虽有先后,但没有人在自己行动之前观测到别人的行动);在动后,但没有人在自己行动之前观测到别人的行动);在动态博弈中,参与人的行动有先后顺序,且后行动者在行动态博弈中,参与人的行动有先后顺序,且后行动者在行动之前能观测到先行动者的行动。之前能观测到先行动者的行动。 通常用扩展式表述分析动态博弈。博弈的扩展式表述通常用扩展式表述分析动态博弈。博弈的扩展式表述“扩展扩展”的主要是参与人的策略空间。策略式表述简单地的主要是参与人的策略空间。策略式表述简单地
61、给出参与人有些什么策略可供选择,而扩展式博弈要给出给出参与人有些什么策略可供选择,而扩展式博弈要给出每个策略的动态描述:谁在什么时候行动,每次行动有些每个策略的动态描述:谁在什么时候行动,每次行动有些什么具体行动可供选择,以及知道些什么。什么具体行动可供选择,以及知道些什么。(二)博弈的扩展式表述(二)博弈的扩展式表述 博弈的扩展式表述包括以下要素:博弈的扩展式表述包括以下要素: (1)参与人集合:)参与人集合:i=1,2,n ;此外,将用此外,将用N表示虚拟参表示虚拟参与人与人“自然自然”。 (2)参与人的行动顺序:谁在什么时候行动。)参与人的行动顺序:谁在什么时候行动。 (3)参与人的行动
62、空间:每次行动时,参与人有些什么)参与人的行动空间:每次行动时,参与人有些什么选择。选择。 (4)参与人的信息集:每次行动时,参与人知道些什么。)参与人的信息集:每次行动时,参与人知道些什么。 (5)参与人的支付函数:行动结束后,参与人得到些什)参与人的支付函数:行动结束后,参与人得到些什么(支付是所有行动的函数)。么(支付是所有行动的函数)。 (6)外生事件(即自然的选择)的概率分布。)外生事件(即自然的选择)的概率分布。 如同两人有限策略博弈的策略式表述可用博弈矩阵表述一如同两人有限策略博弈的策略式表述可用博弈矩阵表述一样,样,n人有限策略博弈的扩展式表述可用博弈树表示。人有限策略博弈的扩
63、展式表述可用博弈树表示。 以房地产开发为例。假定该博弈的行动顺序如下以房地产开发为例。假定该博弈的行动顺序如下:(:(1)开发商开发商A先行动,选开发或不开发;(先行动,选开发或不开发;(2)在)在A决策后,自然决策后,自然选择市场需求的大小;(选择市场需求的大小;(3)开发商)开发商B在观测到在观测到A的决策和市的决策和市场需求后,决定开发或不开发。其博弈树如下表。场需求后,决定开发或不开发。其博弈树如下表。 博弈树给出了有限博弈的几乎所有信息,其基本构建包括:博弈树给出了有限博弈的几乎所有信息,其基本构建包括: 1.结结(nodes):包括决策结(上面三个)和终点结(:包括决策结(上面三个
64、)和终点结(B的的四个决策结)。前者是参与人采取行动的始点,后者是博弈四个决策结)。前者是参与人采取行动的始点,后者是博弈行动路径的终点。此例中,决策结包括行动路径的终点。此例中,决策结包括1个空心圆和个空心圆和6个实心个实心圆,终点结包括对应圆,终点结包括对应8个支付向量的点。个支付向量的点。 A(4,4)(8,0)(-3,-3)(1,0)(0,8)(0,0)(0,1) (0,0)开发不开发开发不开发开发不开发开发不开发BBBB大大小小开发不开发NN(1/2)(1/2)(1/2)(1/2)图2-1 2.枝枝( branches ):枝是从一个决策结到它的直接后续):枝是从一个决策结到它的直接
65、后续结的连线,每一个枝代表参与人的一个行动选择。如结的连线,每一个枝代表参与人的一个行动选择。如A有两有两个选择,用个选择,用“开发开发”和和“不开发不开发”两个枝表示。两个枝表示。 3.信息集信息集(information sets)。博弈树上的所有决策结分)。博弈树上的所有决策结分割成不同的信息集。每个信息集是决策结集合的一个子集,割成不同的信息集。每个信息集是决策结集合的一个子集,该子集满足下列条件:该子集满足下列条件:(1)每个决策结都是同一参与人的决)每个决策结都是同一参与人的决策结;(策结;(2)该参与人知道博弈进入该集合的某个决策结,但)该参与人知道博弈进入该集合的某个决策结,但
66、不知道自己究竟处于哪一个决策结。引入信息集的目的在于不知道自己究竟处于哪一个决策结。引入信息集的目的在于描述:当一个参与人要作出决策时,他可能并不知道之前发描述:当一个参与人要作出决策时,他可能并不知道之前发生的所有事件。生的所有事件。 情形情形1:图:图2-1 中,假定中,假定B是在知道是在知道A和自然的选择后进行决策,和自然的选择后进行决策,此时,博弈树的此时,博弈树的7个决策结分割成个决策结分割成7个信息集(每个信息集只包个信息集(每个信息集只包含一个决策结),意味着所有参与人在决策时准确地知道自己含一个决策结),意味着所有参与人在决策时准确地知道自己处于哪一个决策结。处于哪一个决策结。
67、 情形情形2:假定行动顺序如前,但:假定行动顺序如前,但B在决策时并不确切地知道自然在决策时并不确切地知道自然的选择。此时,的选择。此时,B的信息集由原来的的信息集由原来的4个变成个变成2个,个,2个信息集个信息集分别对应着分别对应着B的两个不同决策:若的两个不同决策:若A开发,自己是否开发;若开发,自己是否开发;若A不开发,不开发,B是否开发。用虚线将属于同一信息集的两个决策结是否开发。用虚线将属于同一信息集的两个决策结连接起来(图连接起来(图2-2)。)。 情形情形3:B知道自然的选择,但不知道知道自然的选择,但不知道A的选择(如的选择(如B和和A同时决同时决策)。此时,策)。此时,B也有
68、两个信息集,每个信息集包含两个决策结:也有两个信息集,每个信息集包含两个决策结:两处信息集分别对应两种不同的决策:需求大是否开发和需求两处信息集分别对应两种不同的决策:需求大是否开发和需求小是否开发(图小是否开发(图2-3)。)。 A(4,4)(8,0)(-3,-3)(1,0)(0,8)(0,0)(0,1) (0,0)开发不开发开发不开发开发不开发开发不开发BBBB大大小小开发不开发NN(1/2)(1/2)(1/2)(1/2)图2-2 (4,4)(8,0)(-3,-3)(1,0)(0,8)(0,0)(0,1) (0,0)开发不开发开发不开发开发不开发开发不开发BBBB大大小小开发不开发NN(1
69、/2)(1/2)(1/2)(1/2)图2-3A 情形情形4:B知道N的选择但不知道A的选择,A不知道N的选择(图2-4)。(0,0)不开发N(4,4)(8,0)(-3,-3)(1,0)(0,8)(0,0)(0,1)开发不开发开发不开发开发不开发开发BBBB开发开发不开发大小AA(1/2) (1/2)不开发图2-4 情形情形5:A既不知道N的选择也不知道B的选择,但B知道N的选择(图2-5)。N(4,4)(8,0)(-3,-3)(1,0)(0,8)(0,0)(0,1)开发不开发开发不开发开发不开发开发AAAA开发开发不开发大小BB(1/2) (1/2)不开发图2-5(0,0) 一个信息集可能包括
70、多个决策结,也可能只包括一个决策一个信息集可能包括多个决策结,也可能只包括一个决策结,后者叫做单结信息集。若博弈树的所有信息都是单结的,结,后者叫做单结信息集。若博弈树的所有信息都是单结的,该博弈称为该博弈称为完美信息完美信息博弈,它意味着博弈中没有任何两个参博弈,它意味着博弈中没有任何两个参与人同时行动,且所有后行动者能确切地知道前行动者选择与人同时行动,且所有后行动者能确切地知道前行动者选择了什么行动,所有参与人观测到自然的行动。在博弈树上,了什么行动,所有参与人观测到自然的行动。在博弈树上,完美信息意味着没有任何两个决策结是用虚线连起来的。完美信息意味着没有任何两个决策结是用虚线连起来的
71、。 另外,扩展式表述也可用来描述静态博弈。试写出囚徒困另外,扩展式表述也可用来描述静态博弈。试写出囚徒困境博弈的扩展式表述。境博弈的扩展式表述。 (-8,-8)(0,-10) (-10,0)(-1,-1)坦白抵赖坦白抵赖BBA坦白抵赖 (-8,-8)(0,-10) (-10,0)(-1,-1)坦白抵赖坦白抵赖AAB坦白抵赖市场进入博弈市场进入博弈在位者合作斗争进入者进入40,150-10,0不进入0,3000,300 (-10,0)(40,150斗争合作AB不进进入(0,300)该该博弈中有两个博弈中有两个纳什均衡(进入,合作),纳什均衡(进入,合作),(不进入,斗争),但后一纳什均衡含有不可
72、(不进入,斗争),但后一纳什均衡含有不可置信威胁。置信威胁。 从扩展式表述构造策略式表述。以房地产开发博弈为例。从扩展式表述构造策略式表述。以房地产开发博弈为例。假定博弈开始之前自然就选择了假定博弈开始之前自然就选择了“低需求低需求”,且已成为共同,且已成为共同信息;信息;A先决策,先决策,B在观测到在观测到A的选择后再决策。则博弈的扩的选择后再决策。则博弈的扩展式表述如下图(展式表述如下图(2-6)。)。 注意:注意:A只有一个信息集,两个可选择的行动,因而只有一个信息集,两个可选择的行动,因而A的的行动(策略)空间为行动(策略)空间为SA=(开发,不开发)。但(开发,不开发)。但B有两个信
73、息有两个信息集,四个纯策略,即集,四个纯策略,即不论不论A是否开发,我开发;是否开发,我开发;A开发,开发,我开发,我开发,A不开发,我不开发;不开发,我不开发;A A开发,我不开发,开发,我不开发,A A不开不开发,我开发;发,我开发;无论无论A A是否开发,我不开发。若将是否开发,我不开发。若将B B的信息集的信息集从左到右排列,上述策略可写成:从左到右排列,上述策略可写成:开发,开发开发,开发,开发,不开发,不开发开发,不开发,开发不开发,开发,不开发,不开发不开发,不开发(如下表)。(如下表)。(三)(三) 扩展式表述博弈的纳什均衡扩展式表述博弈的纳什均衡 (-3,-3)(1,0)(0
74、,1)(0,0)开发不开发开发不开发BBA图2-6开发不开发 从策略式表述中,该博弈有三个纯策略纳什均衡:(开发,从策略式表述中,该博弈有三个纯策略纳什均衡:(开发, 不开发,开发不开发,开发 ),(开发,),(开发, 不开发,不开发不开发,不开发 )和(不开)和(不开发,发, 开发,开发开发,开发 )。在每一个均衡,给定对方的策略,自)。在每一个均衡,给定对方的策略,自己的策略是最优的。前两个均衡的结果是(己的策略是最优的。前两个均衡的结果是(A开发,开发,B不开发)不开发);第三个均衡的结果是(;第三个均衡的结果是(A不开发,不开发,B开发)。注意:为什么开发)。注意:为什么第三列第二行不
75、是纳什均衡?第三列第二行不是纳什均衡? 在扩展式表述博弈中,所有在扩展式表述博弈中,所有n个参与人的一个纯策略组合个参与人的一个纯策略组合 决定了博弈树上的一个路径。如,(开发,决定了博弈树上的一个路径。如,(开发, 不开发,开发不开发,开发 )决定博弈的路径为)决定博弈的路径为A开开发B不开不开发(1,0)。)。 开发商开发商B开发,开发开发,开发开发,不开开发,不开发发不开发,开不开发,开发发不开发,不开不开发,不开发发开发商开发商A开发开发-3,-3-3,-31,01,0不开发不开发0,10,00,10,0表表-1 房地产开发博弈:房地产开发博弈: 策略式表述策略式表述 每一个策略组合(
76、从而博弈树的路径)决定了一支付向量每一个策略组合(从而博弈树的路径)决定了一支付向量 。策略组合。策略组合 是扩展式博弈的一个纳什均衡,如果对于所是扩展式博弈的一个纳什均衡,如果对于所有的有的i, 最大化最大化 (或(或 的期望的期望值,如果自然行,如果自然行动的的话),即:),即:(四 ) 子博弈精练纳什均衡 1、一个例证:、一个例证: 一个博弈可能有多个(甚至无穷多个)纳什均衡,究竟一个博弈可能有多个(甚至无穷多个)纳什均衡,究竟哪一个均衡更为合理,没有给出一个一般性的结论。最严重哪一个均衡更为合理,没有给出一个一般性的结论。最严重的是,纳什均衡假定每个参与人在选择自己的最优策略时假的是,
77、纳什均衡假定每个参与人在选择自己的最优策略时假定所有其他参与人的策略选择是给定的。这样,纳什均衡就定所有其他参与人的策略选择是给定的。这样,纳什均衡就很难说是动态博弈的一个合理解,因为,在动态博弈中,参很难说是动态博弈的一个合理解,因为,在动态博弈中,参与人的选择有先有后,后行动者的选择空间依赖于先行动者与人的选择有先有后,后行动者的选择空间依赖于先行动者的选择,而先行动者在选择自己的行动时不能不考虑自己的的选择,而先行动者在选择自己的行动时不能不考虑自己的选择对后行动者的影响。而子博弈精炼纳什均衡(选择对后行动者的影响。而子博弈精炼纳什均衡(Selten,1965,1975)是对纳什均衡概念
78、的第一个最重的改进,其主)是对纳什均衡概念的第一个最重的改进,其主要目的是把要目的是把“合理纳什均衡合理纳什均衡”与与“不合理纳什均衡不合理纳什均衡”分开。分开。 仍以上面的房地产开发为例。复制图仍以上面的房地产开发为例。复制图8-6。该博弈为一完。该博弈为一完美信息博弈,美信息博弈,A先行动,先行动,B在知道在知道A的选择后再行动。它有三的选择后再行动。它有三个纳什均衡:(开发,个纳什均衡:(开发, 不开发,开发不开发,开发 ),(开发,),(开发, 不开发,不开发,不开发不开发 )和(不开发,)和(不开发, 开发,开发开发,开发 )。)。(-3,-3)(1,0)(0,1)(0,0)开发不开
79、发开发不开发BBA图8-6开发不开发 .对于对于(不开发,(不开发, 开发,开发开发,开发 )。该组合构成一纳什均)。该组合构成一纳什均衡,是因为衡,是因为B威胁不论威胁不论A是否选择开发,自己都将选择开发;是否选择开发,自己都将选择开发;A相信了相信了B的威胁,不开发是其最优选择。类似地,的威胁,不开发是其最优选择。类似地,B假定假定A将将选不开发;给定该假定,选不开发;给定该假定,开发,开发开发,开发是是B的最优策略。的最优策略。 但但A为什么要相信为什么要相信B的威胁呢?如果的威胁呢?如果A真选开发,真选开发,B的信息的信息集为集为x,显然,显然,B的最优选择为不开发。若的最优选择为不开
80、发。若A知道知道B是理性的,是理性的,A将选开发,逼迫将选开发,逼迫B选不开发,自己得支什选不开发,自己得支什1,而不是选不开发,而不是选不开发,让让B开发,自己得开发,自己得0支付。因而(不开发,支付。因而(不开发, 开发,开发开发,开发 )是)是不可置信的。因为它依赖于不可置信的。因为它依赖于B的一个不可置信的策略。的一个不可置信的策略。 .对于对于(开发,(开发, 不开发,不开发不开发,不开发 )。尽管该结果()。尽管该结果(A开发,开发,B不开发)似乎是合理的,但均衡策略本身是不合理的。若不开发)似乎是合理的,但均衡策略本身是不合理的。若A选开发,选开发,B的信息集是的信息集是x ,最
81、优选择是不开发。但若,最优选择是不开发。但若A选不开选不开发,发,B的信息集是的信息集是x ,最,最 优选择是开发。故优选择是开发。故不开发,不开发不开发,不开发不是不是B的合理策略,或的合理策略,或它不是一个不可置信的策略。它不是一个不可置信的策略。 .对于对于(开发,(开发, 不开发,开发不开发,开发 )。这是一个合理的均)。这是一个合理的均衡。因为构成该均衡的每个参与人的均衡策略都是合理的。衡。因为构成该均衡的每个参与人的均衡策略都是合理的。若若A选开发,选开发,B的最优选择是不开发;若的最优选择是不开发;若A选不开发,选不开发,B的最的最优选择是开发。优选择是开发。A预测到自己的选择对
82、预测到自己的选择对B选择的影响,开发选择的影响,开发是是A的最优选择。均衡结果是的最优选择。均衡结果是A选开发,选开发,B选不开发,支付为选不开发,支付为(1,0)。事实上,(开发,)。事实上,(开发, 不开发,开发不开发,开发 )是该博弈唯)是该博弈唯一的子博弈精炼纳什均衡。一的子博弈精炼纳什均衡。 2、子博弈精炼纳什均衡子博弈精炼纳什均衡 定义定义“子博弈子博弈”: 条件(条件(1):一个子博弈必须从一个单结信息集开始。一个子博弈必须从一个单结信息集开始。即只有当决策者在原博弈中确切地知道博弈进入一个即只有当决策者在原博弈中确切地知道博弈进入一个特定的决策结时,该决策结才能作为一个子博弈的
83、初特定的决策结时,该决策结才能作为一个子博弈的初始结;若一个信息集包含两个以上的决策结,则无任始结;若一个信息集包含两个以上的决策结,则无任何一个决策结可作为子博弈的初始结。显然,一个完何一个决策结可作为子博弈的初始结。显然,一个完美信息博弈的每一个决策结都开始一个子博弈。如图美信息博弈的每一个决策结都开始一个子博弈。如图8-7,决策结,决策结x和它的后续结构成一个子博弈,同样和它的后续结构成一个子博弈,同样x和它的后续结也构成一个子博弈。但图和它的后续结也构成一个子博弈。但图8-8中,这两中,这两个决策结都不能作为子博弈的初始结个决策结都不能作为子博弈的初始结。 (-3,-3)(1,0)(0
84、,1)(0,0)开发不开发开发不开发BBA图8-7开发不开发( a )原博弈(-3,-3)(1,0)开发不开发(0,1)(0,0)开发不开发( b)子博弈( c)子博弈 Z1Z2Z3Z4LRLR221图8-8UD 条件(条件(2):子博弈的信息集和支付向量都直接继承于原子博弈的信息集和支付向量都直接继承于原博弈,即只有当博弈,即只有当x和和x”在原博弈中属于同一信息集时,它们在原博弈中属于同一信息集时,它们在子博弈中才属于同一信息集;子博弈的支付函数只是原博在子博弈中才属于同一信息集;子博弈的支付函数只是原博弈支付函数留存在子博弈上的部分。弈支付函数留存在子博弈上的部分。 尤其是,条件(尤其是
85、,条件(1)和条件()和条件(2)意味着子博弈不能切割原)意味着子博弈不能切割原博弈的信息集。图博弈的信息集。图2-9。参与人。参与人2的两个信息集都是单结的,的两个信息集都是单结的,但因参与人但因参与人3的一个信息集包含三个决策结(另一个信息集是的一个信息集包含三个决策结(另一个信息集是单结的),参与人单结的),参与人2的信息集不能开始一个子博弈,因为这样的信息集不能开始一个子博弈,因为这样参与人参与人3的信息集将被切割。的信息集将被切割。 l 要求子博弈满足上述两个条件的目的是保证子博弈要求子博弈满足上述两个条件的目的是保证子博弈对应于原博弈中可能出现的情况。若条件不满足,参对应于原博弈中
86、可能出现的情况。若条件不满足,参与人在原博弈中不知道的信息在子博弈中就变成知道与人在原博弈中不知道的信息在子博弈中就变成知道的信息,从子博弈中得出的结论对原博弈就没有意义。的信息,从子博弈中得出的结论对原博弈就没有意义。l如图如图2-9中,若从参与人中,若从参与人2的左边开始一个子博弈,则的左边开始一个子博弈,则参与人参与人3的信息集就由原来的的信息集就由原来的3个决策结变成个决策结变成2个决策个决策结,他在子博弈中的选择就不同于原博弈中的选择。结,他在子博弈中的选择就不同于原博弈中的选择。 1(4,4)(8,0)(-3,-3)(1,0)(0,8)(0,0)(0,1) (0,0)lr3LLRR
87、UD22图2-9lrrrll3 定义子博弈精炼纳什均衡:定义子博弈精炼纳什均衡: 扩展式博弈的策略组合扩展式博弈的策略组合 是一个子博弈精是一个子博弈精炼纳什均衡,如果:(炼纳什均衡,如果:(1)它是原博弈的纳什均衡;()它是原博弈的纳什均衡;(2)它)它在每一个子博弈上给出纳什均衡。在每一个子博弈上给出纳什均衡。 显然,若整个博弈是唯一的子博弈,则纳什均衡与子博显然,若整个博弈是唯一的子博弈,则纳什均衡与子博弈精炼纳什均衡是相同的(图弈精炼纳什均衡是相同的(图8-8和和8-9);若有其他子博弈);若有其他子博弈存在,有些纳什均衡可能不构成子博弈精炼纳什均衡。存在,有些纳什均衡可能不构成子博弈
88、精炼纳什均衡。 如何理解如何理解“在每一个子博弈上给出纳什均衡在每一个子博弈上给出纳什均衡”? 若一个博弈有几个子博弈,一个特定的纳什均衡决定了若一个博弈有几个子博弈,一个特定的纳什均衡决定了原博弈树上唯一的一条路径,即原博弈树上唯一的一条路径,即“均衡路径均衡路径”,博弈树上的,博弈树上的其他路径称为其他路径称为“非均衡路径非均衡路径”。 在图在图8-6中,中,“A不开不开发xB开开发(0,1)”是是纳什什均衡(不开均衡(不开发,开开发,开,开发)的均衡路径,其他路径都是)的均衡路径,其他路径都是该纳什均衡的非均衡路径。什均衡的非均衡路径。 纳什均衡只要求均衡策略在均衡路径的决策什均衡只要求
89、均衡策略在均衡路径的决策结上是最上是最优的。的。而而“在每一个子博弈上在每一个子博弈上给出出纳什均衡什均衡”意味着,构成子博弈意味着,构成子博弈纳什什均衡的策略不均衡的策略不仅在均衡路径的决策在均衡路径的决策结上是最上是最优的,而且在非均的,而且在非均衡路径的决策衡路径的决策结上也是最上也是最优的。的。这是两者的本是两者的本质区区别。这里的里的要点是,只有当一个策略要点是,只有当一个策略规定的行定的行动规则在所有可能的情况下在所有可能的情况下都是最都是最优的的时,它才是一个合理的、可置信的策略。子博弈精,它才是一个合理的、可置信的策略。子博弈精炼纳什均衡就是要剔除那些只在特定情况下是合理的而在
90、其他什均衡就是要剔除那些只在特定情况下是合理的而在其他情况下并不合理的行情况下并不合理的行动规则。 以房地产开发为例说明子博弈精炼纳什均衡概念。如图以房地产开发为例说明子博弈精炼纳什均衡概念。如图8-7。该博弈有三个子博弈(原博弈、子博弈(。该博弈有三个子博弈(原博弈、子博弈(b)和()和(c),),后两个实际是单人博弈)。有三个纳什均衡:(开发,后两个实际是单人博弈)。有三个纳什均衡:(开发, 不不开发,开发开发,开发 ),(开发,),(开发, 不开发,不开发不开发,不开发 )和(不开发,)和(不开发, 开发开发,开发开发 )。)。 在子博弈(在子博弈(b),),B的最优策略是不开发;在子博
91、弈的最优策略是不开发;在子博弈(c),),B的最优策略是开发,。纳什均衡(不开发,的最优策略是开发,。纳什均衡(不开发, 开发开发,开发开发 )中)中B的均衡策略的均衡策略 开发开发,开发开发 在子博弈(在子博弈(c)上构成纳)上构成纳什均衡,但在子博弈(什均衡,但在子博弈(b)上不构成纳什均衡,因此,(不)上不构成纳什均衡,因此,(不开发,开发, 开发开发,开发开发 )不是一个子博弈精炼纳什均衡。类似)不是一个子博弈精炼纳什均衡。类似地,纳什均衡(开发,地,纳什均衡(开发, 不开发,不开发不开发,不开发 )也不是一个子博)也不是一个子博弈精炼纳什均衡。弈精炼纳什均衡。 (-3,-3)(1,0
92、)(0,1)(0,0)开发不开发开发不开发BBA图2-7开发不开发( a )原博弈(-3,-3)(1,0)开发不开发(0,1)(0,0)开发不开发( b)子博弈( c)子博弈 而纳什均衡(开发,而纳什均衡(开发, 不开发,开发不开发,开发 )中)中B的均衡策略的均衡策略不开发,开发不开发,开发无论是在子博弈(无论是在子博弈(b)上还是在子博弈()上还是在子博弈(c)上都构成纳什均衡(即若上都构成纳什均衡(即若A开发,开发,B不开发;若不开发;若A不开发,不开发,B开发),因此,(开发,开发),因此,(开发, 不开发,开发不开发,开发 )是该博弈的唯一)是该博弈的唯一子博弈精炼纳什均衡。也就有理
93、由相信,子博弈精炼纳什均衡。也就有理由相信,“A开发开发B不开发不开发”是这个博弈唯一合理的均衡结果。是这个博弈唯一合理的均衡结果。 例:扩展式博弈如下表,要求:例:扩展式博弈如下表,要求: (1)写出该博弈的策略式表述;)写出该博弈的策略式表述; (2)找出该博弈的子博弈、纳什均衡以及子博弈精炼纳)找出该博弈的子博弈、纳什均衡以及子博弈精炼纳什均衡。什均衡。 (2,2)(3,1)(0,0)LR2UD1 该博弈有两个子博弈(参与人该博弈有两个子博弈(参与人2的决策结开始一个子博弈)的决策结开始一个子博弈),纳什均衡(,纳什均衡(U,R)不是精炼均衡,因为从)不是精炼均衡,因为从2的决策结开始的
94、决策结开始的子博弈上,的子博弈上,R不是一个均衡,而(不是一个均衡,而(D,L)是一个精炼均衡:)是一个精炼均衡:当当1选择选择D博弈进入博弈进入2的决策结时,的决策结时,2选择选择L得到得到1,选择,选择R得到得到0,因而,因而2将选择将选择L。 参与人2LR参与人1U2,22,2D3,10,0用逆推法求解子博弈精炼纳什均衡l 给定博弈到达最后一个决策结,该决策结上行动的博弈到达最后一个决策结,该决策结上行动的参与人有一个最优选择,这个最优选择就是该决策结参与人有一个最优选择,这个最优选择就是该决策结开始的子博弈纳什均衡;开始的子博弈纳什均衡;l 然后,倒回到倒数第二个决策结,找到倒数第二个
95、然后,倒回到倒数第二个决策结,找到倒数第二个决策者的最优选择,这个最优选择与我们在第一步找决策者的最优选择,这个最优选择与我们在第一步找出的最后一个决策者的最优选择构成从倒数第二个决出的最后一个决策者的最优选择构成从倒数第二个决策结开始的子博弈的一个纳什均衡;策结开始的子博弈的一个纳什均衡;l 如此不断直到初始结,在这个过程的最后一步得到如此不断直到初始结,在这个过程的最后一步得到的整个博弈的纳什均衡也就是这个博弈的的整个博弈的纳什均衡也就是这个博弈的子博弈精炼博弈精炼纳什均衡。纳什均衡。 (2,0)(1,1)LR2UD1(3,0)(0,2)UD三阶段完美信息三阶段完美信息博弈博弈子博弈精炼纳
96、什均衡:子博弈精炼纳什均衡:(U,U, L)1U和和L分别是分别是1和和2在在非均衡路径上的选择非均衡路径上的选择参与人参与人1在第一阶段选择在第一阶段选择U结束博弈结束博弈承诺行动与子博弈精炼纳什均衡l如果参与人能在博弈前采取某种措施改变自己的行动如果参与人能在博弈前采取某种措施改变自己的行动空间或支付函数,原来不可置信的威胁就可能变的可空间或支付函数,原来不可置信的威胁就可能变的可置信,博弈的均衡结果就会相应改变。这些为改变博置信,博弈的均衡结果就会相应改变。这些为改变博弈结果而采取的措施即是弈结果而采取的措施即是“承诺行动承诺行动”。l 如果一个承诺可以改变对手的最优选择,该承诺为如果一
97、个承诺可以改变对手的最优选择,该承诺为完全承诺;完全承诺;l如果一个承诺只是增加行动的成本而不是使该行动完如果一个承诺只是增加行动的成本而不是使该行动完全没有可能,该承诺为不完全承诺。全没有可能,该承诺为不完全承诺。l 将承诺行动纳入模型的一个方法是明确将承诺行动作为将承诺行动纳入模型的一个方法是明确将承诺行动作为初始阶段的初始阶段的“行动行动”包括在博弈中。包括在博弈中。l 例:在例:在A决策前,决策前,B与某个客户签定一个合同,规定与某个客户签定一个合同,规定B交交房的期限,如房的期限,如B不能履约,将赔偿客户不能履约,将赔偿客户3500万。这个合同万。这个合同就是一个承诺行动,这样就是一
98、个承诺行动,这样B的的 开发,开发开发,开发 就是一个可就是一个可置置信的威胁,子博弈精炼纳什均衡是(不开发,信的威胁,子博弈精炼纳什均衡是(不开发, 开发,开开发,开发发 ),而不是原来的(开发,),而不是原来的(开发, 不开发,开发不开发,开发 )。l可可置信的威胁与不可置信的威胁与不可可可置信的威胁置信的威胁重复博弈l一、重复博弈与序列博弈的区别一、重复博弈与序列博弈的区别l1、在序列博弈中,上阶段的选择决定下阶段的选择,、在序列博弈中,上阶段的选择决定下阶段的选择,重复博弈的不同阶段则不存在这一必然联系;重复博弈的不同阶段则不存在这一必然联系;l2、在序列博弈中,每个阶段的博弈结构彼此
99、不同,、在序列博弈中,每个阶段的博弈结构彼此不同,重复博弈则是同样结构,重复多次;重复博弈则是同样结构,重复多次;l3、在序列博弈中,不仅有多个阶段博弈,而且每个、在序列博弈中,不仅有多个阶段博弈,而且每个阶段博弈都有先有后,重复博弈虽然有多个阶段,但阶段博弈都有先有后,重复博弈虽然有多个阶段,但各个阶段可以是同时博弈,也可以是先后博弈;各个阶段可以是同时博弈,也可以是先后博弈;l4、重复博弈与序列博弈都追求收益最大化,重复博弈与序列博弈都追求收益最大化,但前者并不追求每个阶段收益最大化,而是追但前者并不追求每个阶段收益最大化,而是追求所有阶段收益的贴现值或加权平均值最大化,求所有阶段收益的贴
100、现值或加权平均值最大化,不因眼前局部利益而牺牲长远整体利益。不因眼前局部利益而牺牲长远整体利益。有限重复博弈-田忌赛马上中下上中下上下中上下中中上下中上下中下上中下上下上中下上中下中上下中上上中下上中下3 -31 -1 1 -11 -1-1 11 -1上下中上下中1 -13 -31 -11 -11 -1-1 1中上下中上下1 -1-1 13 -31 -11 -11 -1中下上中下上-1 11 -11 -13 -31 -11 -1下上中下上中1 -11 -11 -1-1 13 -31 -1下中上下中上1 -11 -1-1 11 -11 -13 -3田田齐齐l 如果双方都采取混合策略,以相同概率随
101、机如果双方都采取混合策略,以相同概率随机选择出马次序,齐威王和田忌每次比赛的期望选择出马次序,齐威王和田忌每次比赛的期望收益依次为收益依次为1,-1:l (3+1+1+1-1+1)/6=1l (1-3-1-1-1-1)/6=-1l如比赛为如比赛为t次,则齐威王收益收益次,则齐威王收益收益t,田忌收益,田忌收益收益收益-t。囚犯困境的重复博弈l1、有限重复博弈囚犯困境、有限重复博弈囚犯困境l重复博弈的总收益为:重复博弈的总收益为:-8t,-8t囚犯囚犯B囚犯囚犯A坦白坦白抵赖抵赖坦白坦白-8t,-8t0t,-10t抵赖抵赖-10t,0t-1t,-1t改变的只是总收益改变的只是总收益不改变均衡结果
102、不改变均衡结果l2、无限重复博弈囚犯困境、无限重复博弈囚犯困境l 无限重复博弈是一个长的过程,未来是不确无限重复博弈是一个长的过程,未来是不确定的,未来的收益没有现在的收益重要,需要定的,未来的收益没有现在的收益重要,需要把将来的收益变为贴现值,然后对总收益进行把将来的收益变为贴现值,然后对总收益进行比较比较l 假设收益为假设收益为R,贴现系数为贴现系数为r,重复次数为重复次数为t,则:则:l R=R1+rR2+r2R3+= r rt-1t-1R Rt tt=1l 假设假设r=0.9,则囚犯困境中双方选择坦白的收益贴现值则囚犯困境中双方选择坦白的收益贴现值之和为:之和为:lR= 0.90.9t
103、-1t-1(-8-8)l=-8/=-8/(1-0.91-0.9)=-80=-80l双方选择抵赖的收益贴现值之和为:双方选择抵赖的收益贴现值之和为:lR R=-1/(1-0.9)=-10=-1/(1-0.9)=-10l t=1l由于由于A、B都知道都知道R大于大于R,必然会一直采取合,必然会一直采取合作的态度,抵赖就成为这一无限无限重复博弈作的态度,抵赖就成为这一无限无限重复博弈的纳什均衡,个体理性与集体理性达到统一。的纳什均衡,个体理性与集体理性达到统一。例:古诺模型与斯塔克伯格模型l完全信息静态博弈完全信息静态博弈-古诺模型:古诺模型:A、B两个企两个企业,成本为业,成本为0,利润等于,利润
104、等于TR=PQl市场需求函数:市场需求函数:P=120-(Qa+Qb)l两企业的反应函数为:两企业的反应函数为:l Qa=60-Qb/2l Qb=60-Qa/2l Qa=Qb=40 P=40 利润各为利润各为1600l纳什均衡解为纳什均衡解为(40, 40)l完全信息动态博弈完全信息动态博弈-斯塔克伯格模型斯塔克伯格模型lA先行动,先行动, 由于由于A预计到,如果自己选择预计到,如果自己选择Qa,企业企业 B 必定选择必定选择Qb,因而可以根据因而可以根据Qbl来选择自己在始结利润最大化的产量:来选择自己在始结利润最大化的产量:l Ra=PQa =60Qa-Qa2/2 Qa=60 Qb=30l
105、P=30 Ra=1800 Rb=900l子博弈精炼纳什均衡解为:(子博弈精炼纳什均衡解为:(60,30)l结论:结论:l1、两个模型的企业产量不相等。、两个模型的企业产量不相等。l2、利润不相等。、利润不相等。l原因:原因:l1、企业、企业A先动优势先动优势;l2、企业、企业A先行动的承诺价值。企业先行动的承诺价值。企业A的产品先生产出来,的产品先生产出来,就变成一种沉淀成本,无法改变,从而是企业就变成一种沉淀成本,无法改变,从而是企业B不得不认不得不认为它的威胁是可置信的。为它的威胁是可置信的。QaQb12060120604040Qa=60-Qb/2Qb=60-Qa/2古诺均衡点古诺均衡点斯
106、塔克伯格斯塔克伯格案例1:空城计与背水阵l三国时,蜀将马谡因刚愎自用而失守街亭,司马懿大三国时,蜀将马谡因刚愎自用而失守街亭,司马懿大军直逼西城。诸葛亮无兵将可遣,乃大开城门,故作军直逼西城。诸葛亮无兵将可遣,乃大开城门,故作镇定,在城楼抚琴。司马懿疑有埋伏,反而退走。诸镇定,在城楼抚琴。司马懿疑有埋伏,反而退走。诸葛亮乃斩马谡以正军纪。葛亮乃斩马谡以正军纪。l诸葛亮抚琴城楼,旨在误导,本属不可置信的威胁,诸葛亮抚琴城楼,旨在误导,本属不可置信的威胁,但司马懿慑于诸葛亮足智多谋,居然疑有埋伏,痛失但司马懿慑于诸葛亮足智多谋,居然疑有埋伏,痛失战机。战机。l汉将韩信率兵攻赵,令万人背水列阵,大败
107、赵军。诸汉将韩信率兵攻赵,令万人背水列阵,大败赵军。诸将问背水之故,信曰:将问背水之故,信曰:“兵法不日兵法不日陷之死地而后生,陷之死地而后生,置之亡地而后存置之亡地而后存?”l韩信沿河设阵,前临大敌,背靠大河,后无退路,汉韩信沿河设阵,前临大敌,背靠大河,后无退路,汉兵必拼死求胜。此乃可以置信的威胁。兵必拼死求胜。此乃可以置信的威胁。案例2:池塘有多少桶水l 从前,有个国王在大臣陪同下来到御花园大池塘散从前,有个国王在大臣陪同下来到御花园大池塘散步,忽问众臣:步,忽问众臣:“这池塘共有多少桶水?这池塘共有多少桶水?”众臣面面众臣面面相觑,答不上来。国王下旨:相觑,答不上来。国王下旨:“给你们
108、三天时间,答给你们三天时间,答上来重赏,答不上来重罚。上来重赏,答不上来重罚。”l三天将到,众臣正一筹莫展之际,一个小孩走向宫殿,三天将到,众臣正一筹莫展之际,一个小孩走向宫殿,说:说:“这个问题太容易了:如果水桶与池塘一样大,这个问题太容易了:如果水桶与池塘一样大,就是一桶水;如果水桶只有池塘一半大,就是两桶水;就是一桶水;如果水桶只有池塘一半大,就是两桶水;如果如果。”国王称赞国王称赞“回答完全正确回答完全正确”,并重赏这个,并重赏这个小孩。小孩。l众臣以既定水桶考虑池塘大小,不得其解,但众臣以既定水桶考虑池塘大小,不得其解,但小孩从水桶大小考虑池塘大小,便迎刃而解。小孩从水桶大小考虑池塘大小,便迎刃而解。可见,按传统思维解决不了的难题,换个思维可见,按传统思维解决不了的难题,换个思维角度也许就能豁然开朗。角度也许就能豁然开朗。