序贯决策博弈概论.ppt

资源描述

《序贯决策博弈概论.ppt》由会员分享，可在线阅读，更多相关《序贯决策博弈概论.ppt（85页珍藏版）》请在金锄头文库上搜索。

1、序贯决策博弈,第一部分同时博弈与序贯博弈,主要内容,本章主要介绍： 1、如何用正规型表示和展开型表示来表述同一个博弈。 2、博弈论中的两个重要概念：信息集和不完美信息。 3、考察包含同时决策行动和序贯决策行动的复合型博弈（混合博弈）的纳什均衡。,第一节博弈的正规型表示与展开型表示第二节同时决策与序贯决策的混合博弈第三节树形博弈的子博弈第四节子博弈精炼纳什均衡第五节完美博弈的库恩定理第六节动态博弈的运用,第一节博弈的正规型表示与展开型表示,一、如何将博弈的展开型形式转化为正规型表示案例：“进入障碍”博弈,进入者,进入,不进,垄断者,容忍,抵抗,容忍,抵抗,（1，5）

2、,（-2，2）,（0，10）,（0，4）,垄断者,a,b,c,“进入障碍”的矩阵表达,进入者,垄断者,进入,不进入,容忍，容忍,抵抗，抵抗,抵抗，容忍,容忍，抵抗,小结,1、一般我们将先行动者放在行局中人的位置，把后行动者放在列局中人的位置。 2、每个局中人的策略必须是一个完整的计划，必须考虑自己在对方每一个行动下的行动。例如：容忍，容忍。在本例中，进入者有两个纯策略，而垄断者有四个纯策略。 3、每个局中人的决策轮数越多，则他的纯策略选择的数目越多。思考：如果有三轮博弈，如何写矩阵形式。 4、矩阵形式表示的可能的博弈结果比树形表示的结果要多，这是因为有不止一个纯策略可以导致相同的博弈结果。

3、,二、如何将正规型的博弈转化为展开型,比前面简单，尤其是序贯博弈，但如果是同时博弈，如何表示？信息集案例：情侣博弈,信息集,根据同时博弈的定义，每个局中人决策时不知道别人的策略，即每个局中人在做自己的行动选择时，并不知道自己处在哪个决策节点上。例如妻子在选芭蕾时，并不知道丈夫选的是芭蕾还是足球。局中人不能是别人对方“已经”做出的行动或决策，就等于同时行动或决策。此时，我们用一个扁椭圆形的虚线的圈，把所论局中人的若干决策节点罩起来，成为他的一个信息集。即局中人知道博弈已经进行到他的这个信息集，但不知道博弈究竟进行到这个信息集中的哪个决策节点。,信息集,妻子虽然知道博弈已经进行到她的

4、信息集，但不知道进行到信息集中的那个决策点，即她不知道丈夫会选什么，因此是同时博弈。,丈夫,足球,芭蕾,妻子,足球,芭蕾,足球,芭蕾,（2，1）,（0，0）,（-1，-1）,（1，2）,妻子,注意,一个信息集罩住的必须是同一个局中人的决策点。必须是同一个局中人在同一个时点的决策节点。,这两个虚线罩住的都不是信息集。,注意,同时，即使是同一个人在同一时点进行决策，也不一定构成一个信息集，他还必须满足：在每一个决策点他的行动选择集合必须是相同的。因为局中人在做行动选择时并不知道自己位于哪个决策点，因此，他不可能做出不同的行动选择。,A,B,B,该虚线罩住的不是信息集。其必须满足：同集同注，

5、即从各个决策点出发的策略选择数目相同，名称也相同。,单点集和非单点集,我们把不被扁椭圆虚线罩住的每个决策节点也给以信息集的地位，称为单点集。因此，每一个决策位置都是一个信息集，只有单点集和非单点集之分。,A,B,B,非单点集,单点集,完美信息博弈和不完美信息博弈,当博弈走到一个单点集的信息集时，面临决策的局中人对于博弈迄今的历史清清楚楚，他清楚了博弈具体走到了他的这个决策节点而不是别的决策点。我们把这种历史清楚的博弈称为完美信息博弈。但是当博弈走到一个非单点集的信息集时，面临决策的局中人对于博弈迄今的历史是不清楚的，他不清楚博弈具体走到了他的这个信息集里面的那个决策点。我们把这种历史不清楚

6、的博弈称为不完美信息博弈。如果一个序贯博弈的每个信息集都是一个单点集，那么该序贯博弈就是完美信息博弈，否则他就是不完美信息博弈。,信息集举例,情爱博弈的扩展式表述,A,开发,不开发,N,N,大,小,1/2,1/2,大,小,1/2,1/2,B,B,B,B,开发,不开发,开发,不开发,开发,不开发,开发,不开发,(4,4),(8,0),(-3,-3),(1,0),(0,8),(0,0),(0,1),(0,0),房地产开发博弈,A,开发,不开发,N,N,大,小,1/2,1/2,大,小,1/2,1/2,B,B,B,B,开发,不开发,开发,不开发,开发,不开发,开发,不开发,(4,4),(8,0),(

7、-3,-3),(1,0),(0,8),(0,0),(0,1),(0,0),B知道自然的选择;但不知道A的选择(或A、B同时决策),房地产开发博弈,第二节同时决策与序贯决策的混合博弈（完全不完美信息的两阶段博弈）,我们把包含同时决策行动和序贯决策行动的博弈称为混合博弈。假设有两家计算机公司：方正和联想。彼此对新产品的研发和定价进行博弈竞争。该博弈分为两个阶段：第一阶段，两个公司进行研发投入竞争，每个公司都可以选择“大投入”和“小投入”的研发预算，同时每个公司都不公开公布自己的预算；第二阶段，当产品开发出来并面世以后，厂商会观摩对方研制出来的新产品对自己的新产品定价，每个厂商可以定高价也可

8、以定低价，但定价之前看不到对方的定价。,联想,大投入,小投入,大投入,小投入,方正,高价格,低价格,高价格,高价格,高价格,高价格,高价格,高价格,高价格,低价格,低价格,低价格,低价格,低价格,低价格,低价格,联想,大投入,小投入,大投入,小投入,方正,联想,大投入,小投入,大投入,小投入,方正,该博弈的结果为：两个公司都在第一个阶段采取小投入（帕累优势原则），在第二个阶段采取低价格。但纳什均衡有16个（过程略），因为很多策略导致同一个结果。,该博弈的展开型表述见P173页,银行挤兑博弈案例,案例情况：两个投资者每人存入银行一笔存款D，银行已将这些存款投入一个长期项目。如果在该项目到期前银

9、行被迫对投资者变现，共可收回2r，这里DrD/2。不过，如果银行允许投资项目到期，则项目共可取得2R，这里RD。有两个时间，投资者可以从银行提款:在银行的投资项目到期之前或者在到期之后。为使分析简化，假设不存在贴现。,两个投资者的提款日期可以有如下可能： A、两个都提前，都得到r B、一个提前提取另一个不动，则第一人得D,另一人得2r-D. C、两个在到期后提，各得R D、两个都不提，等到投资项目结束，都得到R E、如果一个人在期满后提取，另一人不动则分别得：2R-D,D。如下图所示：,我们使用逆向归纳法分析问题从日期2开始先考虑日期2的标准式博弈，由于明显的RD,也就是说2R-DR。我们

10、可以得到这个博弈的纳什均衡（R,R）。由于不存在贴现，我们可以直接带入日期1的博弈矩阵表示式。,由于rD(并且由此可得2r-D r)，这一由两阶段博弈变形得到的单阶段博弈存在两个纯战略纳什均衡:(1)两个投资者都提款，最终收益情况为(r , r); 两个投资者都不提款，最终收益为(R,R)。从而，最初的两阶段银行挤提博弈就有2个子博弈精炼解。,银行挤兑(1) 王则柯“银行挤兑的成因和预防”,两客户在同一银行各存有100元，银行将这200元投资于一个长期项目。如果在项目到期前银行要抽回资金，则只能收回140元；但如果到期后再收回投资，则可收回本息280元。,对客户来说，抽回存款的日期也有两种：

11、一是在银行投资项目到期之前，称日期1；一是在到期之后，称日期2。假定如果两客户在日期1要求抽回资金则各得70元；如果只有一个客户在日期1要抽回资金则该客户得100元，另一客户只能得到剩余的40元。如果等到日期2两客户同时要收回资金，则各得140元；如果到日期2还只有一方要求收回资金，则要求收回资金一方得180元，另一方得100元；如果到日期2没有客户要求收回资金，则银行还是分给他们各140元。,周瑜,存,不存,存,不存,诸葛亮,周瑜,抽回,不,抽回,不,诸葛亮,银行挤兑(3),前一种结果可以解释为对银行的一次挤提。如果投资者1相信投资者2将在日期1提款、则投资者1的最优反应也是去提款，即使

12、他们等到日期2再去提款的话两人的福利都会提高。这里的银行挤提博弈在一个很重要的方面不同于第1章中讨论的囚徒困境:虽然两个博弈都存在一个对整个社会是低效率的纳什均衡;但在囚徒困境中这一均衡是惟一的(并且是参与者的严格占优战略)，而在这里还同时存在另一个有效率的均衡。从而，这一模型并不能预侧何时会发生对银行的挤提，但的确显示出挤提会作为一个均衡结果而出现。,经典案例之关税竞争,在国际争端中，关税与贸易争端最为激烈。由于贸易能增进双方的福利，而关税是阻碍贸易自由的最大障碍。在早期，政府自由选择关税税率时将如何决策？,考虑两个完全相同的国家（i=1,2），,考虑两个完全相同的国家（i=1,2），

13、政府负责确定关税税率(t1,t2)；,考虑两个完全相同的国家（i=1,2），一个政府负责确定关税税率(t1,t2)；企业1制造产品h1供给本国,及出口e1；,考虑两个完全相同的国家（i=1,2），一个政府负责确定关税税率(t1,t2)；企业1制造产品h1供给本国,及出口e1；企业制造产品供给本国(h1,h2)及出口(e1,e2)；,考虑两个完全相同的国家（i=1,2），政府负责确定关税税率(t1,t2)；企业制造产品供给本国(h1,h2)及出口(e1,e2)；市场1： Q1=h1+e2,考虑两个完全相同的国家（i=1,2），政府负责确定关税税率(t1,t2)；企业制造产品

14、供给本国(h1,h2)及出口(e1,e2)；两个市场： Qi=hi+ej,考虑两个完全相同的国家（i=1,2），政府负责确定关税税率(t1,t2)；企业制造产品供给本国(h1,h2)及出口(e1,e2)；两个市场： Qi=hi+ej, pi(Qi)=a-Qi,考虑两个完全相同的国家（i=1,2），每个国家有一个政府负责确定关税税率(t1,t2)；一个企业制造产品供给本国(h1,h2)及出口(e1,e2)；,博弈的时间顺序如下： (1)政府同时选择关税税率t1和t2； (2)企业观察到关税税率，并同时选择其提供国内消费和出口的产量(h1, e1)和(h2, e2)；,企业的收益为其利

15、润i： i(ti, tj, hi,ei, hj, ej)= a-(hi+ej)hi + a-(hj+ei)ei-c(hi+ei)-tjei,由于i (ti,tj,hi,ei,hj*,ej*)可表示为: 企业I 在市场i的利润 + 在市场j的利润即i(ti, tj, hi,ei, hj, ej)= a-(hi+ej)hi + a-(hj+ei)ei-c(hi+ei)-tjei 也即i(ti, tj, hi,ei, hj, ej)= a-(hi+ej)hi -chi + a-(hj+ei)ei-cei-tjei 企业i在市场的最优化问题就可拆为一对问题，在每个市场分别求解,企业的收益为其利润i： i(ti, tj, hi,ei, hj, ej)= a-(hi+ej)hi -chi + a-(hj+ei)ei-cei-tjei,企业i在市场的最优化问题就可拆为一对问题，在每个市场分别求解,hi*须满足： max hia-(hi+ej*)-c, hi0,企业的收益为其利润i： i(ti, tj, hi,ei, hj, ej)= a-(hi+ej)hi -chi + a-(hj+ei)ei-cei-tjei,ei*必须满足：maxeia-(ei+hj*)-c-tjei ei0,企业的收益为其利润i

展开阅读全文