《第10章贝叶斯博弈与贝叶斯Nash均衡ppt课件》由会员分享,可在线阅读,更多相关《第10章贝叶斯博弈与贝叶斯Nash均衡ppt课件(144页珍藏版)》请在金锄头文库上搜索。
1、第三部分: 不完全信息静态博弈第十章贝叶斯博弈与贝叶斯第十章贝叶斯博弈与贝叶斯Nash平衡平衡主要内容:一、贝叶斯博弈二、贝叶斯Nash平衡三、贝叶斯Nash平衡的运用四、关于混合战略Nash平衡的一个解释主要内容:一、贝叶斯博弈二、贝叶斯Nash平衡三、贝叶斯Nash平衡的运用四、关于混合战略Nash平衡的一个解释第十章贝叶斯博弈与贝叶斯第十章贝叶斯博弈与贝叶斯Nash平衡平衡一、贝叶斯博弈前面两部分我们讨论了完全信息博弈问题,但在现实生活中我们遇到更多的能够是不完全信息博弈问题。 例如在“新产品开发博弈中,企业对市场的需求能够并不清楚;在连锁店博弈中,潜在的进入者能够并不知道连锁店在市场上
2、的盈利情况,等等。 将这种博弈开场时就存在事前不确定性的博弈问题是不完全信息博弈问题。例如:“斗鸡博弈 调查这样的情形:假设参与人能够有这样的两种性格特征(类型)“强硬(用s表示)或“脆弱(用w表示)。 所谓“强硬的参与人是指那些喜欢争强好胜、不达目的誓不罢休的决斗者;而“脆弱的参与人是指那些胆怯怕事、遇事希望息事宁人的决斗者。 显然,当具有不同性格特征的决斗者相遇时,所表现出来的博弈情形是不同的。令U表示冲上去;D表示退下去,那么每种情况下博弈情形如以下图所示。当参与人都为强硬者时博弈存在两个纯战略Nash平衡 (U,D)和(D,U)。当参与人1为强硬者参与人2为脆弱者时博弈存在独一的Nas
3、h平衡(U, D)。 当参与人1为脆弱者参与人2为强硬者时博弈存在独一的Nash平衡(D, U)。当参与人都为脆弱者时博弈存在独一的Nash平衡(D, D)。(1) 参与人都为强硬者(2) 参与人1为强硬者参与人2为脆弱者(3) 参与人1为脆弱者参与人2为强硬者(4) 参与人都为脆弱者在“斗鸡博弈中,虽然在博弈开场之前每位决斗者都了解(知道)本人的性格特征,但对对手的性格特征往往不甚了解或了解不全。在这种情况下即使一切的决斗者都看到了上面的四个战略式博弈 ,但对决斗者来讲,仍存在着所谓的事前不确定性即博弈开场之前就不知道的信息。 对于“强硬的参与人1来讲,虽然他看到了上面的战略式博弈,但他不知
4、道对手是“强硬的还是“脆弱的,所以博弈开场之前他无法确定博弈是根据(1)还是(2)进展。 这意味着“强硬的参与人1面临着事前无法确定的信息。同样,“脆弱的参与人1也会面临类似的问题。此时,“斗鸡博弈就是一个不完全信息博弈问题。对于不完全信息博弈问题,是不能够运用前面两部分引见的方法进展求解的。这是由于给定参与人1为“强硬的决斗者,假设对手是“脆弱的,那么博弈就只存在独一的Nash平衡(U, D),参与人1有独一的最优选择“冲上去;假设对手是“强硬的,那么博弈就会出现两个Nash平衡(U,D)和(D,U),参与人1的最优选择取决于对手的选择。但由于参与人1不知道对手终究是“强硬的还是“脆弱的,因
5、此,此时的参与人1就觉得本人似乎是在与两个决斗者进展决斗,一个是“强硬的,另一个是“脆弱的。当一个参与人并不知道在与谁博弈时,博弈的规那么是没有定义的,如何处置不完全信息?Harsanyi提出了Harsanyi转换。为了分析,对“斗鸡博弈进展简化。假设参与人1是“强硬的决斗者,参与人2能够是“强硬的也能够是“脆弱的,参与人1不知道但参与人2清楚,而且这一假设为一切的参与人所知道。 Harsanyi转换对于简化的“斗鸡博弈,Harsanyi转换是这样处置的:在原博弈中引入一个“虚拟参与人“自然(nature,用N表示),构造一个参与人为两个决斗者和“自然的三人博弈。 Harsanyi转换“自然首
6、先行动决议参与人2的性格特征(即选择参与人2是“强硬的还是“脆弱的),“自然的选择参与人1不知道,但参与人2知道。在“自然选择后,参与人1和2再进展“斗鸡博弈。 在新构造的三人博弈中,“自然的支付不用思索。参与人1和2的支付由“斗鸡博弈决议。假设“自然选择参与人2的性格特征是“强硬的,那么意味着参与人1与“强硬的参与人2进展决斗,博弈进入决策结x1,其支付(1)决议;假设“自然选择参与人2的性格特征是“脆弱的,那么意味着参与人1与“脆弱的参与人2进展决斗,博弈进入决策结x2,其支付由(2)决议。Harsanyi经过引入“虚拟参与人,将博弈的起始点由x1(或x2)提早至x0 ,从而将原博弈中参与
7、人的事前不确定性转变为博弈开场后的不确定性(即参与人1不知道“自然的选择)。这种经过引入“虚拟参与人来处置不完全信息博弈问题的方法亦称Harsanyi转换。调查不完全信息博弈问题参与人的决策用p1表示参与人1以为“自然选择参与人2为“强硬的概率,v1(U)和v1(D)分别表示参与人1以为本人选择行动U和D时所能得到的期望收益;用x表示“强硬的决斗者2选择行动U的概率。 当 即 时,对参与人1来讲,其最优选择是U(即“冲上去)。由于 ,所以当 即参与人1以为参与人2是“强硬决斗者的能够性不超越1/2时,就会选择“冲上去。 调查参与人2的选择。用q1表示参与人2关于“参与人1关于自然选择的推断的推
8、断,即q1表示参与人2以为“参与人1以为参与人2是强硬的概率。由前面的分析可知:假设 ,那么参与人2以为“U(即冲上去)是参与人1的最优选择;与此同时,假设 ,那么参与人1的最优选择与参与人2的预测一致。但是,假设 而 ,那么参与人1的最优选择就能够与参与人2的预测不一致。在Harsanyi转换中规定:参与人关于“自然选择的推断为共同知识。也就是说,两个决斗者不仅同时一同看到了“自然随机选择参与人2的性格特征,而且同时一同看到了“自然以一定的概率分布随机选择参与人2的性格特征。不完全信息博弈经Harsanyi转换之后得到的完全但不完美信息博弈。(x, y)表示参与人1的性格特征为x,参与人2的
9、性格特征为y;pxy表示“自然选择(x, y)的概率,这里pxy为共同知识。 在运用Harsanyi转换时,需求留意以下问题: 1) “自然的选择。在普通的不完全信息博弈问题中,Harsanyi转换规定“自然选择的是参与人的类型(type)。除了根据参与人的支付来划分参与人的类型以外,还可以根据参与人的行动空间,甚至根据参与人掌握信息的多少(或程度)来来划分参与人的类型。此外,需求留意的是,参与人的类型必需是其个人特征的一个完备描画。 用ti表示参与人i的一个特定的类型,Ti表示参与人i一切类型的集合(亦称类型空间,type space),即 ,t=(t1,tn)表示一个一切参与人的类型组合,
10、 t-i=(t1,ti-1,tn)表示除参与人i之外其他参与人的类型组合。所以,t=(ti, t-i)。2) 参与人关于“自然选择的推断。用p(t1,tn)表示定义在参与人类型组合上的一个结合分布密度函数,Harsanyi转换假定:对于一个给定的不完全信息博弈问题,存在一个参与人关于“自然选择的推断p(t1,tn),且p(t1,tn)为共同知识。也就是说,Harsanyi转换假定一切参与人关于“自然行动的信心(belief)是一样的,并且为共同知识。用 表示参与人i在知道本人类型为ti的情况下,关于其他参与人类型的推断(即条件概率),那么其中, 为边缘密度函数。假设pss=0.2,psw=0.
11、3,pws=0.25,pww=0.25。虽然决斗者1不知道决斗者2 的类型,但由于决斗者1知道本人的类型,因此他可以根据贝叶斯公式推知决斗者2的类型分布。例如根据贝叶斯规那么,“强硬的决斗者1可以推知:决斗者2是“强硬的概率为决斗者2是“脆弱的概率为“脆弱的决斗者1可以推知:决斗者2是“强硬的概率为决斗者2是“脆弱的概率为 这里不同类型的决斗者1所构成的关于“自然选择的推断是不同的,究其缘由,Harsanyi以为:虽然理性的参与人在掌握同样的信息时对同一事件会构成一样的概率推断,但参与人各自掌握的信息不同时对同一事件就会构成不同的概率推断。这阐明在Harsanyi转换中,参与人对包括本人在内的
12、一切参与人的类型的结合概率推断(分布)都是一样的,但由于参与人掌握的私人信息不同,使得各自对其他参与人的类型的概率分布的推断不同。贝叶斯博弈(the static Bayesian game)是关于不完全信息静态博弈的一种建模方式,也是不完全信息静态博弈的规范式描画。 贝叶斯博弈的定义贝叶斯博弈包含以下五个要素:参与人集合 ;参与人的类型集T1,T2;参与人关于其他参与人类型的推断 , ;参与人类型相依的行动集A(t1), A(tn);参与人类型相依的支付函数 , 。参与人的推断 来源于一个共同的参与人关于“自然选择的推断p(t1,tn),且p(t1,tn)为共同知识。所以,贝叶斯博弈中参与人
13、所具有的关于其他参与人的类型的推断是一致的。规定贝叶斯博弈的时间顺序如下:(1)“自然选择参与人的类型组合t=(t1,tn),其中;(2)参与人i观测到“自然关于本人类型ti的选择;虽然参与人i观测不到“自然关于其他参与人类型t-i的选择,但参与人i具有关于其他参与人类型的推断 ;(3)参与人同时选择行动,每个参与人i从行动集Ai(ti)中选择行动ai(ti) ;(4)参与人i得到 。贝叶斯博弈中的战略在贝叶斯博弈 中,参与人i的一个战略是从参与人的类型集Ti到其行动集的一个函数si(ti),它包含了当自然赋予i的类型为ti时,i将从可行的行动集Ai(ti)中选择的行动。“斗鸡博弈的贝叶斯模型
14、参与人为决斗者1和2;用s表示决斗者是“强硬的,w表示决斗者是“脆弱的,所以T1=T2=s,w。用pxy表示“自然选择类型组合(x,y)的概率,并假设pxy为共同知识,那么每位决斗者i关于其对手类型的推断pi(x|y)。每位决斗者i关于类型相依的行动空间Ai(x)=U,D。每位决斗者i的支付由前面的图决议。在贝叶斯博弈中参与人的战略可定义为(1)战略 “强硬的决斗者i选择行动U,“脆弱的决斗者选择行动U ,即(U,U);(2)战略 “强硬的决斗者选择行动U ,“脆弱的决斗者选择行动D,即(U,D);(3)战略 “强硬的决斗者选择行动D,“脆弱的决斗者选择行动U ,即(D,U);(4)战略 “强
15、硬的决斗者选择行动D,“脆弱的决斗者选择行动D,即(D,D)。主要内容:一、贝叶斯博弈二、贝叶斯Nash平衡三、贝叶斯Nash平衡的运用四、关于混合战略Nash平衡的一个解释第十章贝叶斯博弈与贝叶斯第十章贝叶斯博弈与贝叶斯Nash平衡平衡用x表示“强硬的决斗者2选择行动U的概率,y表示决斗者1选择行动U的概率。决斗者1选择行动U和D的期望收益分别为 和 (这里p为“自然选择决斗者2为“强硬的概率),所以决斗者1的最优战略为:假设 ,那么选择y=1(即选择行动U);假设 ,那么选择y=0(即选择行动D);假设 ,那么选择 (即选择任一混合战略)。 调查“强硬决斗者2的选择。“强硬决斗者2选择行动
16、U和D的期望收益分别为 和 所以“强硬决斗者2的最优战略为:假设y1/2 ,那么选择x=0(即选择行动D);假设y=1/2,那么选择 (即选择任一混合战略)。不完美信息博弈存在如下两个纯战略Nash平衡(1)决斗者1选择行动U,“强硬决斗者2选择行动D,“脆弱决斗者2选择行动D;(2)决斗者1选择行动D,“强硬决斗者2选择行动U,“脆弱决斗者2选择行动D。(3)此外,博弈还存在一个混合战略Nash平衡,即决斗者1以1/2的概率选择行动U,“强硬决斗者2以的概率1/(2p)选择行动U,“脆弱决斗者2选择行动D。 用 表示给定其他参与人的战略 ,类型为ti的参与人i选择行动ai时的期望成效,那么其
17、中,对 , 为给定t-i时由s-i所确定的其他参与人的行动组合“斗鸡博弈中,“强硬的决斗者1关于对手类型的推断为所以,当决斗者2的战略为 (即(U,U),那么“强硬的决斗者1选择行动U和D时的期望成效分别为当决斗者2的战略为 (即(U,D),那么“强硬的决斗者1选择行动U和D时的期望成效分别为在贝叶斯博弈中,对于一个理性的参与人i,当他只知道本人的类型ti而不知道其他参与人的类型时,给定其他参与人的战略s-i ,他将选择使本人期望成效(支付)最大化的行动 ,其中纯战略贝叶斯Nash平衡 贝叶斯博弈 的纯战略贝叶斯Nash平衡是一个类型相依的行动组合 ,其中每个参与人在给定本人的类型ti和其他参
18、与人的类型相依行动 的情况下最大化本人的期望成效。也就是,行动组合 是一个纯战略贝叶斯Nash平衡,假设对 ,存在性结论定理 一个有限的贝叶斯博弈一定存在贝叶斯Nash平衡。贝叶斯Nash平衡的求解先以简化的“斗鸡博弈为例。用p表示决斗者1关于决斗者2的类型的推断。 (x,(y,z):x表示当决斗者2选择该方格所对应的战略时,决斗者1选择该方格所对应的战略规定的行动所得到的期望支付;y和z分别表示当决斗者1选择该方格所对应的战略时,“强硬决斗者2和“脆弱决斗者2选择该方格所对应的战略规定的行动所得到的期望支付。 给定决斗者1选择战略U,“脆弱决斗者2选择行动D的期望支付为0,选择行动U的期望支
19、付为-4,行动D优于行动U;给定决斗者1选择战略D,“脆弱决斗者2选择行动D的期望支付为1,选择行动U的期望支付为0,所以,行动D优于行动U。这意味着战略和为决斗者2的劣战略。 下面根据p的大小,求解博弈的纯战略贝叶斯 Nash平衡。1) 假设 ,无论决斗者2选择战略(U,D)还是(D,D),决斗者1的最优行动都是U。给定决斗者1的选择U ,“强硬决斗者2的最优行动为D。所以,博弈存在独一的纯战略贝叶斯Nash平衡决斗者1选择行动U,“强硬决斗者2选择行动D,“脆弱决斗者2选择行动D。2) 假设 ,博弈存在如下两个纯战略贝叶斯Nash平衡:(1) 决斗者1选择行动U,“强硬决斗者2选择行动D,
20、“脆弱决斗者2选择行动D;(2) 决斗者1选择行动D,“强硬决斗者2选择行动U,“脆弱决斗者2选择行动D。求解“斗鸡博弈的贝叶斯Nash平衡假设“强硬决斗者1关于决斗者2的类型推断 ;“脆弱决斗者1关于决斗者2的类型推断 ;“强硬决斗者2关于决斗者1的类型推断 ; “脆弱决斗者2关于决斗者1的类型推断 ; 的含义是:x1和x2分别表示当决斗者2选择该方格所对应的战略时,“强硬决斗者1和“脆弱决斗者1选择该方格所对应的战略规定的行动所得到的期望支付;y1和y2分别表示当决斗者1选择该方格所对应的战略时,“强硬决斗者2和“脆弱决斗者2选择该方格所对应的战略规定的行动所得到的期望支付。对于“脆弱决斗
21、者1,无论决斗者2选择什么战略,其最优行动都是D。所以,战略(U,U)和(D,U)为决斗者1的劣战略。基于同样的缘由,战略(U,U)和(D,U)为决斗者2的劣战略。对于“强硬决斗者1,无论决斗者2选择什么战略,其最优行动都是U。所以,战略(D,D)为决斗者1的劣战略。给定决斗者1选择战略(U,D),对于决斗者2战略(D,U)和(D,D)是无差别的。所以,博弈存在如下两个纯战略Nash平衡:“强硬的决斗者1和2选择行动U,“脆弱的决斗者1和2选择行动D;“强硬的决斗者1选择行动U,“脆弱的决斗者1选择行动D;“强硬的决斗者2和“脆弱的决斗者2选择行动D。贝叶斯Nash平衡定义的另一种表示方式在静
22、态贝叶斯博弈 中,战略组合 是一个纯战略贝叶斯Nash平衡,假设对 及 ,满足即没有参与人情愿改动本人的战略,即使这种改动只涉及一种类型下的一个行动。 简化的“斗鸡博弈的纯战略贝叶斯Nash平衡为:假设p1/2,博弈的纯战略贝叶斯Nash平衡为(U,(D,D);假设p1/2 ,博弈的纯战略贝叶斯Nash平衡为(U,(D,D)和(D,(U,D)。 “斗鸡博弈的纯战略贝叶斯Nash平衡为: (U,D),(U,D)和(U,D),(D,D)。主要内容:一、贝叶斯博弈二、贝叶斯Nash平衡三、贝叶斯Nash平衡的运用四、关于混合战略Nash平衡的一个解释第十章贝叶斯博弈与贝叶斯第十章贝叶斯博弈与贝叶斯N
23、ash平衡平衡1.不完全信息古诺模型在Cournot模型中,每一个企业对其他企业的本钱和本人的本钱是知的,因此信息是完全的。然而在实践中,企业往往很难知道其他企业的本钱。当Cournot模型中至少有一个企业不知道其他企业的本钱时所对应的模型即为不完全信息的Cournot模型。 参与人类型本钱函数。假设:企业1的本钱函数为共同知识:企业2的本钱函数为私人信息: 其中,企业1知道企业2是 的概率为p,是 的的概率是1-p,p和1-p为共同知识。市场需求:进一步假设:企业2:令 那么企业2的反响函数 不仅与企业1的产量有关,而且与本人的本钱有关。企业1: 企业1不知道企业2的真实本钱,因此也不知道企
24、业2的最优反响是 企业将选择使期望利润最大化的产量。由最优化一阶条件得:即企业1的反响函数。联立求解两个反响函数,得贝叶斯Nash平衡为:两种平衡的比较:企业2为低本钱:企业2为高本钱:平衡比较表示图NEBNE1/3q1 q2 企业1的反响函数低本钱的企业2的反响函数高本钱的企业2的反响函数假设:共同知识共同知识企业1低本钱类型(l )企业1低本钱类型(l )的反响函数企业1高本钱类型(H)企业2低本钱类型(l )企业2 高本钱类型(H)联立求解(1.1)(1.4),即可得贝叶斯Nash平衡。2.不完全信息下的公共产品提供参与人类型本钱函数。两个参与人1、2同时决议能否提供公共产品,每个参与人
25、面临的是一个 01决策问题,即提供或不提供。公共产品博弈假设:1.公共产品的益处(每人一个单位)为共同知识,但每人的本钱只需本人知道;2.c1和c2具有一样的、独立定义在 上的分布函数P(),其中 , P()为共同知识。参与人的纯战略a(ci)定义为其中,0表示不提供,1表示提供。参与人的支付为:两个参与人1、2同时决议能否提供公共产品,每个参与人面临的是一个 01决策问题,即提供或不提供。令 表示平衡形状下参与人j提供的概率。参与人i的反响函数应是: 对方提供,那么不提供;对方不提供那么思索提供。参与人i的提供的预期收益为:因此,只需当 时,参与人i才会提供。因此,存在 使得只需当 时,参与
26、人i才会提供。同理,存在 使得只需当 时,参与人j才会提供。由于所以同理由于以上两式可知, 都必需满足详细的平衡取决与分布函数P()的方式。11222/32/3公共产品提供区域完全信息下新增区域公共产品提供:完全信息与不完全信息的比较3.一级价钱密封拍卖 参与人招标人1、2; 战略报价 ; 支付净收益博弈规那么:两人同时报价(报价需大于 0),报价高的一方得到标的物,并支付所报价钱;报价低的一方的收益和支付都为0。在一级价钱密封拍卖中,主要内容:一、贝叶斯博弈二、贝叶斯Nash平衡三、贝叶斯Nash平衡的运用四、关于混合战略Nash平衡的一个解释第十章贝叶斯博弈与贝叶斯第十章贝叶斯博弈与贝叶斯Nash平衡平衡四、关于混合战略Nash平衡的一个解释性别战博弈上述博弈除了存在两个纯战略Nash平衡外,还有以下混合战略平衡:Harsanyi以为: 参与人i对参与人j的混合战略表示了参与人i对参与人j所选择的纯战略的不确定性,而j的选择又依赖于他(她)的一点私人信息。不完全信息的性别战博弈 完全信息博弈的混合战略 Nash 平衡可以解释为与之亲密相关、存在一小点非完全信息的博弈的纯战略贝叶斯 Nash 平衡。