北大精品课件:《博弈论与公共政策》之完全信息动态博弈幻灯片资料

上传人:yulij****0329 文档编号:141591642 上传时间:2020-08-10 格式:PPT 页数:59 大小:361.50KB
返回 下载 相关 举报
北大精品课件:《博弈论与公共政策》之完全信息动态博弈幻灯片资料_第1页
第1页 / 共59页
北大精品课件:《博弈论与公共政策》之完全信息动态博弈幻灯片资料_第2页
第2页 / 共59页
北大精品课件:《博弈论与公共政策》之完全信息动态博弈幻灯片资料_第3页
第3页 / 共59页
北大精品课件:《博弈论与公共政策》之完全信息动态博弈幻灯片资料_第4页
第4页 / 共59页
北大精品课件:《博弈论与公共政策》之完全信息动态博弈幻灯片资料_第5页
第5页 / 共59页
点击查看更多>>
资源描述

《北大精品课件:《博弈论与公共政策》之完全信息动态博弈幻灯片资料》由会员分享,可在线阅读,更多相关《北大精品课件:《博弈论与公共政策》之完全信息动态博弈幻灯片资料(59页珍藏版)》请在金锄头文库上搜索。

1、博弈论与公共政策,北京大学精品课件,完全信息动态博弈,主要内容,一、动态博弈的特例:决策分析 二、博弈的扩展式表述 三、动态博弈的均衡 四、子博弈精炼纳什均衡 五、应用举例 六、重复博弈,例1:合同纠纷,甲、乙双方在签订一项合同后,乙方违约。乙方提出和解,愿意赔偿7万元。甲方如果上法庭,可望获得10万元赔偿,但要付出2万元的诉讼费用。 甲方应当接受和解还是上法庭?,决策树,逆向归纳法,从右往左逐步分析。在这个过程中: 对于机会结,计算期望收益,并将相应的值写在该结下面。 对于决策结,还是做两件事: 第一,在较劣的决策枝上划叉; 第二,将对应于最优决策枝的收益写在该决策结下面。 一旦某个结点下面

2、标了值,在以后进一步分析该结点的父结点时,就只考虑该结点的值而不再考虑其右边的子决策树。,例3:交通事故和解谈判,在一次交通事故中,被告同意赔偿4万元以和解。原告如果坚持上法庭,需要花1万元的诉讼费,有可能出现三种结果: 结果1:得到包括误工费在内总额为10万元的赔偿,概率为50%; 结果2:仅得到2万元的修车费赔偿,概率为30%; 结果3:得不到任何赔偿,概率为20%。 甲方应当接受和解还是上法庭?,例4:购买土地,某人打算购买土地,现有A、B两块地可以选择。A、B两块地的售价分别为30万元和25万元。这两块地看起来差不多,所以买方起初打算购买价格更便宜的B。但是,买方进一步了解得知,B可能

3、存在环境问题,因为该地过去被堆放过大量垃圾,而A不存在类似问题。如果B被危险垃圾污染,依照法律规定,买方必须进行无害化处理,成本为20万元。买方估计,B被危险垃圾污染的概率为50%。,在决定到底买哪块地之前,买方也可以先请环保机构进行检测,看到底是否需要进行无害化处理,检测费为2万元。 买方是否需要先请环保部门监测?还是直接购买A或B?,首先考虑,买方在开始有几种选择?,二、博弈的扩展式表述,1、博弈的扩展式表述 参与者 每个参与者在何时行动 每次轮到某一参与者行动时,可供他选择的行动 每次轮到某一参与者行动时,他所了解的信息 对应于参与者可能选择的每一行动组合,各个参与者的收益,通常可以用博

4、弈树来描述博弈的扩展式(请与决策树比较):,例5 :简单诉讼博弈,甲、乙双方在签订一项合同后,乙方违约。甲方可以选择控告,并索赔8000元,但控告需要花3000元诉讼费;甲方也可以选择忍受,一切维持现状。一旦甲方控告并提出索赔,乙方可以提出和解并赔偿8000元;乙方也可以选择上法庭。如果上法庭,甲方将胜诉,乙方将被判赔偿9000元,且双方各需要支出2000元的诉讼费。 甲方应当控告还是忍受?,博弈树,通过引入机会结,我们也可以纳入存在不确定性的情况,如下图:,博弈树,2、信息集 参与者的一个信息集是指满足以下两个条件的决策结的集合: 在此信息集中的每一个结点都轮到该参与者行动。 当博弈的进行达

5、到该信息集中的一个结,应该行动的参与者并不知道达到了信息集中的哪一个结。,3、策略 参与者的一个策略是关于行动的一个完备计划,它明确了在参与者可能遇到的每一种情况下对可行行动的选择。 思考: 在下面的博弈中,两个参与者各自的策略空间分别是什么?,例 6,4、扩展式表述与标准式表述 任何博弈都既可用标准式表述,又可用扩展式表述。 (1)用扩展式表述囚徒困境博弈(第1讲中的例1),第1讲之例1:囚徒困境,(2)用标准式表述例6中的博弈,1、利用标准式表述求纳什均衡 2、在博弈树上找纳什均衡,三、动态博弈的均衡,四、子博弈精炼纳什均衡,1、可置信的威胁与不可置信的威胁 一种威胁所规定的行动在事前看来

6、是最优的,但事后看并不是参与者的最优选择,这种威胁就是不可置信的,含有这种威胁的策略就不是一个合理的策略。,例7:台湾问题,2、承诺 在博弈论中,所谓承诺是将不可置信的威胁变成可置信的威胁的行动:威胁不仅是事前最优的,也是事后最优的。 承诺意味着限制自己的自由:选择少反而对自己好。 比如例7中的台湾问题:立法还是政府随机应变?,3、子博弈 扩展式博弈中的子博弈是指博弈的一部份,要求: 始于博弈树中一个单结信息集的决策结,但不包括博弈的第一个决策结; 包含该决策结之下所有的决策结和终点结; 没有分割任何信息集。,4、子博弈精炼纳什均衡 如果参与者的策略组合在每一子博弈中都构成纳什均衡,则称该策略

7、组合是子博弈精炼纳什均衡。 子博弈精炼纳什均衡排除了不可置信的威胁。 参看例6。,5、逆向归纳法 从最后一个决策结开始,找出该子博弈的纳什均衡;然后再分析倒数第二个决策结,找出相应子博弈的纳什均衡;如此一直到初始决策结,所有子博弈上的最优选择就构成了子博弈精炼纳什均衡。,例 8,1,2,1,(2,0),(5,0),(4,2),(1,1),U,D,R,L,U,D,例9: 简单诉讼博弈(续),我们将例5中的收益数字改一下,变为下面的博弈,会出现什么结果?,博弈树,例10:诉讼博弈,对于下面的博弈,如果Y=7千元,原告的最优策略是什么?,博弈树,例11:诉讼博弈(续),对于下面的博弈,原告的最优策略

8、是什么?,博弈树,6、均衡、均衡路径与解 一个均衡是各参与者的策略组合,而策略又是完备的(即针对所有可能情况的)行动计划。 精炼纳什均衡下所经过的决策点和最优选择构成的路径,称为均衡路径。 其他的路径是非均衡路径。 一个解则指一条均衡路径,即在给定的策略组合下各参与者的实际行动组合。,例 8,1,2,1,(2,0),(5,0),(4,2),(1,1),U,D,R,L,U,D,7、逆向归纳法背后的理性假定 在例 8 中,均衡结果依赖于非均衡路径上的选择:参与者 1 之所以起初就选择 U ,是因为他预期如果选择 D 的话,参与者 2 将选择 L ;而 2 之所以选择 L ,是因为她预期如果选择 R

9、 的话,参与者 1 将选择 U。 可是,只有在 1 偏离了博弈的逆向归纳解之后才能轮到 2 行动,而这时 2 似乎不能认为 1 是理性的了,从而 2 未必就会选 L 。逆向归纳出问题了?,五、应用举例,例12:诉讼博弈 在例11的诉讼博弈中,被告如何利用承诺以扭转局势?,例13:投票问题 三个选民(1、2、3)要就三个备选方案(A、B、C)进行投票。议程为,首先就A和B两个方案进行投票决定优胜者,然后在前面的优胜者与C之间进行投票。各人的偏好顺序如下表所示。以上信息为共同知识。 请你分析各人的投票策略,最终哪个方案被选中呢?,例14:斯特尔伯格双头垄断模型,例15:国家之间的关税协定,六、重复

10、博弈,例16:连锁店问题,如果博弈不是一次性的,而是重复进行的,参与者过去行动的历史是可以观察到的,参与者就可以根据对手过去的行动来决定自己的选择,因而有了更多的可选策略,均衡结果可能与一次博弈大不相同。 重复博弈理论的最大贡献是对人们之间的合作行为提供了理性解释。,1、有限次重复博弈 以 G(T) 表示阶段博弈 G 重复 T 次的有限次重复博弈,并且在下一阶段博弈开始之前,所有以前博弈的结果都可被观测到。 G(T) 的收益为 T 次阶段博弈收益的简单相加。,命题一: 如果阶段博弈 G 有唯一的纳什均衡,则对任意有限的 T ,重复博弈 G(T) 有唯一的子博弈精炼解,即 G 的纳什均衡结果在每

11、一阶段重复出现。,命题二: 当阶段博弈 G 为完全信息动态博弈时,只要 G 有唯一的逆向归纳解,那么对任意有限的 T ,重复博弈 G(T) 有唯一的子博弈精炼解,其中每一阶段的结果都是 G 的逆向归纳解。,命题三: 如果阶段博弈 G 是一个有多个纳什均衡的完全信息静态博弈,则重复博弈 G(T) 可以存在这样的子博弈精炼解除最后那个阶段外,各个阶段的结果都不是 G 的纳什均衡结果。,例17:两阶段重复博弈,考虑下表所示的阶段博弈重复两次,参与者在第二阶段开始前可以观测到第一阶段的结果。 我们可以证明在这一重复博弈中存在一个子博弈精炼解,其中第一阶段的行动组合为(M, M)。,例18:两阶段重复博

12、弈,2、无限次重复博弈 即使阶段博弈 G 有唯一的纳什均衡,无限次重复博弈中也可以存在这样的子博弈精炼解,其中没有一个阶段的结果是 G 的纳什均衡结果。,(1)无限次重复博弈的定义 给定一个阶段博弈G,以G (,)表示相应的无限次重复博弈,其中 G 将无限次地重复进行,且参与者的贴现因子都为 。并且在下一次博弈开始之前,所有以前博弈的结果都可被观测到。每个参与者在 G (,)中的收益都是该参与者在无限次的阶段博弈中所得收益的现值。,(2)阶段博弈的保留收益与可行收益,(3)弗里德曼定理 令 G 为一个有限的完全信息静态博弈,以(e1, ,en)表示 G 的一个纳什均衡下的收益,而 (x1, ,xn) 表示 G 的其他任何可行收益。如果对每个参与者 i 都有xi ei,且 足够接近于1,则无限次重复博弈 G (,)存在一个子博弈精炼纳什均衡,其平均收益可达到 (x1, ,xn) 。,(4)不确定性下的适度惩罚 在确定的情况下,惩罚越严厉,越有助于合作。由于在均衡中欺骗行为并不发生,所以惩罚实际上是没有成本的。 但在不确定的情况下,即使每个参与者都选择合作,“坏结果”也可能会出现。如果坏结果总是触发惩罚,就会冤枉好人,过重的惩罚可能导致不合作;但如果总是原谅,合作也不会发生。,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号