纳什均衡的扩展与精炼四川大学演示教学

资源描述

《纳什均衡的扩展与精炼四川大学演示教学》由会员分享，可在线阅读，更多相关《纳什均衡的扩展与精炼四川大学演示教学（97页珍藏版）》请在金锄头文库上搜索。

1、2010-3-3,博弈论及其应用（汪贤裕）博弈论及其应用（汪贤裕）,#,博弈论及其应用,第3章纳什均衡的扩展与精炼,博弈论及其应用（汪贤裕）博弈论及其应用（汪贤裕）,#,博弈论及其应用（汪贤裕）,2,第3章纳什均衡的扩展与精炼,主要内容： 3.1 不完全信息的静态博弈 3.2 完全且完美信息动态博弈 3.3 重复博弈 3.4 不完全信息的动态博弈,博弈论及其应用（汪贤裕）博弈论及其应用（汪贤裕）,#,博弈论及其应用（汪贤裕）,3,3.3 重复博弈,3.3.1 基本概念 3.3.2 触发策略 3.3.3 重复博弈的应用,博弈论及其应用（汪贤裕）博弈论及其应用（汪贤裕）,#

2、,博弈论及其应用（汪贤裕）,5,定义3.3.1 重复博弈,设G是一个基本博弈（G可以是静态博弈，也可以是动态博弈），重复进行T次，T可以是有限的，也可以是无限的，这样的博弈称为重复博弈，并记为G（T） G称为G（T）的一个原博弈，每次原博弈称为一个阶段博弈。当T是有限时称有限重复博弈，当T是无限时，称为无限重复博弈。,博弈论及其应用（汪贤裕）博弈论及其应用（汪贤裕）,#,博弈论及其应用（汪贤裕）,6,定理3.3.1 一种子博弈完美纳什均衡的求解方法,定理3.3.1：如果阶段博弈G有纳什均衡，对任意有限或无限阶段的T，重复博弈G（T）有子博弈完美纳什均衡：即在每一阶段重复采用阶段博弈

3、G的纳什均衡。该定理的证明比较简单，只需验证它符合定义3.2.3规定的子博弈完美纳什均衡的条件就可以了。,博弈论及其应用（汪贤裕）博弈论及其应用（汪贤裕）,#,博弈论及其应用（汪贤裕）,7,开环策略集和闭环策略集,开环策略集若局中人在 t 阶段进行行动决策时，不知道该阶段前其它局中人的行为选择，而又要在自己的原博弈行动集中选择一个行动，这时他的策略称为开环策略，全部开环策略称为开环策略集。显然，对T次重复博弈，局中人的开环策略集为,博弈论及其应用（汪贤裕）博弈论及其应用（汪贤裕）,#,博弈论及其应用（汪贤裕）,8,开环策略集和闭环策略集,闭环策略集若局中人在 t

4、阶段进行行动决策时，他知道该阶段前其它局中人的行动选择，再在自己的原博弈行动集中选择一个行动，这时他的策略称为闭环策略，全部闭环策略称为闭环策略集。闭环策略集记为这里闭环是指有 t-1个前期的信息反馈。,博弈论及其应用（汪贤裕）博弈论及其应用（汪贤裕）,#,博弈论及其应用（汪贤裕）,9,开环策略集和闭环策略集,关于开、闭环策略集的例子设原博弈中，若T=2，则局中人1的开环策略集为，一共有4个纯策略。类似地局中人2也只有4个纯策略图右是局中人1在G（T）中的闭环策略集有8个策略。,博弈论及其应用（汪贤裕）博弈论及其应用（汪贤裕）,#,博弈论及其应用（汪贤裕）,10

5、,例3.3.1 价格战重复博弈,某城区有两个商店出售同一商品，他们之间进行价格战，原博弈的情况见下表若博弈只进行一次，有唯一的纳什均衡（降价，降价），其均衡结果为（2，2）。若博弈进行无穷多次，则情况发生变化。,博弈论及其应用（汪贤裕）博弈论及其应用（汪贤裕）,#,博弈论及其应用（汪贤裕）,11,在闭环策略情况下，局中人1可选择的策略：先选择“不降价”行为，但当他发现对方采取的是“降价”行为后，他立即在下一期也选择“降价”行为，并永不改变。而局中人2也可以选择与局中人1同样的策略。在这种情况下，我们分析局中人是否愿意单独地违背自己的策略。,例3.3.1 价格战重复博弈（续）,博弈论及

6、其应用（汪贤裕）博弈论及其应用（汪贤裕）,#,博弈论及其应用（汪贤裕）,12,若局中人1不改变策略行为，他的总收益为：当局中人1在第t期改变策略，其总收益为：（3.3.2）,例3.3.1 价格战重复博弈（续）,博弈论及其应用（汪贤裕）博弈论及其应用（汪贤裕）,#,博弈论及其应用（汪贤裕）,13,结论：当贴现率时，局中人1不愿单独改变自己的策略；当贴现率时，局中人2也不愿单独改变自己的策略；因此，当时，上述策略组成的策略组合是一个均衡点。由于时期t是任意的，因此这个策略组合也是一个子博弈完美纳什均衡。从该例中可以看出，在闭环策略下进行策略选择，每个阶段的收益都会达到

7、（4，4），但（4，4）并不是原博弈的纳什均衡结果。,例3.3.1 价格战重复博弈（续）,博弈论及其应用（汪贤裕）博弈论及其应用（汪贤裕）,#,博弈论及其应用（汪贤裕）,14,3.3.2 触发策略, 无限重复博弈有限重复博弈,博弈论及其应用（汪贤裕）博弈论及其应用（汪贤裕）,#,博弈论及其应用（汪贤裕）,15,无限重复博弈,例3.3.1 的启示从例3.3.1我们可以看到，若原博弈有某种行为组合，使得其纳什均衡点对每一个局中人都有，将会产生一种将行为组合和纳什均衡相结合的行为组合序列。这种行为组合序列有两个特征：（1）这是一个“胡萝卜加大棒”的策略组合，遵守了有胡萝

8、卜吃，违背了将受到“大棒”的惩罚；（2）这是可信的威胁（由贴现因子的大小决定），以至于没有局中人愿意单独地违背，这就遵循了纳什均衡的原则。,博弈论及其应用（汪贤裕）博弈论及其应用（汪贤裕）,#,博弈论及其应用（汪贤裕）,16,无限重复博弈,定义3.3.2 触发策略在重复博弈G（T）中，原博弈为，是原博弈的纳什均衡点，为G的一个行动组合，且对任意有：。局中人的策略为：（1）第一阶段选择，以后也一直选择行动；（2）若第 t 阶段博弈前有任意其它局中人选择不是，则它将选择，并一直进行到最后。这样的策略，称为局中人的触发策略。若每个局中人都采用触发策略，称为一个

9、触发策略组合，记为( , ),博弈论及其应用（汪贤裕）博弈论及其应用（汪贤裕）,#,博弈论及其应用（汪贤裕）,17,无限重复博弈,定义3.3.3 最好反应支付在原博弈中，对给定的策略组合，记 (3.3.3) 称为局中人对策略组合的最好反应支付。,博弈论及其应用（汪贤裕）博弈论及其应用（汪贤裕）,#,博弈论及其应用（汪贤裕）,18,无限重复博弈,定理3.3.2 无限重复博弈G的子博弈完美纳什均衡设是一个闭环策略下的无限次重复博弈，是原博弈的一个均衡点，是G的一个行动组合，且对任意有，( , )是定义3.3.2下的触发策略组合。若对于贴现率有：对任意有 (3.

10、3.4) 则触发策略组合是无限重复博弈G的子博弈完美纳什均衡。,博弈论及其应用（汪贤裕）博弈论及其应用（汪贤裕）,#,博弈论及其应用（汪贤裕）,19,无限重复博弈,例3.3.2 游船定价的博弈有一用于旅游的湖，周围有5条供游客用的相同的游船，并分属5位船主。船主对自己游船定价为每小时元，。在每位船主定价后，每位船主的需求函数为：其收入为：现5位船主对其自身的游船的定价进行博弈，这是一个静态的5人非合作博弈。,(3.3.6),博弈论及其应用（汪贤裕）博弈论及其应用（汪贤裕）,#,博弈论及其应用（汪贤裕）,20,无限重复博弈,令，并由博弈方收益对称性，不难得出，有唯一的纯策

11、略纳什均衡和均衡结果: 若5条游船达成合作，统一定价为，此时行动组合为则共同的收益为,（3.3.7）,博弈论及其应用（汪贤裕）博弈论及其应用（汪贤裕）,#,博弈论及其应用（汪贤裕）,21,由（3.3.7）式，最优统一定价为，代回到（3.3.6）式，则每位船主收益为。若船主在大家共同约定统一定价的情况下，单独降价，则他的最好反应支付为：当时，有最好反应支付。现在将（3.3.6）式表示的支付函数为5人非合作博弈记为G，并将G作为原博弈进行无限次重复博弈，将( , )作为触发策略组合，由（3.3.4）式有,无限重复博弈,博弈论及其应用（汪贤裕）博弈论及其应用（汪贤裕

12、）,#,博弈论及其应用（汪贤裕）,22,因此，当时，触发策略组合( , )是子博弈完美纳什均衡。而当时，触发策略组合( , )不是子博弈完美纳什均衡。越小，对合作的限制就越小，即合作的可能性就越大。从定理3.3.2可以看到，“合作”下的协调政策的选取，会影响的确立。在例3.3.2中，若5位船主的协调策略选择，可以计算出这样降低了对合作的限制，增加了合作的可能性。,无限重复博弈,博弈论及其应用（汪贤裕）博弈论及其应用（汪贤裕）,#,博弈论及其应用（汪贤裕）,23,有限重复博弈,例3.3.3 双寡头垄断定价博弈现有两个厂商垄断生产某一产品，每一个厂商在定价上都有策略集，

13、高价，中价，低价, 其收益函数如右表。假设博弈只进行一次，则有两个纯策略纳什均衡（中价，中价）和（低价，低价），对应的均衡结果分别是（3，3）和（1，1）,博弈论及其应用（汪贤裕）博弈论及其应用（汪贤裕）,#,博弈论及其应用（汪贤裕）,24,假设博弈进行两次，贴现率为，则出现这样的策略组合：厂商1：第一阶段选取高价；若第一阶段博弈结果是（5，5），第二阶段采取中价，否则采取低价。厂商2：第一阶段选取高价；若第一阶段博弈结果是（5，5），第二阶段采取中价，否则采取低价。若两厂商均采取以上策略，则他们的收益为：两厂商是否会违背以上的策略组合呢？,有限重复博弈,博弈论及其应用（

14、汪贤裕）博弈论及其应用（汪贤裕）,#,博弈论及其应用（汪贤裕）,25,有限重复博弈,假设厂商违背策略，只能在第一阶段违背，因为第二阶段采用的是纳什均衡策略。若在第一阶段采取了中价，第二阶段只能采取低价，他的总收益为比较厂商是否愿意违背。的等价式为：即当贴现率时，两产商均不愿违背该策略组合。该策略组合是子博弈完美纳什均衡。并且，他们的收益明显比每个阶段采用纳什均衡所得的结果要好。,博弈论及其应用（汪贤裕）博弈论及其应用（汪贤裕）,#,博弈论及其应用（汪贤裕）,26,这种不是由全部纳什均衡组合构成的子博弈完美纳什均衡同样具有两个特征：（1）这是一个“胡萝卜加大棒”的策略组合

15、；（2）这是可信的威胁，以至于没有局中人愿意单独地违背这种策略组合，这就遵循了纳什均衡的原则。,有限重复博弈,博弈论及其应用（汪贤裕）博弈论及其应用（汪贤裕）,#,博弈论及其应用（汪贤裕）,27,有限重复博弈,定义3.3.4 有区别的触发策略在有限次重复博弈G（T）中，原博弈有多个纳什均衡点，纳什均衡点集合为，且有某个策略组合使得：,博弈论及其应用（汪贤裕）博弈论及其应用（汪贤裕）,#,博弈论及其应用（汪贤裕）,28,有限重复博弈定义3.3.4 有区别的触发策略（续）,定义3.3.4 有区别的触发策略（接上）给定一个阶段参数，局中人的策略为（a）第一阶段选择；（b）在t阶段，t=1，2，，若t-1阶段没有其它局中人违背策略组合行动，则选；若有某个局中人违背了则选，并一直进行到第T阶段；（c）在t阶段，，若t-1阶段没有其它局中人违背策略组合，则选，若有第个局中人违背了则选，并一直进行到第T阶段。局中人的这种策略称为有区别的触发策略，其组合称为有区别的触发策略组合，并记为。,博弈论及其应用（汪贤裕）博弈论及其应用（汪贤裕）,#,博弈论及其应用（汪贤裕）,29,有限重

展开阅读全文