{战略管理}混合策略讲义

资源描述

《{战略管理}混合策略讲义》由会员分享，可在线阅读，更多相关《{战略管理}混合策略讲义（35页珍藏版）》请在金锄头文库上搜索。

1、2020/8/5,张醒洲，大连,1,混合策略,找到不确定情况下的最优反应,定义在一个n人博弈的标准式表述中，参与人的策略空间为 ,收益函数为 ,我们用表示此博弈。,2020/8/5,张醒洲，大连,2,纳什均衡,博弈的标准式和纳什均衡,2020/8/5,张醒洲，大连,3,举例: 猜硬币,模型两个参与人 1,2 每个参与人的策略空间为H,T 收益零和试着找到纳什均衡,两个男孩各自有一个硬币并且他们必须选择将硬币的正面朝上还是背面朝上。如果两个硬币朝上的面相同（即都是正面或都是背面），则参与人2将赢得参与人1的硬币；否则，参与人1将赢得参与人2的硬币。,猜硬币,如果参与人的策略一致(正

2、面，正面) 或 (反面，反面)则参与人1会偏向于改变策略；但是如果两者策略不一致(正面, 反面) 或 (反面, 正面)则参与人2偏向于改变策略。,没有一组策略满足 (NE),2020/8/5,张醒洲，大连,5,石头-剪刀-布博弈,此博弈也不存在纳什均衡无论参与人1选择哪个纯策略，参与人都可以打败他。,2020/8/5,张醒洲，大连,6,猜对方策略,猜硬币博弈一个非常突出的特点是每个参与人都试图猜中对方的策略。任何这一类都没有纳什均衡至少不存在1.1.C节所定义的纳什均衡因为这一类博弈的解包含了一个参与人对其他参与人行为的不确定。现在我们介绍混合策略,2020/8/5,张醒洲，

3、大连,7,纯策略，混合策略,考虑标准式博弈G=S1, Sn; u1 , un 此后我们定义Si 中的策略为参与人 i 的纯策略在本节的完全信息同时行动博弈中，一个参与人的纯策略就是他可以选择的不同行动；例如，在猜硬币的博弈中，Si 包含两个纯策略：正面和背面。参与人i的一个混合策略是在其策略空间Si中的（一些或全部）策略的概率分布。,2020/8/5,张醒洲，大连,8,概率和信念,随机事件事件有明确定义.我们可以区分不同的事件. 在进行观察或试验前,我们不能肯定的说一个具体的事件会出现.我们可以判断哪些事件有可能出现,并且能判断每一个事件出现的可能性大小. 概率事件的概率是对一

4、次随机试验中该事件出现的可能性的度量如果对可能性的度量以某种客观规律或物质属性为基础, 我们就用“概率”一词如果对可能性的度量以个人经验、主观判断为基础，就用“主观概率”、“信念”、“置信度”等术语,2020/8/5,张醒洲，大连,9,概率分布,样本空间：=1 , 2 , , n, 试验中可能出现的所有基本结果i的集合事件由基本结果组成，是样本空间的子集。如果在试验中事件A中的一个结果出现了,就说事件A发生。概率分布就是将总概率P()1分解到所有可能的样本点或事件上的一种方式,2020/8/5,张醒洲，大连,10,概率的公理化定义,概率测度样本空间上的一个概率测度是的子集的一个函数P

5、( ) ，它满足三条公理：公理(1) 0P(E) 1, 对任一事件E 公理(2) P()1 公理(3) 对任何一列互不相容的事件E1,E2,.,即EiEj=(空集), ij, 有我们称P(E)为事件E的概率。,2020/8/5,张醒洲，大连,11,混合粗略：猜硬币,参与人i的一个混合策略是在其策略空间Si中的策略的概率分布举例: 猜硬币 S2 包含两个纯策略即正面和反面, 因此参与人2的一个混合策略为概率分布 (q, 1 - q), 其中q 为正面朝上的概率，1 - q 是背面朝上的概率, 并且 0 q 1.,混合策略 (0,1) 是背面朝上的纯策略; 类似地, 混合策略 (1,0

6、) 是正面朝上的纯策略。,2020/8/5,张醒洲，大连,12,混合策略: 举例,参与人2 的一个混合策略为概率分布( q, r,1-q-r), 其中 q表示出左的概率， r 表示出中的概率， 1 - q r 表示出右的概率。和前面一样， 0 q 1, 并且还应满足 0 r 1 和 0 q + r 1。混合策略 (1/3,1/3,1/3) 表示参与人出左、中、右的概率相同，而 (1/2,1/2,0) 表示出左、中的概率相同，但不可能出右。,参与人的一个纯策略只是其混合策略的一个特例，例如参与人2出左的纯策略可表示为混合策略 (1,0.0)。,2020/8/5,张醒洲，大连,13,

7、混合策略:定义,更为一般地，假定参与人 i有K个纯策略：Si =si1, ,siK.参与人 i的一个混合策略是一个概率分布 ( pi1, ,piK ) ,其中 piK表示对所有k=1, ,K,参与人i选择策略 sik的概率，由于 pik是一个概率，对所有k=1, ,K，有 0pik 1且 pi1+piK =1。我们用 pi表示基于Si 的任意一个混合策略，其中包含了选择每一个纯策略的概率，正如我们用 si表示 Si 内任意一个纯策略。,定义对标准式博弈，假设S i = si1, ,siK 。那么，参与人i的一个混合策略为概率分布 pi= ( pi1, ,piK )，其中对所有 k=1,

8、 ,K， 0pik 1，且 pi1+piK =1。,2020/8/5,张醒洲，大连,14,参与人 j的混合策略解释,当参与人 i不确定参与人 j会如何行动时，他可以把参与人 j的混合策略作为参与人 j行动的一个解释。,例如: 猜硬币假设参与人1相信参与人会以q 的概率出正面，以1 - q 的概率出背面；也就是说，1 相信2的混合策略是 ( q, 1-q )。,2020/8/5,张醒洲，大连,15,猜猜硬币另一面的颜色,这里有三枚硬币,每一面被贴上红色或白色纸片(如下图).为了方便从左向右编号1、2、3.,现在从中任取一枚放在桌面，结果你看到白色。请猜一下，这枚硬币的背面是什么颜色? 统计频数

9、红色人白色人共人计算频率红色 % 白色 %,2020/8/5,张醒洲，大连,16,猜猜哪个硬币被标记了,这里有三枚硬币,每一面被贴上红色或白色纸片(如下图).为了方便从左向右编号1、2、3号硬币,现在从中任取一枚放在桌面，结果你看到白色。请猜一下，这是几号硬币?,2020/8/5,张醒洲，大连,17,猜猜哪个硬币被标记了,提示: 根据条件“看到一面白色”, 只考虑前两枚硬币(拿走两面全是红色的第三枚硬币). 区分第一枚硬币的两个面，尽管它们同色同质。你可以设想给第一枚的两面分别标记11与12。现在知道，从前两枚硬币中任取一个并让白色朝上，共三种可能。由于硬币质地均匀，随机抽

10、取，随机搁置，我们认为这三种情形等可能。,三枚硬币，任取一枚平放在桌面上，共有32=6种等可能的情形。满足条件“白色在上”的只有这三种。,2020/8/5,张醒洲，大连,18,期望收益,试验有两种可能结果，你的信念是硬币以2:1 的比例出现白色与红色.猜对得1分,猜错扣1分. 请估计你的策略“猜白色出现”与“猜红色出现”的预期支付各为多少？,预期支付就是概率加权支付将你在所有可能结果上的支付按这些结果出现的概率加权求和,2020/8/5,张醒洲，大连,19,对参与人j的混合策略，参与人i的最优纯策略,给定以下信念如果参与人1的反应是出正面，则他的期望收益是 q (-1) + (1 - q)

11、 1 = 1 - 2q 如果参与人1的反应是出正面，则他的期望收益是 q 1 + (1 - q) (- 1) = 2q-1.,因为当且仅当 q 2q-1成立, 则如果q 1/2,参与人1的最优纯策略为出背面；如果 q = ,参与人1出正面与出背面没有差别。,2020/8/5,张醒洲，大连,20,严格劣于一个混合策略的策略,针对参与人1对参与人2的可能行动作出的任何推断 (q, 1-q)，1的最优反应是要么是T (当 q 1/2) ，要么是M (当q 1/2), 但不会是 B，虽然T 或 M 并不严格优于 B 关键：存在一个混合策略严格优于B 如果参与人1以1/2的概率出T，以1/2

12、的概率出 M ，则1的期望收益是3/2 无论参与人2采取哪种策略（纯的或混合的），参与人1的收益3/2 都大于其出B时所获得的收益。,图 1.3.1,这个例子说明了在“寻找另外一个严格优于 si 的策略”时，混合策略所起的作用。,2020/8/5,张醒洲，大连,21,给定的纯策略可以是混合策略的最优反应,图 1.3.2表明，一个给定的纯策略可以是一个混合策略的最优反应，即使这一纯策略并不是其他纯策略的最优反应。,在这个博弈中，B不是参与人 1对参与人2的纯策略L或R的最优反应；但B是参与人1对参与人2的混合策略 (q, 1 - q) 的最优反应，假定 1/3 q 2/3；这个例

13、子说明了混合策略在 “参与人i可能持有的推断”中的作用,Figure 1.3.2,2020/8/5,张醒洲，大连,22,对参与人j的混合策略，参与人i的最优混合策略,给定以下信念如果参与人1出正面, 他的期望收益是1 - 2q ；如果参与人1出背面，他的期望收益是2q-1. 考虑参与人1可能的混合策略,令 (r, 1- r) 为参与人1混合策略(以概率 r 出正面,以概率1-r出背面)；对任意 0,1 上的q，计算r的值, 用 r*(q)表示。因此，参与人2选择混合策略 (q, 1 - q)时，参与人1的最优反应是(r, 1 - r)。,2020/8/5,张醒洲，大连,23

14、,对参与人j的混合策略，参与人i的最优混合策略,参与人 2: ( q, 1-q ) 参与人 1: ( r, 1- r ) 求解 r*(q) 当参与人2的混合策略为(q, 1 - q)时，参与人选择 (r, 1 - r) 的期望收益如下：,rq (-1) + r(1 - q) 1 + (1 - r)q 1 + (1 - r)(l - q) (-1) = (2q-1 ) + r(2-4q) , (1.3.1) r*(q) =arg max 2(q-1/2)+4r(1/2-q),2020/8/5,张醒洲，大连,24,对参与人j的混合策略，参与人i的最优混合策略,参与人 2: ( q, 1-q )

15、 q0,1 参与人 1: ( r, 1- r ) r*(q) = arg max 2(q-1/2)+4r(1/2-q),图 1.3.3,当q=1/2时，参与人1的期望收益2(q-1/2)+4r(1/2-q)与r无关，且参与人1的所有混合策略 (r, 1-r) 都是无差异的。也就是说，当q=1/2 时，对于0到1之间的任何r，(r, 1-r)都是 (q, 1-q)的最优反应。,2020/8/5,张醒洲，大连,25,最优反应对应,古诺模型的最优反应函数,这里，因为存在一个q，使得r*(q) 有不止一个解，我们称r*(q) 为参与人1的最优反应对应。,最优反应对应,和我们之前讨论的相关概念相比(我们

16、只考虑了参与人1的纯策略)，这是一个更强的概念。,2020/8/5,张醒洲，大连,26,对参与人1的混合策略，参与人2的最优反应,完全信息静态博弈中，参与人同时行动，并且参与人2和参与人1会以相同的方式考虑此博弈。对参与人1 的策略 (r, 1-r)，参与人2的最优反应是 (q*(r), 1-q*(r),其中q*(r)=arg max (1-2r)+q(4r-2),2020/8/5,张醒洲，大连,27,最优反应对应的解释,最优反应r*(q)和q*(r)的交点确定了猜硬币博弈的纳什均衡：如果参与人i的策略是 (1/2,1/2) ，则参与人j的最优反应是 (1/2,1/2)，满足纳什均衡的要求。,图 1.3.6,2020/8/5,张醒洲，大连,28,混合策略纳什均衡的说明,一个混合策略纳什均衡不依赖任何参与人扔硬币、掷骰子或其他随机

展开阅读全文