贝叶斯博弈例题

上传人:小** 文档编号:61646325 上传时间:2018-12-08 格式:PDF 页数:6 大小:98.23KB
返回 下载 相关 举报
贝叶斯博弈例题_第1页
第1页 / 共6页
贝叶斯博弈例题_第2页
第2页 / 共6页
贝叶斯博弈例题_第3页
第3页 / 共6页
贝叶斯博弈例题_第4页
第4页 / 共6页
贝叶斯博弈例题_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《贝叶斯博弈例题》由会员分享,可在线阅读,更多相关《贝叶斯博弈例题(6页珍藏版)》请在金锄头文库上搜索。

1、第四课贝叶斯博弈 时奇 2016 年 4 月 15 日 Osborne 2004. 1?例?例 夫妻之战 2. 假设夫有两种类型, 愿意伴随妻 (y), 愿意躲避妻 (n). 夫知道自己是何种 类型, 但妻不知道, 她只知道夫是这两种类型的概率各占一半. 表 1: 夫妻之战 2 (a) 夫愿意伴随妻 夫 芭蕾足球 妻 芭蕾3,10,0 足球0,01,3 (b) 夫愿意躲避妻 夫 芭蕾足球 妻 芭蕾3,00,3 足球0,11,0 夫妻之战 3. 假设有四种状态: (1) 夫妻都愿意伴随对方; (2) 妻愿意伴随夫, 夫躲避妻; (3) 妻躲避夫, 夫愿意伴随夫; (4) 夫妻都躲避对方. 已知这

2、四种状态的先验概率为共同知识, 为 5 8, 1 8, 1 8, 1 8. 但夫妻双方 (i = W(ife),H(usband) 都只能观察到自己是否愿意伴随对方 (如果是, 则其类型为 yi; 如果否, 则其类型为 ni, 其中 i = W,H). 1 2贝叶斯博弈2 表 2: 夫妻之战 2 (a) 1 夫 芭蕾足球 妻 芭蕾3,10,0 足球0,01,3 (b) 2 夫 芭蕾足球 妻 芭蕾3,00,3 足球0,11,0 (c) 3 夫 芭蕾足球 妻 芭蕾0,13,0 足球1,00,3 (d) 4 夫 芭蕾足球 妻 芭蕾0,03,3 足球1,10,0 2贝叶斯博弈贝叶斯博弈 一个贝叶斯博弈

3、包含了 参与人的集合 N := 1, ,n 状态的集合 , 其中一个代表性元素为 一个共同的先验信念, 即各个状态发生的概率分布函数 p 对于每个参与人 i, 都有 行动的集合 Ai, 其中一个代表性元素为 ai 他可能接受到的信号的集合 Ti(或类型的集合), 以及一个信号函数 i: Ti 一个贝努利回报函数 ui(a,) 简而言之, 一个贝叶斯博弈为 (N,p,(Ai)n i=1,(i) n i=1,(Ti) n i=1,(ui) n i=1) 2.1夫妻之战夫妻之战 3 的?的? ” 夫妻之战 3” 博弈包含了 参与人的集合 N := W,H 状态的集合 , 包含了四个元素:1,2,3,

4、4 双方对这四种状态的共同信念为 5 8, 1 8, 1 8, 1 8 对于参与人 i = W, 有 3贝叶斯更新3 行动的集合 AW, 包含了两个元素: 芭蕾, 足球 她可能接受到的信号的集合 TW:= yW,nW; 以及一个信号函数 W() = yW 1,2 nW 3,4 她的贝努利回报函数 uW(a, 1,2) = 3(芭蕾, 芭蕾) 0(芭蕾, 足球) 0(足球, 芭蕾) 1(足球, 足球) ,uW(a, 3,4) = 0(芭蕾, 芭蕾) 3(芭蕾, 足球) 1(足球, 芭蕾) 0(足球, 足球) 对于参与人 i = H, 有 行动的集合 AH, 包含了两个元素: 芭蕾, 足球 他可能

5、接受到的信号的集合 TW:= yH,nH; 以及一个信号函数 H() = yH 1,3 nH 2,4 他的贝努利回报函数 uH(a, 1,3) = 1(芭蕾, 芭蕾) 0(芭蕾, 足球) 0(足球, 芭蕾) 3(足球, 足球) ,uH(a, 2,4) = 0(芭蕾, 芭蕾) 3(芭蕾, 足球) 1(足球, 芭蕾) 0(足球, 足球) 3贝叶斯更新贝叶斯更新 在参与人 i 得到信号, 知道自己的类型 ti之后, 他可以通过贝叶斯法则, 计算状态的后 验分布, 并进而计算其他参与人的类型的后验分布 i( | ti) 以夫妻之战 3 中的妻为例, 如果她观察到信号 W= yW, 她应该这样贝叶斯更新

6、自己 关于状态的信念 pW(1| yW) = 5 8 5 8 + 1 8 + 0 + 0 = 5 6. pW(2| yW) = 1 8 5 8 + 1 8 + 0 + 0 = 1 6. pW(3| yW) = 0 5 8 + 1 8 + 0 + 0 = 0. 4贝叶斯均衡4 pW(4| yW) = 0 5 8 + 1 8 + 0 + 0 = 0. 从而他如此推断对方的类型 W(yH| yW) = 5 6. W(nH| yW) = 1 6. 如果她观察到信号 W= nW, 她应该这样贝叶斯更新自己关于状态的信念 pW(1| yW) = 1 8 1 8 + 1 8 + 0 + 0 = 1 2. p

7、W(2| yW) = 1 8 1 8 + 1 8 + 0 + 0 = 1 2. pW(3| yW) = 0 1 8 + 1 8 + 0 + 0 = 0. pW(4| yW) = 0 1 8 + 1 8 + 0 + 0 = 0. 从而他如此推断对方的类型 W(yH| yW) = 1 2. W(nH| yW) = 1 2. 夫的贝叶斯更新也类似. 因此, 贝叶斯博弈可以视为这样一个动态过程: 1自然选择一个状态 2每个参与人 i 通过信号函数观察到自己的类型 ti, 这是他的私人信息, 并通过先验 概率 p 推断其他参与人类型的后验概率分布 i( | ti) 3所有参与人同时选择行动, 选择一个行

8、动组合 a := (a1, ,an) 4给定所有参与人的行动组合 a := (a1, ,an), 每个参与人得到他的回报 ui(a,ti) 1 4贝叶斯均衡贝叶斯均衡 在贝叶斯博弈中, 参与人 i 的一个纯策略为他的每个类型选择一个行动, 即纯策略应为 一个函数 si: Ti Ai. 以夫妻之战 3 为例, 妻的纯策略为 sW: yW,nW 芭蕾, 足球, 那么一共有以下四种 纯策略: I. sW(yW) = 芭蕾,sW(nW) = 芭蕾 1每个参与人的回报与其他参与人的类型无关, 这称为私人价值模型. 4贝叶斯均衡5 II. sW(yW) = 芭蕾,sW(nW) = 足球 III. sW(y

9、W) = 足球,sW(nW) = 芭蕾 IV. sW(yW) = 足球,sW(nW) = 足球 在贝叶斯博弈中, 一个策略组合 s= (s 1(), ,s n() 是一个纯策略贝叶斯纳什均衡, 如 果对任意参与人 i 的任意类型 ti, 都有 tiTi i(ti| ti)ui(s i(ti),s i(ti);ti) tiTi i(ti| ti)ui(ai,s i(ti);ti), ai Ai. 我们可以将所有参与人的所有类型都视为一个独立的参与人, 那么在一个贝叶斯均衡 中, 他们都在给定其他参与人都选择均衡策略的情况下, 最大化自己的期望回报. 求解夫妻之战 3. 妻子有 4 个纯策略, 我

10、们逐一检验是否可能构成贝叶斯纳什均衡. I. sW(yW) = 芭蕾,sW(nW) = 芭蕾 先求出丈夫的最优反应. ? yH类型丈夫 (其贝叶斯更新后的信念为 (yW: 5 6;nW : 1 6):如果选择芭蕾,则 期望回报为 5 61 + 1 61 = 1; 如果选择足球,则期望回报为 5 60 + 1 60 = 0. 那么他 的最优反应为芭蕾. ? nH类型丈夫 (其贝叶斯更新后的信念为 (yW: 1 2;nW : 1 2):如果选择芭蕾,则 期望回报为 1 20 + 1 20 = 0; 如果选择足球, 则期望回报为 1 23 + 1 23 = 3. 那么他 的最优反应为足球. 这说明了

11、丈夫的最优反应是 sH(yH) = 芭蕾,sH(nH) = 足球. 再反过来检验妻子的 最优反应是不是 sW(yW) = 芭蕾,sW(nW) = 芭蕾. ? yW类型妻子 (其贝叶斯更新后的信念为 (yH: 5 6;nH : 1 6):如果选择芭蕾, 则 期望回报为 5 63 + 1 60 = 5 2; 如果选择足球,则期望回报为 5 60 + 1 61 = 1 6. 那么她 的最优反应为芭蕾. ? nW类型妻子 (其贝叶斯更新后的信念为 (yH: 1 2;nH : 1 2):如果选择芭蕾,则 期望回报为 1 20 + 1 23 = 3 2; 如果选择足球, 则期望回报为 1 21 + 1 2

12、0 = 1 2. 那么她 的最优反应为芭蕾. 这就验证了 (sW(yW) = 芭蕾,sW(nW) = 芭蕾;sH(yH) = 芭蕾,sH(nH) = 足球) 构成 一个贝叶斯纳什均衡. II. sW(yW) = 芭蕾,sW(nW) = 足球 略 III. sW(yW) = 足球,sW(nW) = 芭蕾 略 IV. sW(yW) = 足球,sW(nW) = 足球 略 5创新小组6 5创新小组创新小组 5.1博弈的设定博弈的设定 AlphaBeta 创新小组有两个成员, 学生 1 和学生 2. 任何一个学生的创新成果必须由两 个学生共享 学生可以选择努力 (E) 或偷懒 (S), 努力需要花去成本 c (0,1), 偷懒花去成本 0. 只要 有一人努力, 就一定可以取得创新成果; 仅当双方都不努力, 创新成果才不会出现 学生在创新成果中获得的收益是私人信息. 每个学生的类型 i在 0,1 上均匀分布, 且 相互独立, 其收益为 2 i 博弈的时间顺序如下: 两个学生同时观察到自己的类型, 然后同时选择努力或偷懒 5.2博弈的求解博弈的求解 学生 i 的策略函数为 si: 0,1 E,S 猜测均衡策略函数应为分段型 si(i) = Ei i Si , 我们有 2 c (1 )2, 该学生的确会选择努力.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号