第2章非合作博弈的基本思想博弈分合作的博弈与非合作的博弈本课程所用的博弈理论限于非合作的博弈博弈有两种表达方式一种是标准式博弈,另一种是扩展式博弈信息问题:信息对于博弈是重要的有完全信息的博弈与不完全信息的博弈2.1 标准式博弈博弈的定义定义:标准形式的博弈描述如下:1、 N个参与人(player),表示为集合I={1,2,…,N}2、 每个参与人i,有一行动集(Action set),是参与人i的所有行动的可能集合令表示i所采取的特定的行动因此参与人i的行动集,其中,k是i所有可能行动的数目令为一组由每一位参与人i所选择的行动我们称之为该博弈的一个结果(Outcome)3、每一位参与人i有一个支付函数对于该博弈的每一结果,该函数取一实数值简单表示为:标准型博弈定义可用下面的例子说明 21 P W P W 2, 2 -2,3 3, -2 -1,-1第一,N=2, 第二,,该博弈有四个结果(P,P),(P,W),(W,P),(W,W)第三,支付矩阵中带数字的四个方格表示四种结果下每个参与人的支付若结果为,则均衡概念(equilibrium concepts)有的博弈存在唯一均衡解。
有的博弈存在多个均衡解有的博弈不存在均衡解为了简化讨论我们将博弈的一种结果表示为其中1占优行动均衡(equilibrium in dominant actions)1)占优行动(策略)占优行动(策略)的定义:如果无论其他所有参与人采取什么行动(策略),参与人总是由于采取行动(策略)而获得最大支付,则行动(策略)是参与人的占优行动(占优策略)可以将占优行动(策略)进一步划分为严格占优行动(策略)与弱占优行动(策略)2)严格占优行动(策略)与弱占优行动(策略)严格占优行动定义如下:对于所有的(),且(),如果()成立,那么,参与人的行动(策略)是严格占优行动上表中,是1的严格占优行动证明如下同样,是2的严格占优行动弱占优行动定义如下:对于所有的(),如果(),并且至少一个严格的不等式成立,那么,参与人的行动(策略)弱优于他的其他行动(策略)策略)是的弱占优行动例如下表2—3中,是参与人1的弱占优策略,是参与人2的弱占优策略表2—3 弱占优策略 21 2, 21,1 1, 1 1,1(3)严格被占优行动(策略)与弱被占优行动(策略)对于所有的(),且(),如果()成立,那么,参与人的行动(策略)是严格被占优行动(策略)。
在表2—2中,和平对于两个国家而言都是严格被占优行动如果(),其中至少一个严格不等式成立,那么,参与人的行动(策略)是弱被占优行动(策略)通过删除被占优策略或者删除弱被占优策略,而保持占优策略或者弱占优策略,可以达到占优策略均衡4)占优行动均衡定义:如果是参与人i的占优行动,则结果是一个占优行动均衡(其中,对于任意的,)显然是一个占优行动均衡许多博弈不存在占优策略均衡例如下列的性别战博弈 不存在占优行动均衡 张先生 李小姐 看球赛 看电影 看球赛 看电影 1, 2 0,0 0, 0 3,12、纳什均衡(Nash Equilibrium)(NE)定义:结果(其中,对于每一个,)称为纳什均衡,如果假定在所有其他人不背离其纳什结果的策略条件下,没有任何人可以通过背离纳什结果而获益正规表述如下:对于每个,,对于每个用“最优反应函数”解NE 福利比较定义:(1)如果(a)对于任意参与人(b)至少存在一个参与人j,,那么,结果帕累托优于结果,(2)如果没有任何一个结果帕累托优于结果,那么结果被称为帕累托有效3)如果对于每个参与人i,; 而对于另外的参与人j,,那么, 结果and被称为帕累托不可比。
2.2 扩展式博弈扩展式博弈可以描述不同时间决策的博弈考虑下列博弈 1 F D B NB B NB定义:扩展式博弈定义如下:(1)该种博弈包含一个初始结(starting node),其他决策结(decision nodes),终点结,以及连接每个决策结与直接后续结的枝(branches)2)N个参与人,表示为3)在每个决策结,位于该结点的参与人选择决策行动4)对于每个参与人,在其必须要作决策的每个结上,有一组特定的行动集5)每个终点结,每个参与人有一个特定的支付扩展式博弈中的策略与结果策略的定义参与人的一个策略(表示为)是的一组完整的行动计划,其中,一个行动对应着该参与人须要选择其行动的每个决策结重要的是要明白:一个策略不是某参与人在位于某单个特定结上的所为,而是当该参与人必须选择其行动时,该参与人在每个结点上的所为2..2.2 扩展式博弈的标准式表示(EFG 的NFG表示) HijackerPilot (B,B) (B,NB) (NB,B) (NB,NB) D F-1 -12 0-1 -12 0-1 -1-1 -11 11 1子博弈和子博弈完美纳什均衡(SPE)定义:子博弈是产生于原博弈的一个决策结点,以及在该结之后并与该结紧密相连的其他决策结和终点结。
若某个子博弈不同于原博弈,则称之为严格子博弈(proper subgame)在飞行员与劫机者博弈中,有三个子博弈一个是原博弈自身另外两个是严格子博弈 B NB B NB定义(SPE):若参与人的策略在每个子博弈都构成一个纳什均衡,则称该纳什均衡为子博弈完美均衡(SPE)或者:若某一结果导致原博弈下每个子博弈的一个纳什均衡,则称这一结果为子博弈完美均衡(SPE)上述定义表明,SPE是这样一组策略(每个参与人一个策略),该组策略由在每一子博弈都构成一个纳什均衡的参与人行动所组成特别的,SPE必须是原博弈的一个NE因为博弈是其自身的一个子博弈寻找SPE的方法使用逆向归纳法(backward induction)也可以将EFG表示成NFG形式,找出所有的NE,在从中选择SPE2.3 重复博弈(Repeated Game)重复博弈是一次博弈(one shot game)的多次重复重复博弈是某种特定“种类”的扩展形式的博弈该博弈中,每一期每个参与人同时行动每个参与人都观察到了前期所有参与人的行动。
在和平与战争一例中,假定博弈重复T次,假定T为有限的正整数假定每个参与人的时间的贴现因子(time discount parameter)为,令表示参与人在期所采取的行动,令为期对的支付其中,由前面的表给出因此,当博弈重复了T次以后,的支付为:或 2.3.1.有限期重复的博弈(finitely repeated game)假定和平与战争的博弈重复有限次在一次性博弈中,(war war)是唯一纳什均衡对于任何有限的、整数期的博弈而言,重复T期的和平-战争博弈具有唯一的子博弈完美均衡,即每一国家每一期都是选择战争war,war)是子博弈完美均衡证:使用逆向归纳法,假定已经进行了T-1期的博弈,并打算进行T期的博弈由于T期是最后一期,因此(W,W)是一个NE再考虑T-1期的博弈,由于考虑T期战争是最优行动,本期战争也是优势策略…直至到第一期无限期重复博弈(infinitely repeated game)假定无限期重复的博弈 与有限期重复的博弈的区别在于,前者不可以利用逆向归纳法的方法,因为不存在可以开始逆向归纳法过程的最后时期触发策略(Trigger strategy):在触发策略中,只要所有的参与人在期是合作的,那么,参与人在t期就采取合作策略。
但是,如果任一参与人在是不合作的,那么,参与人从期开始并且将永远采取不合作策略定义(触发策略):参与人被称为采取触发策略,如果对任一期2.4 混合行动博弈(Games with Mixed Actions)混合行动的博弈是这样一种博弈,参与人在其可能的行动集中随机地选取行动 Y X正面(t1) 反面(t2) 正面(s1) 反面(s2) -1, 1 1, -1 1, -1 -1, 1我们知道上述猜硬币博弈不存在纯策略的纳什均衡是否存在混合策略的纳什均衡?假定有X、Y两个的参与人每一个参与人有两种策略可供选择X可供选择的行动集是Y可供选择的行动集是定义:1、参与人X的混合行动是在选择行动与选择行动之间的一种概率分布正规地讲,参与人X的混合行动是一种概率,(),参与人采取行动的概率是,采取行动的概率是参与人Y的混合行动是一种概率,(),参与人采取行动的概率是,采取行动的概率是2、混合行动博弈的行动组合(action profile)是一个序列(,),即由每个参与人所选择的一组混合行动3、混合行动博弈的结果是一组由每个参与人所采取的行动结果组成的序列上述定义中引进了新的概念“行动组合”(action profile),用此取代了NFG中的结果。
之所以如此,是因为在混合行动的博弈中,参与人选择的仅仅是采取其策略的概率因此结果本身也取决于所选策略的概率在纯行动的博弈中,行动组合一词与结果一词是指同样的事,因为不存在不确定性但在混合行动的博弈中,行动组合一词用于描述一组由参与人选择的行动的概率分布而结果一词是特指在概率分布确定性后,由参与人采取的一组行动支付:混合行动博弈中参与人的支付函数是该博弈在纯策略下参与人支付的期望值正规表示如下:对于任意给定的行动组合(,),参与人()的期望支付由下式给出 纳什均衡:一行动组合(,)(其中)称为混合行动中的一个纳什均衡,如果给定在其他参与人不背离其混合行动情况下,没有任何参与人会通过背离自己的混合行动而获益正规表示如下: 对于任意的 对于任意的求解下列博弈混合行动的均衡 Y X正面(t1) 反面(t2) 正面(s1) 反面(s2) -1, 1 1, -1 1, -1 -1, 1最优反应函数2.5不完美信息博弈信息集(information set)定义:某参与人的一个信息集是该参与人必须采取行动的决策结的集成体(collection)当一个参与人到达一个信息集时,该参与人知道自己已经到达某一特定的信息集,但如果该信息集包含一个以上的结,该参与人不知道自己到达了该信息集的哪一个结。
不完美信息博弈定义:在扩展式博弈中,若其中一个信息集包括两个或两个以上的结(node), 则称之为不完美信息博弈(Game with imperfect information)若每个信息集只包括单一的结,则称。