文档详情

混合策略课件

pu****.1
实名认证
店铺
PPTX
728.83KB
约36页
文档ID:605438045
混合策略课件_第1页
1/36

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,*,张醒洲,,,大连,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,,*,2024/10/21,1,混合策略,找到不确定情况下的最优反应,定义 在一个,n,人博弈的标准式表述中,参与人的策略,空间为,,,收益函数为,,,我们用,表示此博弈2024/10/21,2,纳什均衡,博弈的标准式和纳什均衡,2024/10/21,3,,举例,:,猜硬币,模型,两个参与人,{1,2},每个参与人的策略,空间为,{H,T},收益,零和,试着找到纳什均衡,,参与人,2,,,参与人,1,,正面,背面,正面,-1, 1,1, -1,背面,1, -1,-1, 1,两个男孩各自有一个硬币并且他们必须选择将硬币的正面朝上还是背面朝上如果两个硬币朝上的面相同(即都是正面或都是背面),则参与人,2,将赢得参与人,1,的硬币;否则,参与人,1,将赢得参与人,2,的硬币猜硬币,如果参与人的策略一致,——(,正面,正面,),或,(,反面,反,面,)—,则参与人,1,会偏向于改变策略;,但是如果两者策略不一致,—(,正面,,,反面,),或,(,反面,,,正,面,)—,则参与人,2,偏向于改变策略。

参与人,2,,,,,正面,背面,正面,-1, 1,1, -1,参与人,1,背面,1, -1,-1, 1,,,没有一组策略满足,(NE),2024/10/21,5,石头,-,剪刀,-,布博弈,此博弈也不存在纳什均衡,无论参与人,1,选择哪个纯策略,参与人都可以打败他参与人,2,,,,石头,剪刀,布,,石头,0, 0,1, 0,0, 1,参与人,1,剪刀,0, 1,0, 0,1, 0,,布,1, 0,0, 1,0, 0,2024/10/21,6,猜对方策略,猜硬币博弈一个非常突出的特点是每个参与人都试图猜中对方的策略任何这一类都没有纳什均衡,至少不存在,1.1.C,节所定义的纳什均衡,因为这一类博弈的解包含了一个参与人对其他参与人行为的不,确定现在我们介绍混合策略,2024/10/21,7,纯策略,混合策略,考虑标准式博弈,G={,S,1,,,····,,S,n,;,u,1,,,····, u,n,},此后我们定义,S,i,中的策略为参与人,,i,的纯策略,,在本节的完全信息同时行动博弈中,一个参与人的纯策,略就是他可以选择的不同行动;,,例如,在猜硬币的博弈中,,S,i,,包含两个纯策略:正面,和背面。

参与人,i,的一个混合策略是在其策略空间,S,i,中的,(一些或全部)策略的概率分布2024/10/21,8,概率和信念,随机事件,事件有明确定义,.,我们可以区分不同的事件,.,在进行观察或试验前,,,我们不能肯定的说一个具体的事件会出现,.,我们可以判断哪些事件有可能出现,,,并且能判断每一个事件出现的可能性大小,.,概率,事件的概率是对一次随机试验中该事件出现的可能性的度量,如果对可能性的度量以某种客观规律或物质属性为基础,,,我们就用,“,概率,”,一词,如果对可能性的度量以个人经验、主观判断为基础,就用,“,主观概率,”,、,“,信念,”,、,“,置信度,”,等术语,,2024/10/21,9,概率分布,样本空间:,Ω,={,ω,1,,,,ω,2,,,,…,,ω,n,,…},试验中可能出现的所有基本结果,ω,i,的集合,事件由基本结果组成,是样本空间的子集如果在试验中事件,A,中的一个结果出现了,,,就说事件,A,发生概率分布就是将总概率,P(,Ω,),=,1,分解到所有可能的样本点或事件上的一种方式.,,2024/10/21,10,概率的公理化定义,概率测度,,样本空间,Ω,上的一个概率测度是,Ω,的子集的一个函数,P(,·,),,它,满足三条公理:,公理,(1) 0,≤P(E) ≤1,,对任一事件,E,公理,(2) P(,Ω,),=,1,公理,(3),对任何一列互不相容的事件,E,1,,E,2,,….,,即,E,i,∩E,j,=,Ф,(,空集,),,i≠j,,有,,,,我们称,P(E),为事件,E,的概率。

2022/12/25,11,混合粗略:猜硬币,参与人,i,的一个混,合,合策略是,在,在其策略,空,空间,S,i,中的策略,的,的概率分,布,布,举例,:,猜硬币,S,2,包含两个,纯,纯策略即,正,正面和反,面,面,,,因此参与,人,人,2,的一个混,合,合策略为,概,概率分布,(,q,, 1,-,q,),,其中,q,为正面朝,上,上的概率,,,,,1,-,q,是背面朝,上,上的概率,,,并且,0 <,q,< 1.,,参与人,2,,,,参与人,1,,正面,,q,背面,,1,-q,正面,-1, 1,1, -1,背面,1, -1,-1, 1,混合策略,(0,1),是背面朝,上的纯策,略,略,;,类似地,,,混合,策略,(1,0),是正面朝,上,上的,纯策略2022/12/25,12,混合策略,:,举例,参与人,2,的一个混,合,合策略为,概,概率分布,(,q, r,1-q-r,),,其中,q,表示出左,的,的概,率,,r,表示出中,的,的概率,,1 -q –r,表示出右,的,的概率和,和前面一,样,样,,0

混合策略,(1/3,1/3,1/3),表示参与,人,人出左、,中,中、右的,概,概率相同,,,,而,(1/2,1/2,0),表示出左,、,、中的概,率,率相同,,但,但不可能,出,出右参与人,2,,,,左,中,右,,上,1, 0,1, 2,0, 1,参与人,1,下,0, 3,0, 1,2, 0,,图,1.1.1 at Pager 6,参与人的,一,一个纯策,略,略只,是其混合,策,策略的一,个,个特,例,例如,参,参与人,2,出左的,纯策略可,表,表示为混,合,合策,略,(1,0.0),2022/12/25,13,混合,策略,:,定义,更为一般,地,地,假定,参,参与人,i,有,K,个纯策略,:,:,S,i,={,s,i1,, …,s,iK,}.,参与人,i,的一个混,合,合策略是,一,一个概率,分,分布,(,p,i1,, …,p,iK,) ,,其中,p,iK,表示对所,有,有,k=1,,…,…,K,,,参与人,i,选择策略,s,ik,的概率,,由,由于,p,ik,是一个概,率,率,对所,有,有,k=1,,…,…,K,,有,0,≤,p,ik,≤,1,且,p,i1,+,···,+,p,iK,=,1,。

我们用,p,i,表示基于,S,i,的任意一,个,个混合策,略,略,其中,包,包含了选,择,择每一个,纯,纯策略的,概,概率,正,如,如我们用,s,i,表示,S,i,内任意一,个,个纯策略,定义,对标准式,博,博弈,,,,,假,假设,S,i,= {,s,i1,, …,s,iK,},那么,参,与,与人,i,的一个混,合,合策略为,概,概率分布,p,i,= (,p,i1,, …,p,iK,),,其中对,所有,k=1,,…,…,K,,,0,≤,p,ik,≤,1,,且,p,i1,+,···,+,p,iK,=,1,2022/12/25,14,参与人,j,的混合策略解释,当参与人,i,不确定参,与,与人,j,会如何行,动,动时,他,可,可以把参,与,与人,j,的混合策,略,略作为参,与,与人,j,行动的一,个,个解释参与人,2,,,参与人,1,,正面,,q,背面,,1,-q,正面,-1, 1,1, -1,背面,1, -1,-1, 1,例如,:,猜硬币,假设参与,人,人,1,相信参与,人,人会以,q,的概率出,正,正面,以,1 -,q,的概率出,背,背面;也,就,就是说,,1,相信,2,的混合策,略,略是,(,q,,1-,q,),。

2022/12/25,15,,猜猜硬币另一面的颜色,这里有,三,三枚硬,币,币,,,每一面,被,被贴上,红,红色或,白,白色纸,片,片,(,如下图,).,为了方,便,便从左,向,向右编,号,号,1,、,2,、,3.,,,,,,1,2,,3,,,现在从,中,中任取,一,一枚放,在,在桌面,,,,结果,你,你看到,白,白色请,请猜一,下,下,这,枚,枚硬币,的,的背面,是,是什么,颜,颜色,?,统计频,数,数,红色,人,人,白色,人,人,共,人,人,计算频,率,率,红色,%,白色,%,2022/12/25,16,,猜猜哪个硬币被标记了,1/2,1/3,1/3,1/2,1/2,1/2,1/2,1/2,1/3,,,,,,,N,C2,C1,C3,,这里有,三,三枚硬,币,币,,,每一面,被,被贴上,红,红色或,白,白色纸,片,片,(,如下图,).,为了方,便,便从左,向,向右编,号,号,1,、,2,、,3,号硬币,,,,,,1,2,,3,,,现在从,中,中任取,一,一枚放,在,在桌面,,,,结果,你,你看到,白,白色请,请猜一,下,下,这,是,是几号,硬,硬币,?,,2022/12/25,17,猜猜哪个硬币被标记了,提示,:,根据条,件,件“看,到,到一面,白,白色”,,,只考虑,前,前两枚,硬,硬币,(,拿走两,面,面全是,红,红色的,第,第三枚,硬,硬币,).,区分第,一,一枚硬,币,币的两,个,个面,,尽,尽管它,们,们同色,同,同质。

你,你可以,设,设想给,第,第一枚,的,的两面,分,分别标,记,记,11,与,12,现在知,道,道,从,前,前两枚,硬,硬币中,任,任取一,个,个并让,白,白色朝,上,上,共,三,三种可,能,能由于硬,币,币质地,均,均匀,,随,随机抽,取,取,随,机,机搁置,,,,我们,认,认为这,三,三种情,形,形等可,能,能三枚硬,币,币,任,取,取一枚,平,平放在,桌,桌面上,,,,共有,3,×2=6,种等可,能,能的情,形,形满,足,足条件,“,白色在,上,上,”,的只有,这,这三种,1-2,1-1,2,,11,,12,,11,,12,上,下,2022/12/25,18,期望收益,Student =,►,白,红,2/3,1,-1,1/3,-1,1,,,试验有,两,两种可,能,能结果,,,,你的,信,信念是,硬,硬币以,2:1,的比例,出,出现白,色,色与红,色,色,.,猜对得,1,分,,,猜错扣,1,分,.,请估计,你,你的策,略,略“猜,白,白色出,现,现”与,“,“猜红,色,色出现,”,”的预,期,期支付,各,各为多,少,少?,预期支,付,付就是,概,概率加,权,权支付,—,将你在,所,所有可,能,能结果,上,上的支,付,付按这,些,些结果,出,出现的,概,概率加,权,权求和,2022/12/25,19,对参与人,j,的混合策略,参与人,i,的最优纯策略,给定以,下,下信念,如果参,与,与人,1,的反应,是,是出正,面,面,,则他的,期,期望收,益,益是,q,·,(-1)+ (1-,q,),·,1 = 1-,2q,如果参与人,1,的反应是出,正,正面,,则他的期望,收,收益是,q,·,1 + (1 -,q,),·,(,-,1) =,2q,-,1,.,,参与人,2,,,参与人,1,,正面,,q,背面,1-q,正面,-1, 1,1, -1,背面,1, -1,-1, 1,因为,当且仅当,q,< ½,时,,1-2q,>2q,-1,成立,,,则,如果,q,< 1/2,,参与人,1,的最优纯策,略,略为出正面,;,;,如果,q >,1/2,,参与人,1,的最优纯策,略,略为出背面,;,;,如果,q,= ½,,参与人,1,出正面与出,背,背面没有差,别,别。

2022/12/25,20,严格劣于一个混合策略的策略,针对参与人,1,对参与人,2,的可能行动,作,作出的任何,推,推断,(q, 1,-,q),,,1,的,最优反应是,要,要么是,T (,当,q > 1/2),,,要么是,M (,当,q < 1/2),,但不会是,B,,虽然,T,或,M,并不严格优,于,于,B,关键:存在,一,一个混合策,略,略严格优于,B,如果参与人,1,以,1/2,的概率出,T,,以,1/2,的概率出,M,,则,1,的期望收益,是,是,3/2,–,无论参与人,2,采取哪种策,略,略(纯的,或混合的),,,,参与人,1,的收益,3/2,都,大于其出,B,时所获得的,收,收益参与人,2,,,L,q,R,1-q,,T,3, —,0, —,,参与人,1,M,0, —,3, —,,B,1, —,1, —,图,1.3.1,这个例子说,明,明了在“寻,找,找另外一个,严,严格优于,s,i,的策略”时,,,,混合策略,所,所起的作,用2022/12/25,21,给定的纯策略可以是混合策略的最优反应,图,1.3.2,表明,一个,给,给定的纯策,略,略可以是一,个,个混合策略,的,的最优反应,,,,即使这一,纯,纯策略并不,是,是其他纯策,略,略的最优反,应,应。

在这个博弈,中,中,,B,不是参与人,1,对参与人,2,的纯策略,L,或,R,的,最优反应;,但,B,是参与人,1,对参与人,2,的,混合策略,(q, 1- q),的最优反,应,假定,1/3

因,此,此,参与人,2,选择混,合策略,(,q,, 1-,q,),时, 参,与,与人,1,的最优反,应,应是,(r,1 -,r),2022/12/25,23,对参与人,j,的混合策略,参与人,i,的,最优,混合策略,参与人,2: (,q,,1-,q,),参与人,1: (r,1-,r,),求解,r*,(,q,),当参与人,2,的混合策,略,略为,(,q,,1 -,q,),时,参与,人,人选择,(r,1 -,r,),的期望收,益,益如下:,,参与人,2,,,参与人,1,,正面,,q,背面,1-q,正面,,,r,-1, 1,1, -1,背面,,1,-r,1, -1,-1, 1,rq,• (-1) +r(1-,q,)• 1+ (1-,r,),q,• 1+ (1- r)(l-,q,) •(-1),=,(,2q-1,),+ r,(,2-4q,),,,(1.3.1),r*,(,q,) =arg max 2(q-1/2)+4r(1/2-q),2022/12/25,24,对参与人,j,的混合策略,参与人,i,的,最优,混合策略,参与人,2: (,q,,1-,q,)q,∈[0,1],参与人,1: (r,1-,r,),r*,(,q,) =argmax2(q-1/2)+4r(1/2-q),,图,1.3.3,当,q=1/2,时,参与人,1,的期望收,益,益,2(q-1/2)+4r(1/2-q),与,r,无关,且,参,参与人,1,的所有混,合,合策略,(r,1-r),都是无差,异,异的。

也,就,就是说,,当,当,q=1/2,时,对于,0,到,1,之间的任,何,何,r,,,(r,1-r),都是,(q,1-q),的最优反,应,应2022/12/25,25,最优反应,对应,古诺模型,的,的最优反,应,应函数,这里,因,为,为存在一,个,个,q,,使得,r*,(,q,),有不止一,个,个解,我,们,们称,r*,(,q,),为参与人,1,的最优反,应,应对应最优反应,对,对应,和我们之,前,前讨论的,相,相关概念,相,相比,(,我们只考,虑,虑了参与,人,人,1,的纯策略,),,这是一,个,个更强的,概,概念2022/12/25,26,对参与人,1,的混合策略,参与人,2,的最优反应,完全信息,静,静态博弈,中,中,参与,人,人同时行,动,动,,并且参与,人,人,2,和参与人,1,会以相同,的,的方式考,虑此博弈,对参与人,1,的策略,(r,1-r),,参与人,2,的最优,反应是,(q*(r),1-q*(r)),,其中,q*(r)=arg max (1-2r)+q(4r-2),2022/12/25,27,最优反应对应的解释,最优反应,r*,(,q,),和,q*,(,r,),的交点确,定,定了猜硬,币,币博弈的,纳,纳什均衡,:,:,如果参与,人,人,i,的策略是,(1/2,1/2),,则参与,人,人,j,的最,优反应是,(1/2,1/2),,满足纳,什,什均衡的,要,要求。

图,1.3.6,2022/12/25,28,混合策略纳什均衡的说明,一个混合,策,策略纳什,均,均衡不依,赖,赖任何参,与,与人扔硬,币,币、掷骰,子,子或其他,随,随机,选择策略的,行,行为更确,切,切地,我们,可,可以把参与,人,人,j,的混合策略,解,解释为,参与人,i,对参与人,j,选择哪一个,纯,纯策略的不,确,确定性每一个参与,人,人确定性的,选,选择一个纯,策,策略,.,但对方不具,备,备关于这一,策,策略的充分,信,信息,,,这时就要作,相,相应的预测,,,将对方的行,为,为理解为一,个,个混合策略,,,并作出相应,的,的对策,(chose a best response toa mixed strategy),每一个参与,人,人选择一个,纯,纯战略,,,正是利用了,对,对手关于自,已,已行为的不,确,确定性2022/12/25,29,混合策略纳什均衡,,:,两人博弈,定义 在,两,两个参与人,标,标准式博弈,G={,S,1,,S,2,;,u,1,,u,2,},中,混合策,略,略,(,p,*,1,,,p,*,2,),是纳什均衡,的,的充要条件,为,为:每一参,与,与人的混合,策,策略是另一,个,个参与人混,合策略的最,优,优反应,即,其中,2022/12/25,30,纳什均衡,:,性别战博弈,此博弈存在,两,两个纯策略,纳,纳什均衡,(Opera, Opera),和,(Fight, Fight),都是纳什均,衡,衡,2022/12/25,31,纳什均衡,:,性别战博弈,找到性别战,博,博弈所有纳,什,什均衡,混合策略组,: (r,1-r)=(2/3,1/3),和,(q, 1-q)=(1/3,2/3),是一个纳什,均,均衡,Pat,,,,Chris,,Opera,,q,Fight,1-q,Opera,,,r,2, 1,0, 0,Fight,1,-r,0, 0,1, 2,2022/12/25,32,纳什均衡的存在性,JohnNash,,“,“,Equilibrium points in n-persongames,,” Proceedingsof the NationalAcademy of Sciences, 36(1950), 48-49.,,在一个,n,人标准博弈,中,中,如果参,与,与人的数量,以,以及每个参,与,与人的策略,空,空间都是有,限,限的,那么,此,此博弈存在,至,至少一个纳,什,什均衡,可,能,能包含混合,策,策略。

2022/12/25,33,Brower,的不动点定理,纳什定理的,证,证明需用到,不,不动点定理,作为不动,点,点定理的一,个,个简单例子,,,,假定,f(x),是一个定义,域,域和值域都,在,在,[0,1],之间的连续,函,函数,则,Brower,的不动点定,理,理保证了存,在,在至少一个,固,固定的点,—,即在,[0,,,1],中存在至少,一,一个值,x,*,,,使得,f,*,(x)=x,*,图,1.3.13,给出了一个,例,例子2022/12/25,34,作业,1.9, 1.12,,1.9,什么是标准,式,式博弈的混,合,合战略,?,什么是标准,式,式博弈的混,合,合战略纳什,均,均衡,?,2022/12/25,35,Assignment (1.13,选作,),9,、静,夜,夜四,无,无邻,,,,荒,居,居旧,业,业贫,12,月,月-2212,月,月-22,Sunday,December25,2022,10,、雨,中,中黄,叶,叶树,,,,灯,下,下白,头,头人,04:47:0704:47:0704:47,12/25/20224:47:07AM,11,、以,我,我独,沈,沈久,,,,愧,君,君相,见,见频,。

12,月,月-2204:47:0704:47,Dec-2225-Dec-22,12,、故,人,人江,海,海别,,,,几,度,度隔,山,山川,04:47:0704:47:0704:47,Sunday,December25,2022,13,、乍见翻,疑,疑梦,相,悲,悲各问年,12月-2212月-2204:47:0704:47:07,December25,2022,14,、他乡生,白,白发,旧,国,国见青山,25 十,二,二月 20224:47:07,上,上午04:47:0712月-22,15,、比不,了,了得就,不,不比,,得,得不到,的,的就不,要,要十二月224:47 上,午,午12月-2204:47,December25,2022,16,、行动,出,出成果,,,,工作,出,出财富,2022/12/25 4:47:0804:47:08,25December2022,17,、做前,能,够,够环视四周,;,;做时,你,只,只能或者最,好,好沿着以脚,为,为起点的射,线,线向前4:47:08 上午4:47,上,上午04:47:0812月-22,9,、没有失败,,,,只有暂时,停,停止成功!,。

12月-2212月-22,Sunday, December 25,2022,10,、很,多,多事,情,情努,力,力了,未,未必,有,有结,果,果,,但,但是,不,不努,力,力却,什,什么,改,改变,也,也没,有,有04:47:0804:47:0804:47,12/25/20224:47:08AM,11,、成,功,功就,是,是日,复,复一,日,日那,一,一点,点,点小,小,小努,力,力的,积,积累,12,月,月-2204:47:0804:47,Dec-2225-Dec-22,12,、世,间,间成,事,事,,不,不求,其,其绝,对,对圆,满,满,,留,留一,份,份不,足,足,,可,可得,无,无限,完,完美,04:47:0804:47:0804:47,Sunday,December25,2022,13,、,不,不,知,知,香,香,积,积,寺,寺,,,,,数,数,里,里,入,入,云,云,峰,峰,12,月,月-2212,月,月-2204:47:0804:47:08,December25,2022,14,、,意,意,志,志,坚,坚,强,强,的,的,人,人,能,能,把,把,世,世,界,界,放,放,在,在,手,手,中,中,像,像,泥,泥,块,块,一,一,样,样,任,任,意,意,揉,揉,捏,捏,。

25,十,十,二,二,月,月20224:47:08,上,上,午,午04:47:0812,月,月-22,15,、楚塞,三,三湘接,,,,荆门,九,九派通,十二月224:47 上,午,午12月-2204:47,December25,2022,16,、少年,十,十五二,十,十时,,步,步行夺,得,得胡马,骑,骑2022/12/25 4:47:0804:47:08,25December2022,17,、空山,新,新雨后,,,,天气,晚,晚来秋,4:47:08 上,午,午4:47 上,午,午04:47:0812月-22,9,、杨,柳,柳散,和,和风,,,,青,山,山澹,吾,吾虑,12,月,月-2212,月,月-22,Sunday,December25,2022,10,、阅,读,读一,切,切好,书,书如,同,同和,过,过去,最,最杰,出,出的,人,人谈,话,话04:47:0804:47:0804:47,12/25/20224:47:08AM,11,、越,是,是没,有,有本,领,领的,就,就越,加,加自,命,命不,凡,凡12,月,月-2204:47:0804:47,Dec-2225-Dec-22,12,、越,是,是无,能,能的,人,人,,越,越喜,欢,欢挑,剔,剔别,人,人的,错,错儿,。

04:47:0804:47:0804:47,Sunday,December25,2022,13,、知人者,智,智,自知,者,者明胜,人,人者有力,,,,自胜者,强,强12月-2212月-2204:47:0804:47:08,December25,2022,14,、意志坚,强,强的人能,把,把世界放,在,在手中像,泥,泥块一样,任,任意揉捏,25 十,二,二月 20224:47:08,上,上午04:47:0812月-22,15,、最具挑战,性,性的挑战莫,过,过于提升自,我,我十二月 224:47,上,上午12月-2204:47,December 25, 2022,16,、业余生活,要,要有意义,,不,不要越轨2022/12/254:47:0804:47:08,25 December 2022,17,、一个人即,使,使已登上顶,峰,峰,也仍要,自,自强不息4:47:08 上午4:47,上,上午04:47:0812月-22,,MOMODA POWERPOINT,Lorem ipsum dolor,sit,,eleifend nulla ac, fringilla purus. Nulla iaculis tempor felis,amet, consectetur adipiscing elit. Fusce id urna blanditut,cursus.,感谢您的下,载,载观看,专家告诉,。

下载提示
相似文档
正为您匹配相似的精品文档