第7章不完全信息与声誉有限次博弈•第6章证明,只要未来足够重要,合作行为可以是无限次重复博弈的精炼纳什均衡•但是,现实中许多博弈是有限次的,不是无限次的•如果博弈重复的次数是有限的,无论重复多少次,合作都不会出现“连锁店悖论”(chain-store paradox)•Selten (1978);进入者进入者在位者在位者进入不进入默许斗争(40,50)(-10,0)(0,100)逆向归纳•假定在位者有20个市场直观告诉我们,如果进入者在第一个市场进入,在位者应该选择斗争,因为尽管从一个市场看,斗争是不值得的,但这样做可以遏止进入者在其他市场上的进入•唯一的精炼纳什均衡是:进入者总是进入;在位者总是默许Axelrod 实验•Axelrod(1981)实验表明:即使在有限次博弈中,合作行为也频繁出现问题在哪里?•一个可能的原因在于:我们前面假定不仅参与人的理性是共同知识,而且每个参与人可以选择的战略和效用函数都是共同知识但现实不是这样•可能性:逆向归纳方法的问题(理性共识);信息不完全;•正如我们前面讨论的谈判情况:如果信息是完全的,谈判一开始就达成协议,但现实中的谈判不是这样,原因在于信息不对称。
不完全信息•KMRW模型(1982);•如果参与人对其他参与人的效用函数和战略空间的信息不完全,即使博弈重复的次数是有限的,人们也有积极性建立一个合作的声誉(reputation),合作会出现单方不完全信息•假定有两个参与人,A和B,进行囚徒困境博弈•参与人A有两中可能的类型:“非理性”型:只有一种战略,tit-for-tat (TFT),或者grim strategy, 概率为p; “理性”型:可以选择任何战略,概率为(1-p);•参与人B有一种类型:理性型对“非理性”的解释•特殊的成本函数或效用函数;•讲义气、重情谊的人;内在化了 reciprocity 社会规范的人;•认知问题;囚徒困境博弈合作背叛合作背叛3,3-1,44,-10,0AB博弈重复两次t=1t=2A非理性(p)理性型(1-p)B (理性型)合作X背叛背叛X背叛第2阶段•参与人A:如果是理性的,选择“背叛”;如果是非理性的,选择B在第1阶段的行动(X);•参与人B:选择“背叛”第1阶段•参与人A:如果是非理性的,选择“合作”;如果是理性的,选择“背叛”;•参与人B:如果选择合作,面临被背叛的风险,但如果A是非理性的,可以换来第2阶段的合作。
B在第2阶段的选择•选择合作,期望效用是:•3p+(-1)(1-p)+4p+0(1-p)=8p-1•如果选择背叛,期望效用函数是:•4p+0(1-p)+0=4p•最优选择是合作,如果:p>=0.25;•结论:如果B认为A非理性的概率不小于0.25, B在第1阶段会选择合作,即使博弈只重复两次博弈重复3次t=1t=2A非理性(p)理性型(1-p)B (理性型)合作X?背叛XXt=3X背叛背叛参与人A(理性)的选择•如果A是理性的,在第2阶段和第3阶段一定会选择背叛,但第1阶段也可能选择合作,因为建立一个合作的形象可以换取B在第2阶段的合作;•如果p>=0.25, 并且A认为B在第1阶段会合作,给定A在第2阶段合作的话B在在第2阶段也会合作,那么A选择合作得到:3+4+0=5;•如果A选择背叛,得到:4+0+0=4;•所以合作是最优的参与人B的选择•B有四种战略:–(合作,合作,背叛);–(合作,背叛,背叛);–(背叛,背叛,背叛);–(背叛,合作,背叛)(合作,合作,背叛)t=1t=2A非理性(p)理性型(1-p)B (理性型)合作X=合作合作背叛X=合作X=合作t=3X=合作背叛背叛3+ 3p+(-1)(1-p)+ 4p+0=8p+2预期效用===(合作,背叛,背叛)t=1t=2A非理性(p)理性型(1-p)B (理性型)合作X=合作合作背叛X=合作X=背叛t=3X=背叛背叛背叛3+ 4p+0(1-p)+ 0= 4p+3预期效用===(背叛,背叛,背叛)t=1t=2A非理性(p)理性型(1-p)B (理性型)合作X=背叛合作背叛X=背叛X=背叛t=3X=背叛背叛背叛4+ 0 +0= 4预期效用===(背叛,合作,背叛)t=1t=2A非理性(p)理性型(1-p)B (理性型)合作X=背叛合作背叛X=背叛X=合作t=3X=合作背叛背叛4+ (-1) +4p+0(1-p)= 4p+3预期效用===P=18p+2 (合作,合作,背叛)0.24p+3 (合作,合作,背叛) (背叛,合作,背叛)=4(背叛,背叛,背叛)结论•只要p>=0.25, 下表所列战略组合是一个精炼纳什均衡:–理性型A在第1阶段选择合作,然后在第2和第3阶段选择背叛;–B在第1和第2阶段选择合作,然后在第3阶段背叛。
精炼纳什均衡t=1t=2A非理性(p)理性型(1-p)B (理性型)合作X=合作合作背叛X=合作X=合作t=3X=合作背叛背叛一般结论•可以证明:如果博弈重复T次,只要p>=0.25, 对于所有的T>=3, 下列战略组合构成一个精炼纳什均衡:理性型A在t=1….T-2阶段选择合作,在T-1和T阶段选择背叛;B在t=1….T-1阶段选择合作,在最后阶段T选择背叛•背叛只在最后两阶段出现双方不完全信息•在单方不完全信息下,只要p<0.25,不论博弈重复多少次,合作都不会出现•但如果双方信息不完全,即使小小的不确定性也会导致合作行为,只要博弈重复的次数足够多(但不需要是无限次);•原因在于,如果博弈重复的次数足够长,没有任何一方愿意一开始就把自己的名声搞坏Grim Strategies•假定非理性型选择grim strategy;•如果A在一开始就选择背叛,暴露了自己是非合作型的,从第2期开始的唯一的均衡是每个人都背叛;所以A的最大预期收益为:•4+0+0+…=4;•假定选择如下战略:开始选择合作,直到对方选择不合作,之后永远背叛最小预期收益是:•p(3T)+(1-p)(-1+0+0+)=p(3T)-(1-p)合作条件•(p)(3T)-(1-p)>=4;•T*>=(5-p)/p;•所以,无论p多小,只要博弈重复的次数足够大,一开始就选择背叛不是最优的。
KMRW定理•在不完全信息的情况下,只要博弈重复的次数足够长,参与人就有积极性在博弈的早期建立一个“合作”的声誉;只是在博弈的后期,才会选择背叛;并且,非合作阶段的数量只与p有关,而与博弈的次数T无关•看似不理性的行为其实是理性的;“大智若愚”•应该树立什么样的形象?•合作与非合作;•强硬与懦弱;•对“不理智”(情绪化)行为的新解释;解开“连锁店悖论”•Selten (1978);进入者进入者在位者在位者进入不进入默许斗争(40,50)(-10,0)(0,100)声誉的积累举例•为什么越有名气的人越在乎自己的声誉?•(终身教授的激励问题);•画家烦恼;•政府的声誉;•(中国与英国有关香港问题的争论);。