博弈论博弈论(GameTheory),亦名“对策论”、“玩耍理论”,属应用数学的一个分支,博弈论已经成为经济学的标准分析工具之一目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他许多学科都有广泛的应用博弈论主要争论公式化了的激励结构间的相互作用是争论具有斗争或竞争性质现象的数学理论和方法也是运筹学的一个重要学科博弈论考虑玩耍中的个体的猜想行为和实际行为,并争论它们的优化策略生物学家使用博弈理论来理解和猜想进化论的某些结果博弈论是指某个个人或是组织,面对确定的环境条件,在确定的规章约束下,依靠所把握的信息,从各自选择的行为或是策略进行选择并加以实施,并从各自取得相应结果或收益的过程,在经济学上博奕论是个特殊重要的理论概念什么是博弈论?古语有云,世事如棋生活中每个人如同棋手,其每一个行为如同在一张看不见的棋盘上布一个子,精明慎重的棋手们相互揣摩、相互牵制,人人争赢,下出诸多精彩纷呈、变化多端的棋局博弈论是研究棋手们“出棋”招数中理性化、规律化的部分,并将其系统化为一门科学换句话说,就是争论个体如何在错综简洁的相互影响中得出最合理的策略现在,我们就一些例子来争论博弈论相关内容。
一、从“囚徒逆境”开头在博弈论中,含有占优战略均衡的一个著名例子是由塔克给出的“囚徒逆境”(prisoners'dilemma)博弈模型该模型用一种特殊的方式为我们叙述了一个警察与小偷的故事假设有两个小偷A和B联合犯事、私入民宅被警察抓住警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:假如一个犯罪嫌疑人坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪假如另一个犯罪嫌疑人也作了坦白,则两人各被判刑8年;假如另一个犯罪嫌人没有坦白而是抵赖,则以阻碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立刻释放假如两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年下表给出了这个博弈的支付矩阵B坦白B抵赖A坦白-8,-80,—10A抵赖—10,0—1,—1表囚徒逆境博弈[Prisoner'sdilemma]我们来看看这个博弈可猜想的均衡是什么对A来说,尽管他不知道B作何选择,但他知道无论B选择什么,他选择“坦白”总是最优的明显,依据对称性,B也会选择“坦白”,结果是两人都被判刑8年但是,假如他们都选择“抵赖”,每人只被判刑1年。
在表2.2中的四种行动选择组合中,(抵赖、抵赖)是帕累托最优的,由于偏离这个行动选择组合的任何其他行动选择组合都至少会使一个人的境况变差不难看出,“坦白”是任一犯罪嫌疑人的占优战略,而(坦白,坦白)是一个占优战略均衡要了解纳什的贡献,首先要知道什么是非合作博弈问题现在几乎全部的博弈论教科书上都会讲“囚犯的两难境况”的例子,每本书上的例子都大同小异话说有一天,一位富翁在家中被杀,财物被盗警方在此案的侦破过程中,抓到两个犯罪嫌疑人,斯卡尔菲丝和那库尔斯,并从他们的住处搜出被害人家中丢失的财物但是,他们矢口否认曾杀过人,辩称是先发觉富翁被杀,然后只是顺手牵羊偷了点儿东西于是警方将两人隔离,分别关在不同的房间进行审讯由地方检察官分别和每个人单独谈话检察官说,“由于你们的偷盗罪已有确凿的证据,所以可以判你们一年刑期但是,我可以和你做个交易假如你单独坦白杀人的罪行,我只判你三个月的监禁,但你的同伙要被判十年刑假如你拒不坦白,而被同伙检举,那么你就将被判十年刑,他只判三个月的监禁但是,假如你们两人都坦白交代,那么,你们都要被判5年刑斯卡尔菲丝和那库尔斯该怎么办呢?他们面临着两难的选择——坦白或抵赖明显最好的策略是双方都抵赖,结果是大家都只被判一年。
但是由于两人处于隔离的状况下无法串供所以,依据亚当•斯密的理论,每一个人都是从利己的目的动身,他们选择坦白交代是最佳策略由于坦白交代可以期望得到很短的监禁———3个月,但前提是同伙抵赖,明显要比自己抵赖要坐10年牢好这种策略是损人利己的策略不仅如此,坦白还有更多的好处假如对方坦白了而自己抵赖了,那自己就得坐10年牢太不划算了!因此,在这种状况下还是应选择坦白交代,即使两人同时坦白,至多也只判5年,总比被判10年好吧所以,两人合理的选择是坦白,原本对双方都有利的策略(抵赖)和结局(被判1年刑)就不会消逝这样两人都选择坦白的策略以及因此被判5年的结局被称为“纳什均衡”,也叫非合作均衡由于,每一方在选择策略时都没有“共谋”(串供),他们只是选择对自己最有利的策略,而不考虑社会福利或任何其他对手的利益也就是说,这种策略组合由全部局中人(也称当事人、参与者)的最佳策略组合构成没有人会主动转变自己的策略以便使自己获得更大利益囚徒的两难选择”有着广泛而深刻的意义个人理性与集体理性的冲突,各人追求利己行为而导致的最终结局是一个“纳什均衡”,也是对全部人都不利的结局他们两人都是在坦白与抵赖策略上首先想到自己,这样他们必定要服长的刑期。
只有当他们都首先替对方着想时,或者相互合谋(串供)时,才可以得到最短时间的监禁的结果纳什均衡”首先对亚当•斯密的“看不见的手”的原理提出挑战依据斯密的理论,在市场经济中,每一个人都从利己的目的动身,而最终全社会达到利他的效果从“纳什均衡”的普遍意义中我们可以深刻领悟司空见惯的经济、社会、政治、国防、管理和日常生活中的博弈现象我们将例举出许多类似于“囚徒的两难境况”这样的例子如价格战博弈、军奋竞赛博弈、污染博弈等等一般的博弈问题由三个要素所构成:即局中人(players)又称当事人、参与者、策略等等的集合,策略(strategies)集合以及每一对局中人所做的选择和赢得(payoffs)集合其中所谓赢得是指假如一个特定的策略关系被选择,每一局中人所得到的效用全部的博弈问题都会遇到这三个要素二、经济学中的“智猪博弈”(Pigs'payoffs)这个例子讲的是:猪圈里有两头猪,一头大猪,一头小猪猪圈的一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物假如有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物当小猪踩动踏板时,大猪会在小猪跑到食槽之前刚好吃光全部的食物;若是大猪踩动了踏板,则还有机会在小猪吃完落下的食物之前跑到食槽,争吃到另一半残羹。
那么,两只猪各会实行什么策略?答案是:小猪将选择“搭便车”策略,也就是舒舒适服地等在食槽边;而大猪则为一点残羹不知疲乏地奔忙于踏板和食槽之间缘由何在?由于,小猪踩踏板将一无所获,不踩踏板反而能吃上食物对小猪而言,无论大猪是否踩动踏板,不踩踏板总是好的选择反观大猪,已明知小猪是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧,所以只好亲力亲为了小猪躺着大猪跑”的现象是由于故事中的玩耍规章所导致的规章的核心指标是:每次落下的事物数量和踏板与投食口之间的距离假如转变一下核心指标,猪圈里还会消逝同样的“小猪躺着大猪跑”的景象吗?试试看转变方案一:减量方案投食仅原来的一半重量结果是小猪大猪都不去踩踏板了小猪去踩,大猪将会把食物吃完;大猪去踩,小猪将也会把食物吃完谁去踩踏板,就意味着为对方贡献食物,所以谁也不会有踩踏板的动力了假如目的是想让猪们去多踩踏板,这个玩耍规章的设计明显是失败的转变方案二:增量方案投食为原来的一倍重量结果是小猪、大猪都会去踩踏板谁想吃,谁就会去踩踏板反正对方不会一次把食物吃完小猪和大猪相当于生活在物质相对丰富的“共产主义”社会,所以竞争意识却不会很强对于玩耍规章的设计者来说,这个规章的成本相当高(每次供应双份的食物);而且由于竞争不猛烈,想让猪们去多踩踏板的效果并不好。
转变方案三:减量加移位方案投食仅原来的一半重量,但同时将投食口移到踏板四周结果呢,小猪和大猪都在舍命地抢着踩踏板等待者不得食,而多劳者多得每次的收获刚好消费完对于玩耍设计者,这是一个最好的方案成本不高,但收获最大原版的“智猪博弈”故事给了竞争中的弱者(小猪)以等待为最佳策略的启发但是对于社会而言,由于小猪未能参与竞争,小猪搭便车时的社会资源配置的并不是最佳状态为使资源最有效配置,规章的设计者是不愿看见有人搭便车的,政府如此,公司的老板也是如此而能否完全杜绝“搭便车”现象,就要看玩耍规章的核心指标设置是否合适了比如,公司的激励制度设计,嘉奖力度太大,又是持股,又是期权,公司职员个个都成了百万富翁,成本高不说,员工的乐观性并不愿定很高这相当于“智猪博弈”增量方案所描述的情形但是假如嘉奖力度不大,而且见者有份(不劳动的“小猪”也有),一度特殊努力的大猪也不会有动力了就象“智猪博弈”减量方案一所描述的情形最好的激励机制设计就象转变方案三减量加移位的方法,嘉奖并非人人有份,而是直接针对个人(如业务按比例提成),既节约了成本(对公司而言),又消退了“搭便车”现象,能实现有效的激励许多人并未读过“智猪博弈”的故事,但是却在自觉地使用小猪的策略。
股市上等待庄家抬轿的散户;等待产业市场中消逝具有赢利力气新产品、继而大举仿制牟取暴利的游资;公司里不制造效益但共享成果的人,等等因此,对于制订各种经济管理的玩耍规章的人,必需深谙“智猪博弈”指标转变的个中道理三、生活中的“占座大战”高校生活中,生活也是比较的丰富,其中,吃饭也是很重要的部分,大家一般都是在学校食堂吃饭,由于大家吃饭的时间比较集中,所以吃饭的时候人数特殊多,食堂座位有限,同学们也希望在食堂买完饭后不用再找座位,因此许多同学在买饭之前就用自己的私人物品占座位,为此,食堂也经常发生由于占座位而引起的纠纷在这里称为“占座大战”博弈,就这个博弈问题进行争论;现在就这个问题来进行一个博弈论的分析,两个发生纠纷的人都有两个选择,分别是U(冲上去进行理论,争取座位),D(选择退让,找其他的座位),若两人都进行理论,争取座位的话,很有可能就是两败俱伤,两个人也可能因意见不合而进而消逝打架的现象,而且在食堂这个公共场所,对大家的形象都有着很不好的影响;如果一方选择退让,而此外一方则选择理论,则结果可能就是一方另找座位,有些损失,一方占据了座位,取得了胜利;还有就是双方都选择了退让,将座位让给其他人;依据以上的分析,现在有如下的支付图参与人2求解过程(箭头法)参与人2U-2,-21,-D-1,1参与人10,0-2,-2D1~|1参与人10,01,Nash均衡可以知道,在以上的博弈问题中存在着两个纯战略Nash(U,D)和(D,U),就是说,在整个的博弈中,两个人中有一个人退让,查找其他的座位,此外一个人现在求解这个博弈问题:由博弈问题的M均衡进行争论得到座位。
对于这个结果,我们可以这样熟识:我们现在认为两个人都是理性的,在一个参与人猜想到另一方将会进行理论时,明智的选择就是退让,避开更大的损失,而当猜想到对方将会选择退让时,则进行理论,以求得最大的胜利;可以将Nash均衡作为此次“抢座大战”的全都性猜想,而其它的结果(U,U)和(D,D)都将不会是全都性猜想,就(U,U)来说,对双方而言都不是最好的结果,且受到的损失也会是最大的;再就是D,D),双方都进行退让,也是不太可能的,当有一方有退让的迹象,此外一方就可能进行理论来求得利益的最大,因此这个结果也不会是全都性的猜想,不会是一个均衡,必定会偏离的,向着Nash均衡的方向偏移在上面的这个博弈中,消逝了两个Nash均衡,在一个博弈问题中,假如只存在一个Nash均衡,那么Nash均衡作为全都性的猜想,应说是很有效的但是,假如像这个“座位大战”博弈一样,存在两个Nash均衡,那么Nash均衡作为博弈解的意义也就相对弱化了我们不能进行猜想,毕。