《第九章 博弈论》由会员分享,可在线阅读,更多相关《第九章 博弈论(17页珍藏版)》请在金锄头文库上搜索。
1、第九章博弈论内容提要一、博弈论概述1. 博弈论及其基本概念博弈论研究人与人之间相互“斗智”的形式和结果。当经济主体之间的利益存在冲突时, 每一方所获得的利益不仅取决于自己采取的行动,也取决于其他各方采取的行动或对自己行 动的反应。简单地说,博弈论主要研究决策主体在给定信息结构下如何决策以达到效用最大 化和不同决策主体之间决策的均衡。博弈论的基本概念包括:一是参与者或局中人。二是策略和策略空间。策略是在给定条件博弈中,局中人完整的一套相机行动方案。局 中人可选择的策略的全体构成了策略空间(或策略集)。三是支付函数与支付矩阵。博弈论中,可用数值表示各局中人从博弈中所获得的收益或 效用水平,该数值称
2、为支付。支付依赖于各个局中人所作出的策略,这种收益与策略的依赖 关系构成了支付函数。参与博弈的多个局中人的收益可用一个矩阵或框图表示,这种矩阵或 框图叫做收益矩阵。除此之外,博弈论中的基本概念还包括:行动、信息、结果和均衡。它们关系是:行动 是局中人的决策变量;信息是局中人在进行博弈时有关其他局中人的特征和行动的知识;结 果是博弈分析者感兴趣的要素的集合;均衡是所有局中人的最优策略或行动的集合。2. 博弈类型博弈论总体上可分为合作博弈和非合作博弈。两者的区别在于局中人在博弈过程中能否 达成一个有约束力的协议。如果不能,则为非合作博弈。非合作博弈是现代博弈论的研究重 点。合作博弈强调的是集体主义
3、,是团体的公平和效率;而非合作博弈则强调个人理性、个 人最优决策,其结果有时有效率,有时没有。根据局中人行动的先后顺序,博弈论可分为静态博弈和动态博弈。前者指在博弈中,局 中人同时选择行动或虽然不是同时但后行动者不知道先行动者所采取的行动;后者是指局中 人的行动具有先后顺序,且后行动者可观察到先行动者所选择的行动。根据局中人对有关其他局中人的特征、策略空间及支付函数的了解,博弈论可分为完全 信息博弈和不完全信息博弈。前者是指在博弈中,每一个局中人能对所有其他局中人的特征、 策略空间和支付函数有准确的了解;而后者是指在博弈中,有局中人不能对其他局中人的特 征、策略空间和支付函数有准确的了解。在动
4、态博弈中,轮到行动的博弈方若完全了解此前 对方的行动,则称之为具有完美信息的动态博弈,如下棋;否则,就是不完美信息的动态博 弈,其结果只能是概率期望。把以上两个角度交叉结合,可得到四种博弈类型:完全信息静态博弈、完全信息动态博 弈、不完全信息静态博弈和不完全信息动态博弈(表9-1)。3. 最小最大值(或最大最小值)策略在两人博弈中,不管对方采取何种策略,局中人先从收益矩阵中找出自己的每一种策略 下至少可以获得的收益(即所能获得的最小收益),然后从这些最小收益策略中选择收益最 大的策略,这种策略叫做最小最大值策略,与之相反的策略叫做最大最小值策略。表9-1博弈的分类及对应的均衡静态动态完全信息完
5、全信息静态均衡 纳什均衡完全信息动态均衡 子博弈精炼纳什均衡不完全信息不完全信息静态均衡 贝叶斯纳什均衡不完全信息动态均衡精炼贝叶斯纳什均衡二、完全信息静态博弈1.占优策略均衡在博弈中,占优策略是指一个局中人的最优策略不依赖于其他局中人的策略选择。如果 所有的局中人都有占优策略存在,则博弈将在所有局中人的占优策略基础上达到均衡,这种 均衡被称为占优策略均衡。表9-2囚徒困境囚徒B坦白抵赖囚徒A坦白10,100,20抵赖20,01,1囚徒困境是博弈论中的经典例子,如图9-2。从图中可以看出,坦白是犯罪嫌疑人A的 占优策略,同样也是犯罪嫌疑人B的占优策略。因而,“A坦白,B坦白”就是占优策略均 衡
6、。但在大多数博弈中,占优均衡并不存在。尽管如此,在有些博弈中仍可运用占优的逻辑 找出均衡。其方法是:先找出某一局中人的严格劣策略,将它剔除,并重新构造一个不包括 已剔除策略的新博弈;然后重复这一过程,直至剩下唯一的局中人策略组合为止。这个唯一 的策略组合,就是该博弈的均衡解,它被称为重新剔除的占优策略均衡。2. 纳什均衡纳什均衡是完全静态博弈解的一般概念,它是指所有局中人的最优策略所组成的一个策 略组合,也就是说,给定其他人的策略,每个局中人都不能因单方面改变自己的策略而获利, 从而也就没有任何人有积极性去打破该均衡。容易验证,囚徒困境中的(坦白,坦白)是纳 什均衡。占优策略均衡一定是纳什均衡
7、,但纳什均衡不一定是占优策略均衡。纳什均衡是有条件 的占优策略均衡,其条件是其局中人不改变策略。如果其他局中人改变策略,则该局中人也 要改变策略。因而,占优策略均衡比纳什均衡更为稳定。3. 纯策略和混合策略纳什均衡如果博弈方采取“要么做,要么不做”的策略形式,则该策略为纯策略。而博弈方根据 一组选定的概率,在两种或两种以上可能的行为中随机选择的策略,被称为混合策略。表9-3纯策略和混合策略游戏者B游戏者B左右左右游戏者A上-1,11,-1游戏者A上2,10,0下1,-1-1,1下0,01,2在表9-3中,左边的博弈不存在纯策略纳什均衡。而在右边的博弈中,不仅存在纯策略 的纳什均衡,而且也存在混
8、合策略的纳什均衡。三、完全信息动态博弈1. 子博弈精炼纳什均衡子博弈精炼纳什均衡是完全信息动态博弈解的一般概念,它是指在每一个子博弈(包括 原博弈)上都构成一个纳什均衡的策略组合。它要求局中人的决策在任何时点上都是最优的。2. 重复博弈影响重复博弈均衡结果的主要因素,是博弈的次数和信息的完备性。重复次数决定了局 中人在短期利益和长期利益之间的权衡,当博弈只进行一次时,每个局中人都只关心一次性 支付;如果博弈重复多次,局中人可能为长远利益而牺牲眼前利益。就信息的完备性而言, 当一个局中人的支付函数还不为其他人所知时,该局中人可能有积极性建立一个良好的声誉 以换取长远利益。以产品定价为例说明博弈次
9、数对局中人策略选择的影响,见表9-4。表9-4产品定价博弈局中人A低价高价局中人B低价高价0,010,-5-5,105,5在表9-4中,如果只进行一次博弈,则占优策略均衡为(低价,低价)。而从企业的角 度看,这并不是一个理想的结局。但在博弈重复无穷次时,若满足下列条件,将会出现相互 勾结的均衡(高价,高价)。第一,双方都采取“冷酷的策略”,即:从选择合作(高价) 开始。只要对方一直选择合作(高价),便一直合作;如果对方在某一阶段博弈中选择不 合作,就将选择永远不合作。第二,贴现因子5 = 1(r + 1)( r为利率)足够大。这意味着将 来的收益贴现后价值较大,人们对时间比较有耐心,而不是贪图
10、眼前利益。如果博弈重复有限次,则在最后阶段的博弈中,所有理性的局中人都会选择占优策略一 一给自己的产品制定低价,从而构成与完全信息静态博弈相同的占优策略均衡。采用逆向归 纳法,可推出:在每个阶段博弈出现的都是一次性博弈的均衡结果,即局中人都选择占优策 略。3. 动态博弈战略行动(1)先动优势。先动优势是指在博弈中首先作出选择并采取相应行动的局中人可以获 得较多的利益。斯塔克博格模型提出了这一分析范式。在存在一个支配企业和众多小企业的 产业中,首先宣布产量计划的往往是支配企业,而小企业则根据支配企业的产量计划相应地 调整自己的产量,前者称为领导者,后者称为追随者。领导者在估计追随者的反应函数的基
11、 础上做出有利于自身利益最大化的产量决策。(2)可信威胁与承诺。先动优势没有考虑后动者的威胁,但在通常的动态博弈中,由 于理性的博弈者善于识别它们,从而使得这种威胁是不可信的。承诺是指当事人使自己的威 胁策略变得可信的行动。一般地,只有当当事人在不实施这种威胁就会受到损失时,他的威 胁才会变得可信。四、不完全信息动态博弈1. 不完全信息静态博弈不完全信息静态博弈解的一般概念是贝叶斯纳什均衡,它是一种类型依赖型策略组合, 即在给定自己的类型和其他局中人类型的分布概率的条件下,使得每个局中人的期望效用最 大化。可用市场进入博弈进行说明,如表9-5。表9-5市场进入博弈潜在进入者B高成本低成本默许阻
12、挠默许阻挠垄断者A进入50,60-20,030, 100-20, 150不进入0,2000,2000,5000,500表9-5中,如果潜在进入者B知道垄断者A的类型(阻挠成本是低还是高),则博弈有 重复剔除的占优策略均衡。但在一般情况下,B并不知道A的类型,此时,B将遇到不确 定性下的选择问题。B虽然不知道A的真实类型,但他知道A在两种不同阻挠成本下的选 择,以及不同阻挠成本(类型)的分布概率。设高成本的概率为x,则低成本的概率为1 -x。 因此,B选择进入的期望利润为50x + (-20)(1 - x),选择不进入的期望利润为0。结果是,当 A阻挠成本高的概率大于0.29时,进入是B的最优选
13、择。此时的贝叶斯纳什均衡为,B选 择进入,高成本垄断者选择默许,低成本垄断者选择阻挠。2. 不完全信息动态博弈存在不完全信息、且局中人的行动又有先后之分的博弈被称为不完全信息动态博弈。精 炼贝叶斯均衡是不完全信息动态博弈解的一般概念,它是指当事人要根据他所观察到的其他 人的行为来修正自己对后者类型的信念(在修正信念的过程中使用贝叶斯规则),并由此来 选择自己的行动。同时,这也意味着每个参与者都假定其他参与者选择的是均衡策略。具体 而言,精炼贝叶斯均衡是所有参与者策略和信念的一种集合,它满足以下两个条件:一是给 定每个人有关其他人类型的信念的情况下,他的策略选择是最优的;二是每个人有关其他人 类
14、型的信念都是使用贝叶斯规则从所观察到的行为中得到的。精炼贝叶斯均衡的一个重要应 用是信号传递模型;另外,成本在精炼贝叶斯均衡中具有重要的地位,任何行动只有在负担 了一定的成本之后才是可信的。练习题一、选择题(选出至少一个正确答案)1. 博弈论中,局中人从一个博弈中得到的结果常被称为():A.效用;B.支付;C.决策;D.利润。2. 下列关于策略的叙述哪些是正确的():A. 策略是局中人选择的一套行动计划;B. 参与博弈的每一个局中人都有若干个策略;C. 一个局中人在原博弈中的策略和在子博弈中的策略是相同的;D. 策略与行动是两个不同的概念,策略是行动的规则,而不是行动本身。3. 下列关于最小最
15、大策略的叙述正确的有():A. 最小最大策略是一种激进策略;B. 最小最大策略是一种稳妥策略;C. 最小最大策略的合理性表现为,不管对方采取何种策略,某局中人至少可获得其每 一种策略下最小收益之中的最大值;D. 最小最大策略不仅是一种稳妥策略,而且博弈的结果必然是确定的。4. 囚徒困境说明():A. 双方都独立依照自己的利益行事,则双方不能得到最好的结果;B. 如果没有某种约束,局中人也可在(抵赖,抵赖)的基础上达到均衡;C. 双方都依照自己的利益行事,结果一方赢,一方输;D. (坦白,坦白)是占优策略均衡。5. 一个博弈中,直接决定局中人支付的因素是():A. 策略组合;B.策略;C.信息;D.行动。6. 纳什均衡与占优策略均衡及重复剔除的占优策略均衡的关系是():A. 占优策略均衡不一定是纳什均衡;B. 重复剔除的占优策略均衡一定是纳什均衡;C. 纳什均衡一定是在重复剔除严格劣战略过程中没有被剔除掉的策略组合;D. 每一个纳什均衡都是占优策略均衡或重复剔除的占优策略均衡。7. 下列有关策略和纳什均衡的叙述正确的有():A. 纯