一完全静态博弈－金锄头文库

资源描述

《一完全静态博弈》由会员分享，可在线阅读，更多相关《一完全静态博弈（60页珍藏版）》请在金锄头文库上搜索。

1、经济现象博弈分析经济现象博弈分析一、完全信息静态博弈一、完全信息静态博弈二、完全信息动态博弈二、完全信息动态博弈三、不完全信息静态博弈三、不完全信息静态博弈四、不完全信息动态博弈四、不完全信息动态博弈五、与企业关联的博弈五、与企业关联的博弈第一部分第一部分完全信息静态博弈完全信息静态博弈纳什均衡纳什均衡混合战略的纳什均衡混合战略的纳什均衡纳什均衡的存在性和多重性及纳什均衡的存在性和多重性及“聚点聚点均衡均衡”和和“相关均衡相关均衡”。1 引例引例：产权无保护的情况的博产权无保护的情况的博弈弈与无产权的情况相比，产权保护的收益产权保护的收益可以用对策论中的囚徒困境囚徒困境的例子来解释。贝

2、茨普里查德用对策论对策论对非洲上尼罗河地区努埃尔人游牧部落中秩序的形成和维持进行了解释。努埃尔人的经济以“牛”为基础。让我们设想有两个大家庭的情况，X和Y，每个家庭有同样的武力潜能和侵犯倾向，每家都拥有相当于10 头牛的净财产。每家都有两种行为选择：侵犯对方行为侵犯对方行为A，不侵犯对方行为，不侵犯对方行为N。收益矩阵收益矩阵四个可能结果：四个可能结果：家家庭庭 Y A N 家家庭庭 X A N (4 , 4) (18 , 2) (2 , 18) (10 , 10)博弈过程博弈过程在不知对方策略的情况下，要求每一方都作出不可更改的选择，就会导致囚徒的困境，这时，不管对方采取什么策略，每一

3、方选择侵犯策略不管对方采取什么策略，每一方选择侵犯策略可以使他的期望财富达到最大化可以使他的期望财富达到最大化因为42、1810。均衡的结果是均衡的结果是( A ,A ) ，这是一个产权得不到保障的社会，也许最终会导致牛的养殖与放牧在经济上根本得不偿失。社会困境解决的方案社会困境解决的方案要解决这个基本的社会困境，就必须给对策者加以外部约束外部约束或内在化价值内在化价值以改变收益矩阵的相互关系，使结果( A , N )对于每一个潜在的侵略者不再有吸引力或不再可能。例如，矩阵非对角线上的两个结果（ 18 ，2 ）和（ 2 ，18 ）可以被彻底地清除掉：如果对策的规则发生变化也许通过一个第三者（一

4、第三者（一个仲裁者）使双方都知道对方会对侵犯行为进个仲裁者）使双方都知道对方会对侵犯行为进行报复行报复这样和结果就不可能再出现。（上接）（上接）原收益矩阵变为：家家庭庭 Y A N家家庭庭 XAN ( 10 , 10 ) ( 0 , 0 ) ( 0 , 0 ) ( 4 , 4 ) 如果外在设立一个机制武力报复的威胁武力报复的威胁是确定的，那么理性的和追求财富极大化的家庭现在就会选择非暴力，这样只会有一个选择结果，（ 10 ， 10 ）当然要优于（ 4 ， 4 ）。2 博弈论的基本概念博弈论的基本概念（1）参与）参与人人参与人参与人(players)：决策主体，他的目的是通过选择行动（或战

5、略）以最大化自己的支付（效用）水平。每个参与人必须有可供选择的行动和一个很好定义的偏好函数偏好函数，那些不作决策的被动主体只当作环境参数环境参数来处理。例如，在房地产开发博弈中，有两个参与人，即开发商和开发商，他们要作出“开发”或“不开发”的决策，目的是最大化自己的利润水平，而写字楼的需求则被当作环境变量放在“市场需求”中。虚拟参与人虚拟参与人(pseudo-player)：“自然”(nature)。指决定外生的随机变量的概率分布的机制。关于自然“自然”以一定的概率决定事件发生是大还是小，参与人决策的后果依赖于自然的选择。在不完全信息博弈中，自然选择参与人的类型。与一般参与人不同的是，自然作

6、为虚拟的参与人没有自己的支付和目标函数。（2）行动行动(actions or moves)行动是参与人在博弈的某个时点的决策变量。在n人的博弈中，n个参与人的行动的有序集a=(a1, ,ai, ,an)成为“行动组合”(action profile)。 ai表示第i个参与人的行动。行动顺序(the order of play)关于行动顺序同样的参与人，同样的行动集合，行动顺序不同，每个参与人的最优选择就不同，博弈的结果就不同。特别是在不完全信息博弈中，后行动者可以通过观察先行动者的行动来获得信息，从而使得博弈分析成为预测人的行动的一个强有力的工具。（3）信息）信息(information)信息

7、是参与人有关博弈的知识。完美信息(perfect information)是指一个参与人对其他参与人的行动选择情况有准确了解。完全信息(complete information)是指自然不首先行动或自然初始行动被所有参与人准确观察，即没有事前的不确定性。关于关于“共同知识共同知识”(common knowledge)是与信息有关的。指的是“所有参与人知道，所有参与人知道所有参与人知道，所有参与人知道所有参与人知道所有参与人知道 ”的知识。共同知识是博弈论中一个非常强的假定。在现实的许多博弈中，即使所有参与人“共同”享有某种知识，每个参与人也许并不知道其他参与人知道这些知识，或者并不知道其他人知

8、道自己拥有这些知识。这种情况被称为“一致信念”。（4）策略策略是参与人在给定信息集的情况下的行动规则，它规定参与人在什么时候选择什么行动。相机行动方案(contingent action plan)。信息集包含了一个参与人有关其他参与人之前的行动知识。策略告诉该参与人如何对其他参与人的行动作出反应，因而策略是参与人的“相机行动方案”接上接上一般地，我们用一般地，我们用Si代表第代表第i参与人的策略，参与人的策略，代表第代表第i个参与人的所有可选择的策略集合。个参与人的所有可选择的策略集合。策略的表示策略的表示（5）收益函数）收益函数支付函数支付函数(payoff)：在特定的策略组合下参与人：

9、在特定的策略组合下参与人得到的确定效用水平，或是期望水平。得到的确定效用水平，或是期望水平。结果结果(outcome)：博弈分析者所感兴趣的所有东：博弈分析者所感兴趣的所有东西。西。均衡均衡(equilibrium)：所有参与人的最优策略的：所有参与人的最优策略的组合组合3 模型：囚徒困境模型：囚徒困境 -1，-1 -9，0 0，-9 -6，-6乙乙沉默沉默招供招供甲甲沉沉默默招招供供设想：若（招供，招供）为（设想：若（招供，招供）为（-7，-7），又），又会怎样？会怎样？占优策略占优策略囚徒困境的引伸此模型告之我们，在完全信息且静态完全信息且静态情况下，从自己切身利益考虑，两个囚徒

10、都愿意走“坦白从宽”道路。然而，国内外的司法实践却说明的是：在两个共同作案的案件中，相互背叛而坦白案情所占的比例并不令人满意。这是因为对于他们而言，博弈往往不是一次性博弈往往不是一次性的，常常是重复多次，存在着动态博弈，的，常常是重复多次，存在着动态博弈，这中间存在“威胁”与“承诺”等因素，使得效用发生根本变化。另一方面，由于支付函数支付函数的改变，也会引起心理预期的调整，从而建立起他们心理契约心理契约。个人理性转向集体理性。纳什均衡的定义纳什均衡的定义设设为一组完全信息的静为一组完全信息的静态博弈模型，称策略组合态博弈模型，称策略组合为一个纳什均衡，如果对为一个纳什均衡，如果对是在是在

11、条件下局中人条件下局中人的最优选择，即的最优选择，即或或对于对于成立。成立。一般分析一般分析博弈理论家肯宾默尔（Ken Binmore）认为：（1）我们的基因基因并不强调“我们更喜欢或相信确定的事情”，但是它们应当为组织自身对于偏好和信念的认知过程负责。偏好和信念的认知过程负责。（2）我们装备的运算法则，运算法则，不只是说明我们依据偏好和信念体系观察自我和他人的行为模式，而是在我们的操作系统操作系统中积极地建造可选择的模式。人们拥有这种能力，即在任何博弈中，学习第二种最好的策略的潜力。学习第二种最好的策略的潜力。（3）互动式学习。互动式学习。模型：智猪博弈模型：智猪博弈重复剔除的占优均衡

12、重复剔除的占优均衡5-2，3-24-2，4-07-0，1-20-0，0-0 小猪小猪按按等待等待大猪大猪按按等等待待纳什均衡应用举例纳什均衡应用举例（1）古诺模型）古诺模型（2）公共地的悲剧）公共地的悲剧（1）古诺模型）古诺模型背景：古诺背景：古诺(Cournot，1838)寡头竞争寡头竞争模型可以说是纳什均衡最早的版本，它模型可以说是纳什均衡最早的版本，它比纳什（比纳什（1950）本人的定义早了）本人的定义早了100多年。多年。假设：在此模型里，有两个参与人，假设：在此模型里，有两个参与人，分别称为企业分别称为企业1和企业和企业2；每个企业的战；每个企业的战略是选择产量；支付是利

13、润，它是每个略是选择产量；支付是利润，它是每个企业产量的函数。企业产量的函数。古诺寡头竞争的模型化古诺寡头竞争的模型化（1）古诺）古诺(Cournot)寡头竞争模型寡头竞争模型第第I个企业的利润函数为：个企业的利润函数为：找出纳什均衡的一个办法是对每个企业的利润函找出纳什均衡的一个办法是对每个企业的利润函数求一阶导数，并令其等于零：数求一阶导数，并令其等于零：上述两个一阶导数条件分别定义了两个上述两个一阶导数条件分别定义了两个反应函数反应函数反应函数意味着每个企业的最优策略反应函数意味着每个企业的最优策略产量是另产量是另一个企业产量的函数。两个反应函数的交叉点就是一个企业产量的函数。两个反应函

14、数的交叉点就是纳什均衡纳什均衡古古诺诺模模型型的的纳纳什什均均衡衡为了得到更具体的结果，让我们来考虑上述为了得到更具体的结果，让我们来考虑上述模型的简单情况。假定每个企业有具体模型的简单情况。假定每个企业有具体相同的不相同的不变单位成本变单位成本需求函数取如下线性形式需求函数取如下线性形式那么，最优化的一阶条件分别是：那么，最优化的一阶条件分别是：反应函数反应函数为为解两个反应函数，我们得解两个反应函数，我们得纳什均衡纳什均衡为为每个企业的纳什利润分别是每个企业的纳什利润分别是在垄断的情况下，垄断企业的问题是在垄断的情况下，垄断企业的问题是容易算出，垄断企业的最优产量为容易算出，垄断企业的最

15、优产量为解释寡头竞争的总产量大于垄断产量的原因寡头竞争的总产量大于垄断产量的原因在于每个企业在选择自己的最优产量时，在于每个企业在选择自己的最优产量时，只考虑对本企业利润的影响，而忽视对只考虑对本企业利润的影响，而忽视对另一个企业的外部负效应。这是典型的另一个企业的外部负效应。这是典型的囚徒困境问题。囚徒困境问题。这个模型使用重复剔除严格劣战略的方这个模型使用重复剔除严格劣战略的方法找出均衡解。法找出均衡解。（2）公共地的悲剧）公共地的悲剧公共地的悲剧公共地的悲剧(tragedy of the commons)是制度经济是制度经济学家非常熟悉的例子。学家非常熟悉的例子。格雷特格雷特哈丁哈丁(

16、Garrett Hardin,1968),他曾经做过一次他曾经做过一次题为题为“公地的悲剧公地的悲剧”的演讲，演讲稿刊登在科学的演讲，演讲稿刊登在科学杂志上。之后，它与杂志上。之后，它与“乘数乘数”、“噪音噪音”、“零和零和”或或“从从众众”这些词一样，成为某种现象的代名词。这些词一样，成为某种现象的代名词。十年前，十年前，“囚徒困境囚徒困境”走出博弈理论的领域，而变成走出博弈理论的领域，而变成了描述两个人之间某种常见关系的代名词，即这两了描述两个人之间某种常见关系的代名词，即这两个人如果分别做出了自私的选择，那么他们对各自个人如果分别做出了自私的选择，那么他们对各自的伤害就甚于对各自的帮助，

17、但是如果他们都不从的伤害就甚于对各自的帮助，但是如果他们都不从自己的角度进行选择，结果对两个人都会更有利。自己的角度进行选择，结果对两个人都会更有利。公共牧场的比喻公共牧场的比喻哈丁所讲的公共牧场则是研究具有同一行为动机结构哈丁所讲的公共牧场则是研究具有同一行为动机结构的一种特殊的多人情况。的一种特殊的多人情况。那些在会议上高谈阔论却又言之无物的人们，可能看那些在会议上高谈阔论却又言之无物的人们，可能看上去就像牧场上的牛一样，他们一边吃一边践踏，而上去就像牧场上的牛一样，他们一边吃一边践踏，而另一头牛正在眼巴巴地看着草。另一头牛正在眼巴巴地看着草。现在这个词已经被广泛地应用于研究在公共水域倾倒

18、现在这个词已经被广泛地应用于研究在公共水域倾倒污水的行为，在公共石油层开采石油行为，在公海猎污水的行为，在公共石油层开采石油行为，在公海猎捕鲸鱼的行为，甚至于将地球和地球上的资源比喻成捕鲸鱼的行为，甚至于将地球和地球上的资源比喻成一个公共养殖场，人类在其中过度繁衍后代。还有中一个公共养殖场，人类在其中过度繁衍后代。还有中国的小煤窑的开发以及高校科研经费的申请等。国的小煤窑的开发以及高校科研经费的申请等。“公地公地”范式即人们在追求个人利益的时候相互之间会产生利益冲突，如果他们能够进行自我约束，他们的整体福利会得到提高，但是，如果某个人进行自我约束，他的个人福利并不会有所改善。美托马斯C谢林微

19、观动机与宏观行为中国人民大学出版社2005p112。性质解释公地是一种广为普遍的现象中的一个特殊情况，但是这种情况又无处不在，人们的行为成本或损失超过了他们自身掌控范围，他们要么不知道这种成本或损失，要么根本不关心。污染、疾病传染、噪音、危险驾驶、随意玩火或者“囤积居奇”都是这样的行为。人们可能会自觉使这些行为服从于集体约束。而这种行为对个体来讲，应该不受约束的，但是对集体来讲都是由成本的。显著特征只有使用公地的人受制于他们使用公地的方式以及他们对公地的使用程度；使用或过度使用公地的成本与获得或损失的收益通向变化。如：在拥挤的高速公路上车流速度未必比旁边小道更快捷的情况；在异常拥挤以至于使人

20、们后悔到这里来的沙滩上等。（2）公共地的悲剧）公共地的悲剧公共地的悲剧公共地的悲剧(tragedy of the commons)是制度是制度经济学家非常熟悉的例子经济学家非常熟悉的例子(Hardin,1968),这个例这个例子证明，如果一种资源没有排他性的所有权，子证明，如果一种资源没有排他性的所有权，就会导致对这种资源的过度使用。就会导致对这种资源的过度使用。考虑一个有考虑一个有n个农民的村庄共同拥有一片草地，个农民的村庄共同拥有一片草地，每个农民都有在草地上放牧的自由。每年春天，每个农民都有在草地上放牧的自由。每年春天，每个农民要决定自己养多少只羊。每个农民要决定自己养多少只羊。接上接上

21、一个重要的假设是v是G的函数，v=v(G)。因为每只羊至少要一定数量的草才不至于饿死，有一个最大可存活的数量。当草地上的羊很少时，增加一只，也许不会对其他羊的价值有太大的不利影响，但随着饲养量的不断增加，每只羊的价值会急剧下降，因此，我们假定：接上接上如图所示如图所示vG每每只只羊羊的的价价值值随随饲饲养养总总数数量量的的增增加加而而下下降降博弈的过程博弈的过程1在这个博弈里，每个农民的问题是选择在这个博弈里，每个农民的问题是选择gi以最大以最大化自己的利润。假定购买一只羊的价格为化自己的利润。假定购买一只羊的价格为c,那么，那么，利润函数为：利润函数为：最优化的一阶条件是：最优化的一阶

22、条件是：2 上述一阶条件可以作如下解释：增加一只上述一阶条件可以作如下解释：增加一只羊有正负两方面的效应，正的效应是这只羊羊有正负两方面的效应，正的效应是这只羊本身的价值本身的价值v,负的效应是这只羊使所有之前的负的效应是这只羊使所有之前的羊的价值下降（羊的价值下降（giv/G*,公共草地被过度使用了。公共草地被过度使用了。这就是公共地的悲哀。这就是公共地的悲哀。社会最优的目标是最大化如下定义的社会总社会最优的目标是最大化如下定义的社会总剩余价值。剩余价值。4 混合策略纳什均衡混合策略纳什均衡纯策略纯策略(pure strategies)：如果一个策略规定参与人在一个给定的信息情况下只选择一种

23、特定的行动。混合策略混合策略(mixed strategies)：如果一个策略规定参与人在给定的信息情况下，以某种概率分布随机地选择不同的行动。在静态博弈里，纯策略等价于特定的行动，混合策略是不同行动之间的随机选择。一、社会福利博弈一、社会福利博弈在这个博弈里，参与人是政府政府和一个流浪汉流浪汉。流浪汉有两个策略：寻找工作或游闲；政府也有两个策略：救济或不救济。政府想帮助流浪汉，但前提是后者必须试图寻找工作，否则，不予帮助；而流浪汉只有在得不到政府救济时才会寻找工作。（3，2）（-1，3）（-1，1）（0，0）流浪汉流浪汉寻找工作寻找工作游闲游闲政府政府救济救济不救济不救济求解混合策略纳什

24、均衡1、假定政府的混合策略为：、假定政府的混合策略为：2、流浪汉的混合策略为：、流浪汉的混合策略为：对上述效用函数求微分，得到政府最优化的对上述效用函数求微分，得到政府最优化的一阶条件为：一阶条件为：就是说，在混合策略均衡，流浪汉以就是说，在混合策略均衡，流浪汉以0.2的概的概率选择寻找工作，率选择寻找工作，0 .8的概率选择游闲。的概率选择游闲。那么，政府的期望效用函数为：那么，政府的期望效用函数为：解释解释政府选择救济策略政府选择救济策略政府选择不救济策略政府选择不救济策略如果一个混合策略是政府的最优选择，那一如果一个混合策略是政府的最优选择，那一定意味着政府在救济与不救济之间是无差

25、异的，定意味着政府在救济与不救济之间是无差异的，即：即：从流浪汉的最优化问题，找出政府的均衡混合策略流浪汉的期望效用函数为：流浪汉的期望效用函数为：讨论表明1找出混合战略纳什均衡可以有两种方法，一种是支付最大化方法；另一种是支付等值法，这两种方法是等价的。上面的均衡要求每个参与人以特定的概率选择纯战略。也就是说，一个参与人选择不同纯战略的概率发布不是由他自己的支付决定的，而是由他的对手的支付决定的。由于这个原因，许多人认为混合战略纳什均衡是一个难以令人满意的概念。事实上，正是因为它在几个（或全部）战略之间是无差异的，他的行为才难以预测，混合战略纳什均衡才会存在。2尽管混合战略不像纯战略那样直观

26、，但它确实是一些博弈中参与人的合理行为方式。扑克比赛、垒球比赛、划拳就是这样的例子，在这一类博弈中，参与比赛的总是随机行动以使自己的行为不被对方所预测。经济学上的监督博弈也是这样一个例子。如税收检查、质量检查、惩治犯罪、雇主监督雇员等都可以看成猜谜博弈。二、税收检查二、税收检查监督博弈字母说明a是应纳税款；C是检查成本；F是罚款。我们假定是Ca+F。在这个假定下，不存在纯战略纳什均衡。我们用代表税收机关检查的概率；代表纳税人逃税的概率。求解：混合战略纳什均衡之一给定给定。税收机关选择检查（=1）和不检查（ =0）的期望收益分别是：G(1, )=(a-C+F) +(a-C)(1- ) = F+a

27、-CG(0, )=0 +a(1- ) = a(1- )G(1, )= G(0, )，得*=C/（a+F）说明如果纳税人逃税的概率小于C/a+F ，税收机关的最优选择是不检查；如果纳税人逃税的概率大于C/a+F ，税收机关的最优选择是检查；如果纳税人逃税的概率等于C/a+F ，税收机关随机地选择检查或不检查。之二给定给定。纳税人选择逃税（=1）和不逃税（ =0）的期望收益分别是：p( ,1)=-(a+F) +0(1- ) = -(a+F) p(, 0)=a +(-a)(1- ) = -ap( ,1)= p( ,0)，得 *=a/(a+F)说明如果税收机关检查概率小于 *=a/（a+F），纳税人

28、的最优选择是逃税；如果税收机关检查的概率大于 *=a/（a+F），纳税人的最优选择是不逃税；如果税收机关检查的概率等于 *=a/（a+F），纳税人的选择无差异；混合战略纳什均衡 *=a/（a+F）， *=C/（a+F）即税收机关以a/（a+F）的概率检查，纳税人以C/（a+F）的概率选择逃税。这个均衡的另一个可能的解释是，经济中有许多个纳税人，其中有C/（a+F）的比例的纳税人选择逃税，（1- C/（a+F）比例选择不逃税；税收机关随机地检查a/（a+F）比例的纳税人的纳税情况。应纳税款越大，纳税人逃税的概率反而越小。这个结论与我们假定有关：一是逃税技术的假定一经检查，逃税就会发现；二是检查成本既定的；三是没有其他行为发生，如贿赂。

展开阅读全文

一完全静态博弈

最新文档