对策论的基本概念1－金锄头文库

资源描述

《对策论的基本概念1》由会员分享，可在线阅读，更多相关《对策论的基本概念1（38页珍藏版）》请在金锄头文库上搜索。

1、1,第八章对策论,2,对策论的基本概念,在第三章我们讨论了决策技术，其核心是在不确定的自然状况下如何评价和选择方案。实际上，一个决策主体在进行决策时，不仅要面对自然的状况，还常常要与其他决策者发生直接的相互作用，而各决策主体的利益又往往存在着冲突，这就形成了决策者间的竞争。这种具有冲突特征从而具有竞争甚至斗争性质的决策现象称为对策现象。对策论(又称博弈论)就是研究对策现象的理论和方法，它既是现代数学的一个分支，也是管理科学的一个重要部分，而且已成为主流经济学的重要组成部分。,3,对策论的基本概念,例(市场占有)：某城市东、南、西三个城区分别居住着40%，30%，30%的居名，目前该市还没有

2、大型仓储式超市，公司甲计划修两个，公司乙计划修一个。每个公司都知道，若在某个区内设有两个以上超市，这些超市将分摊该区域业务；若在某个城区只有一个超市，则该超市将独揽这个城区的业务；若在一个城区没有超市，则该城区的业务将分摊给其他城区的超市。每个公司都想使自己的营业额尽可能多，试分析：两个公司的最优策略以及各应该占有多大的市场份额。,4,对策论的基本概念,对策模型的三个基本要素： 1.局中人：局中人指能够选择自己的行动方案从而使自身的利益最大化的决策主体，即有决策权的参加者。（理性） 2.策略集：局中人选择对付其它局中人的行动方案称为策略；某局中人的所有可能策略全体称为策略集； 3.一局势对

3、策的益损值：局中人各自使用一个策略就形成了一个局势，局中人各选择一个特定的策略所形成的局势下局中人得到的收益称为益损值。,5,对策论的基本概念,数据：当甲公司决定只在东城区修建两个超市，且乙公司也决定在东城区修建一个超市时，甲公司的市场占有率为：,此时乙公司的市场占有率为1/3，若甲公司的市场占有率上升，则乙公司的市场占有率就会下降，双方的利益是激烈对抗的，两公司的市场占有率总和在任何情况下都为“”,类似的，可以写出其他各种局势下的结果,6,甲在各局势中的市场分额,对策论的基本概念,甲：行局中人；乙：列局中人,7,对策论的基本概念,其中：公司甲的策略集: S1= 1, 2, 3, 4,

4、 5, 6 ，公司乙的策略集：S2= 1, 2, 3。下面矩阵称公司甲的赢得矩阵：,A=,8,二人有限零和对策（又称矩阵对策）：局中人为2；每个局中人的策略集的策略（也称纯策略）数目都是有限的；每一局势（也称纯局势）的对策均有确定的损益值，并且对同一局势的两个局中人的益损值之和为零。通常将矩阵对策记为:G=S1,S2,A S1：甲的策略集； S2：乙的策略集；A：甲的赢得矩阵 “市场占有”是一个矩阵对策问题基本假定：理性人、完全信息,二人有限零和对策（矩阵对策）,9,矩阵对策的最优纯策略,双方都是从采用不同的策略可能出现的最坏的结果中选择一种最好的结果作为决策依据(从最坏处着想，去争

5、取最好的结果)，该原则假定局中人是保守性的决策者。,甲在各局势中的市场分额,10,矩阵A中每行的最小元素分别为0.6，0.5，0.5,0.7,0.7.0.6。在这些最少赢得中最好的结果是0.7，故公司甲会采取策略4，或者5，无论对手采取何策略，公司甲至少获得70%的市场分额。对于公司乙，矩阵A中每列的最大的元素分别为其可能给自己带来的最大损失，分别为0.7，0.75，0.75。乙会采取1策略，确保公司甲的市场分额不会超过0.7。此时，局中人公司甲只可能以4,5作为其最优选择，局中人公司乙只可能以1作为其最优选择，相应的可能的局势有（4,1）和（5,1）。只有当赢得矩阵A=（aij）满足

6、时，上面的局势才是稳定的，此时两个居中人都不能通过单方面改变策略而受益。所以，当对策重复进行时，居中人都会坚持使用该策略不变。这种策略称为最优纯策略，并把（4,1）和（5,1）称为对策G在纯策略意义下的解，又称对策G的鞍点。把其值V=0.7称之为矩阵对策G=S1，S2，A的对策值。,矩阵对策的最优纯策略,11,设矩阵对策 G = S1, S2, A 。当时，不存在最优纯策略。例：设一个赢得矩阵如下: min 5 9 5 A = max 6 策略2 8 6 6 i max 8 9 min 8 策略1 j,矩阵对策的最优纯策略,12,当甲取策略2 ，乙取策略1时，甲实际赢得8，乙当然不满意。此

7、时，乙发现他选择2要好过1 。反过来，此时如果乙采取策略2，甲发现他选择1要好过2，则赢得更多为9 。因此，对两个局中人甲、乙来说，没有一个双方均可接受的平衡局势，其主要原因是甲和乙没有执行上述原则的共同基础，即：,矩阵对策的最优纯策略, ,A,注：判断局势是否是鞍点的另外一种方法是：对任意i和j存在。,13,优超原则：假设矩阵对策 G=S1,S2,A 甲方赢得矩阵 A= 若存在两行（列），s行（列）的各元素均优于t行（列）的元素，即： ( ) 称甲方策略优超于 (乙方策略优超于 )。优超原则：当局中人甲方的策略被其它策略所优超时，可在其赢得矩阵A中划去第t行（同理，当局中人乙方

8、的策略被其它策略所优超时，可在矩阵A中划去第t列）。,矩阵对策的最优纯策略,14,被第、行所优超,被第、行所优超,被第、行所优超,优超原则：甲方的赢得矩阵如下：,矩阵对策的最优纯策略,15,被第1列所优超,被第1列所优超,优超原则：得到,得到,被第、2行所优超,矩阵对策的最优纯策略,16,在没有最优纯策略的情况下，一个比较自然且合乎实际的想法是：既然各居中人没有最优纯策略可出，是否给出一个选取不同纯策略的概率分布，以使甲（乙）在各种情况下的平均赢得（损失）最多（最少）-即混合策略。求解混合策略的问题有图解法、迭代法、线性方程法和线性规划法等，我们这里只介绍线性规划法，其他方法略。,矩阵

9、对策的混合策略,17,例：求解“市场占有”问题。已知公司甲的赢得矩阵A 求得故不存在纯策略意义下的解，可求其混合策略。,设甲选择混合策略(x1，x2 ，x3).即使用策略1的概率为x1，使用策略2的概率为x2，使用策略3的概率为x3 设乙选择混合策略(y1，y2).即使用策略1的概率为y1，使用策略2的概率为y2,矩阵对策的混合策略,18,公司甲：,给定公司甲的混合策略(x1,x2,x3),在最坏的情况下，公司甲的预期收益等于,公司甲应该选择(x1,x2,x3),使得,矩阵对策的混合策略,19,建立求公司甲最佳策略的线性规划如下：,矩阵对策的混合策略,20,公司乙：,给定公司乙的混合策略

10、(y1,y2),在最坏的情况下，公司乙的预期损失等于,公司乙应该选择(y1,y2),使得,矩阵对策的混合策略,21,建立求公司乙最佳策略的线性规划如下：,矩阵对策的混合策略,22,对给定的，局中人1策略集为，局中人2的策略集为，假定二人零和对策问题局中人1的赢得矩阵如下：,确定该问题的解,作业：,23,二人有限非零和对策,定义:局中人为2；每个局中人的策略集的策略数目都是有限的；每一局势两个局中人的所得之和不为零。,同二人有限零和对策相比,在二人有限非零和对策中,两个居中人并非完全处于对抗性的竞争状态中,因此居中人有可能进行合作。如果居中人都各自独立的选择自己的策略,则称这样的二人有

11、限非零和对策为不合作的二人有限非零和对策,反之,就是合作的二人有限非零和对策。,24,“囚徒困境” 有一天，有位富翁在家中被杀，财物被窃。警方在侦破这个案件过程中，抓到了甲、乙两犯罪嫌疑人，并且从他们的住处搜出了被害人家中丢失的财物。但他们却矢口否认曾经杀过人，辩称是先发现富翁被杀，然后顺手牵羊偷了点儿东西而已。于是，警方将甲、乙两个犯罪嫌疑人进行隔离审讯。警察分别对甲与乙说：“你们的盗窃罪证据确凿，所以可判你们1年监禁。但我可和你做个交易。如你单独坦白杀人的罪行，我只判你3个月监禁，但你的同伙要被判10年监禁；如果你拒不坦白，而被同伙检举，那么你就将被判10年监禁，他只被判3个月监禁；但是

12、，如果你们两人都坦白交代，那么你们都要被判5年监禁。”,二人有限非零和对策,25,二人有限非零和对策,纳什均衡:如果给定了甲的选择,乙的选择是最优的；并且给定乙的选择,甲的选择也是最优的,那么这样的一组策略就是一个纳什均衡.,双方最佳结果是：抗拒从宽。实际结果往往是：坦白从宽，牢底坐穿,26,二人有限非零和对策,囚徒困境说明了什么？,在（坦白、坦白）这个组合中，囚徒甲和囚徒乙都不能通过单方面的改变行动增加自己的收益，于是谁也没有动力游离这个组合，因此这个组合是纳什均衡，也叫非合作均衡。囚徒困境反映了个人理性和集体理性的矛盾。如果甲和乙都选择不坦白，各判刑年，显然比都选择坦白各判刑年好得多。当

13、然，甲和乙可以在被警察抓到之前订立一个“攻守同盟”，但是这可能不会有用，因为它不构成纳什均衡，没有人有积极性遵守这个协定。,27,二人有限非零和对策,囚徒困境例子:价格战,2000年我国几家生产彩电的大厂商合谋将彩电价格维持高位，他们搞了一个“彩电厂家价格自律联盟”，并在深圳举行了由多家彩电厂商首脑参加的“彩电厂商自律联盟高峰会议”。虽然当时国家有关部门还未出台相关的反垄断法律，政府无力制止这种事情，公众也不必担心彩电价格会上涨。因为，“彩电厂商自律联盟”只不过是一种“囚徒困境”，彩电价格不会上涨。在高峰会议后不到二周，国内彩电价格不是上涨而是一路下跌。这是因为厂商们都有这样的心态：无论其

14、他厂商是否降价，我自己降价是有利于自己市场份额扩大的。,28,二人有限非零和对策,它对亚当斯密1776年提出的“看不见的手”的原理提出挑战个人理性与集体理性的冲突。按照斯密的理论，市场经济在人人追求自身利益最大化的基础上达到全社会资源的最优配置。从“囚徒困境”引出一个悖论：从利己目的出发，结果损人不利己。两个囚徒的命运就是如此。从这个意义上说，“囚徒困境”提出的悖论实际上动摇了西方经济学的基石。 “纳什均衡”是非合作博弈的均衡，有时并不是对所有人都有利的均衡。所以，反过来更使我们看到：合作是好的“利己策略”。但合作必须符合以下黄金律：按照你希望别人对你的方式来对别人，但只有他们也按同样方式行事

15、才行。也就是“己所不欲勿施于人”，但前提是“人所不欲勿施于我”。这样的合作才能形成一个和谐的良好的社会。,囚徒困境的意义,29,二人有限非零和对策,是否存在解决囚徒困境的办法?,解决囚徒困境的一种方法是增加缔结合约的可能性。比方说,在合同的后面附加惩罚性条款,如果任何一方违背合同将支付罚金或者接受其他某种方式的惩罚。,如果犯罪组织有着严格的惩罚制度，任何一个罪犯坦白后，不论坦白的事情严重与否，犯罪组织一定会杀人灭口，并且总是能迅速做到。这个规则将改变收益矩阵,30,“智猪博弈”,假设猪圈里有两头猪，一头大猪，一头小猪，猪圈的一端有一个猪食槽，另一端安装了一个按铃，控制猪食的供应。按一下按铃，将

16、有10个单位的猪食进入猪食槽，供两头猪食用。两头猪面临选择的策略都有两个：自己去按按铃或等待另一头猪去按按铃。两头猪应该各采取什么策略呢？答案是：小猪将舒舒服服地等在食槽边，而大猪则为一点残羹冷炙不知疲倦地奔忙于按铃和食槽之间。下面我们给出具体的分析。,铃,槽,大猪，小猪,二人有限非零和对策,31,二人有限非零和对策,铃,槽,大猪，小猪,看小猪：无论大猪是按铃或者等待，小猪最好是等待。,看大猪：既然小猪最好是等待，大猪最好自己动手,不指望小猪,自己按铃。,32,二人有限非零和对策,智猪博弈例子1：为什么大股东挑起监督管理层的重任？,在股份公司中，股东都承担着监督管理层工作的职能，但是，大小股东从监督

展开阅读全文