《囚徒困境与博弈论》由会员分享,可在线阅读,更多相关《囚徒困境与博弈论(14页珍藏版)》请在金锄头文库上搜索。
1、囚徒困境与博弈论博弈论(也叫对策论)是一门很深的学问,在学校里至少要讲一个学期,甚至还有专门的博士课程。但在这里不可能讲这么多,只能把它的基本概念、研究方法和一般规律做一个简单的概括。从囚犯难题说起我们先从一个常见的案例说起。这个故事是这样的:有一个富人在家中被谋杀,他的财产被盗。警方在侦讯过程中抓到两名嫌疑犯:甲和乙,并在他们家中搜出了被盗的财物。但甲、乙都否认杀人,声称他们进入被害 人家中时那个人已经死去。所以警方肯定他们至少犯下了盗窃罪,但对他们是否杀死了被害人并没有把握。于是警方在把他们隔离的情况下分别对他们表示:因为偷 东西已经有确凿证据,这将被判刑 2 年;如果拒不承认杀人而被另一
2、方检举,将被判刑 20 年,而检举的一方可以受奖无罪释放;如果双方都坦白杀人,将各被判刑 10 年。这样,甲乙可能面临的判决如下:通过分析可以看出,最后的结果是甲乙都会承认杀人。因为对本人来说,不管对方承认不承认,自己承认总比不承认好。如果对方不承认,自己承认相比不承认等于 从判刑 2 年改为无罪释放;如果对方承认,自己承认相比不承认相当于从判刑 20 年减到了 10 年。这样,对甲乙双方来说,最佳的选择都是承认杀人。这个结果与他们是否真的杀了人无关,即使他们没有杀人,也会承认杀人。由于特定的选择条件,本来对双方最有利的结局(都不承认杀人,各被判刑 2 年)不会出 现,出现的是对双方都不利的结
3、果,这就是所谓的“囚犯困境”。我们想想看,“文革”时期坦白从宽、抗拒从严的政策使一大批人承认了自己从没有犯过的“罪 行”,原因就在于此。“囚徒困境”具有非常深刻的含义,它说明了为什么短视地追求自己利益将导致对大家都不利的结局。现实中类似的例子还很多,比如为了图一时的方便,大家都不 按交通规则行事,结果导致交通瘫痪;再比如前些年很多单位拿国家的钱争相发奖金,结果导致了全社会的通货膨胀。不同的是,在囚徒困境模型里只涉及两个人, 如果这种情况重复出现,两个人很容易从失败中吸取教训,从选择承认杀人改为不承认,这样,处境就可以改善。而生活中很多类似囚徒困境的情况涉及到成千上万 的单位或个人,要想让他们一
4、致地改进策略就非常困难。在囚徒困境中,双方都承认杀人是一个稳定的结果,因为任何一方一旦单独离开这个选择,只会使自己的处境变得更坏。在多次重复的情况下,双方可能通过吸取教 训改变策略(都不承认罪行),使双方都能受益。然而这又是一个比较脆弱的均衡,因为任何一方一旦突然改变策略,承认罪行,又可以立刻得利。但这种利益也不 会长久,到了下一次,对方必然也承认罪行,从而回到最初对双方都不利的状况。所以,除非双方都能着眼于长远利益,并克服侥幸的心理,他们才可能走出困境。博弈论的基本概念和分析方法“囚 徒困境”其实是博弈论里一个特定的例子。博弈论又叫对策论,它研究两人或多人对局时,各方如何决定自己的策略,以求
5、得最佳结果。在博弈中各方都有几种可供 选择的着法,各方虽然知道每种对策所导致的后果,但并不知道对方将选择何种着法。它是对利益对立条件下人的选择规律性的客观研究,它不偏袒任何一方,它既 要考虑如何进攻,又要考虑如何防御。博奕论中的对局(game),定义为有一定人数参加(不是变换着的)、每人有一定数目的策略(strategy)。各方的策略给定后,称为一个局 (play)。对所有发生的局都有一个支付数量(payoff),就称为对策。下面我们再举一个例子来说明博弈论的分析方法。设甲、乙二人参加一种游戏,甲有两种选择:A1 或 A2;乙也有两种选择:B1 或 B2。游戏规则规定:如果甲选择 A1,乙选择
6、 B1,则乙付给甲 1 元;如果甲选择 A1,乙选择 B2,甲付给乙 1 元;如果甲选择 A2,乙选择 B1,乙付给甲 2 元;如果甲选择 A2,乙选择 B2,甲付给乙 2 元。我们可以把游戏规则用一个方阵来表示: 这个方阵我们称为甲的支付矩阵,矩阵中的正数表示甲的所得、乙的支付,而负数表示甲的支付、乙的所得。类似地,可以想象,乙也有一个支付矩阵,其中的数字正好跟甲的支付矩阵反号。这样,我们看甲乙二人会如何选择。对乙来说,最有利的选择是 B2,这样他肯定赢钱,至少能得到 1 元。如果选 B1,他不仅不可能赢钱,反而必须付钱。对甲来说,最有利的结果是 A2B1,但他知道,乙不可能选 B1,所以他
7、只能选 A1,这样能把损失降到最低。所以,最后的结果是 A1B2,甲付给乙 1 元。对这个结果,双方都没有改进的余地,如果改变策略只能使自己的处境变得更糟,因而都不愿意改变策略,我们称之 为纳什均衡。在例中,对任何一个局,一方的收入等于另一方的付出,参与各方损益之和为零,称为零和对局。容易看出,零和对局的特点一方的支付矩阵为另一方 支付矩阵的反号。我们知道,经济活动中的商品交换不是零和对局。参与交换的人都能从中得益,所以他们才有参与的积极性。股票市场也不是零和对局。一个正常的股票市场,从总量上看,投资者赚的钱一定大于赔的钱,这是因为股票市场能促进资源优化配置,为社会创造了财富。前面支付矩阵得到
8、的结果1(A1B2)还有一个特点,它是所在行中的最小值,又是所在列中的最大值,我们称之为鞍点。当支付矩阵有鞍点时,双方将稳定在这个点上,不再移动。此策略称为博奕对局的稳定解,简称解。较复杂的博弈方式:混合策略对于没有鞍点的对局,双方将采取碰运气的方式混合使用各种策略。下面举一个例子: 在这个矩阵中,找不一个点,在所在行中为最小,同时在所在列中为最大,所以它没有鞍点。这个对局没有一个稳定的解。设想一下,如果甲选择 A1,乙将选择 B1;如果乙选择 B1,甲又会变为 A2;如果甲变为 A2,乙又会跑到 B2;如果乙到了 B2,甲又会选择 A1如此往 复,永远找不到一个稳定的解。对这样的对局,双方无
9、法推测对方的策略是什么,因此只能碰运气,混合使用各种策略。值得注意的是,混合策略也有均衡解,即按概率分配每种策略,使得结局为最优。这种情况可以引用一个案例来说明(本例为讲座后收集补充)。我们来看一个犯罪者与警察的支付矩阵(假定犯罪者在警察休息时一定作案成功,在警察巡逻时作案一定会被抓住): 这个矩阵的数字含义表示:警察巡逻,犯罪者不作案,双方都没有收益也没有损失;警察巡逻,犯罪者作案,警察因抓到罪犯受到表彰,得到效用 2 单位,罪犯被判 刑丧失效用 2 单位;警察休息,犯罪者不作案,警察休息的很愉快得到效用 2 单位,犯罪者没有收益也没有损失;警察休息,犯罪者作案,警察因失职被处分而丧失 效用
10、 1 单位,罪犯犯罪成功获得效用 1 单位。这个博弈是没有纳什均衡的。但是,如果警察知道犯罪者以 p 的概率选择作案(不作案概率就为1-p),他该怎样采取自己的行动?对警察而言,巡逻的预期效用为0(1-p)+2p= 2p,休息的预期效用为 2(1-p)-1p=2-3p。显然,当 2p2-3p 即 p0.4 的时候,警察最好选择巡逻;反之 2p0 即 q0.33 时,他的理性 选择是作案,反之不作案。在这个博弈中,警察以 0.33 的概率巡逻0.67 的概率休息,犯罪者以 0.4 的概率作案 0.6 的概率不作案构成一个混合纳什均 衡。博弈均衡的一般规律为了总结求解零和对局的一般规律,我们再来看
11、一个更复杂的例子。以下为甲的支付矩阵(乙的支付矩阵与此反号): 在对局中,甲有 4 种选择,乙有 5 种选择,现在来看二人如何选择自己的策略。甲作选择时,会这么考虑:如果自己选 A1,对方为了最大限度降低损失,必然选 B5。同理,如果自己选 A2,对方必然选 B3;如果自己选 A3,对方必然选 B1;如果自己选 A4,对方必然选 B5。比较四个可能出现的结果(表中斜体字):0、4、2、1,对甲最有利的是 4,所以甲会选择 A2。乙作选择时,将这么考虑:如果自己选 B1,对方为了最大限度受益,必然选 A1。同理,如果自己选 B2,对方必然选 A4;如果自己选B3,对方必然选 A2; 如果自己选
12、B4,对方必然选 A1;如果自己选 B5,对方必然选 A3。比较五个可能出现的结果(表中粗体字):9、6、4、8、8,对乙最有利的是 4,所以 乙会选择 B3。最后的结果是 A2B3乙向甲支付 4,这是一个稳定解(也是纳什均衡),无论甲或乙都不会离开这个策略,因为离开将对自己不利。支付值 4 有一个特点,它 是各行的最小值中最大者,同时又是各列中最大值中的最小者,这就是鞍点。由此可以得出求解二人零和对局的一般方法:寻找支付矩阵各行中最小值中的最大者 (Maximin),同时寻找各列中最大值中的最小者(Minimax),如果两者重合,重合点就是对局的鞍点,此时我们称之为纯策略的均衡解。根据支付矩
13、阵横行的 Maximin竖列的 Minimax 求解零和对局的规律,我们再来回顾前面第一个对局中的求解过程。在例中,甲选择的每一个策略中都有一个损失最大的。他会比较所有策略中损失最大的结果中选损失最小的。其他策略可能有得益,但是也可能损失更大。如果对方 是聪明的,就不会制造空子。所以甲将在横行中选择策略 A1(如果选择策略 A2 他可能损失 2,现在顶多损失 1),这是选择最小值中的最大者,即 Maximin。乙选择策略的原则也类似,他将找出同一支付矩阵各列中的最小者,然后比较这些最小值,找出最大的,即 Minimax(也是对他自己的支付矩阵中的 Minimax)如果此结果与甲所选的结果重合,
14、则该对局有解。稳定解所对应的支付值为对局的值。在上例中即为1(A1B2)。博弈矩阵中 MinimaxMaximin 代表最优均衡解的概念有着深刻而普遍的经济学含义。市场均衡中需求和供给的交点即意味着Minimax of demand set(需求方最大值中的最小者)Maximin of supply set(供给方最小值中的最大者)。我们可以通过供求曲线的相交来说明这个道理。如图:D 为某商品的需求线,它代表商品的价格越低,愿意购买的人就越多。例如,当价格为 16 时,购买者为4;价格为 13 时,购买者为 8;价格为 10 时,购买者为 11在这里,可以把需求线看作一个连续变动的过程,当价格
15、一点一点降低时,购买者在一点一点增加。需求线上的每一个点,既代表一个价格,又代表一个消 费者的购买量,该价格是该消费者对该商品的最高出价,一旦售价高于此价格,消费者将放弃购买。所以,需求线代表着一组最高出价的集合,此集合中的元素从高 到低排列,就构成了向右下倾斜的需求线。需求线上的每一个点表示最高出价(该点左边的点的集合)集合中的最低价,也就是 Minimax再看供给线 S,它代表商品的价格越高,愿意出售的人就越多。例如,当价格为 5 时,出售者为 6;价格为 8 时,出售者为 9,当价格为 10 时,出售者为 11 在这里,同样可以把供给线看作一个连续变动的过程,它意味着当价格一点点上升时,
16、出售者会一点点增加。供给线上每一个点都代表一个出售者的最低售价,如果 价格低于这个水平,出售者将放弃出售。所以,供给线代表一组最低售价的集合,此集合中的元素从低到高排列,就构成了向右上爬升的供给线。供给线上的每一个 点表示最低要价(该点左边的点的集合)集合中的最高价,也就是 Maximin.通过市场交易,最后需求线和供给线的交点将形成均衡点,此时有11(个)人愿意以 10(元)的价格购买此商品,同时又有 11(个)人愿意以 10(元)的价 格出售此商品,市场将完全出清。均衡价格 10 既是每个购买者最高出价中的最低价,又是每个出售者最低要价中的最高价,这就是我们前面所说的 Minimax Maximin。此时,市场处于稳定状态,且消费者剩余和生产者剩余达到最大,为最优均衡解。博弈论和信息经济学的简单应用下面来谈博弈论和信息经济学的一些简单案例。有一个居民区,由于没有安装街灯,因此带来了很多不便。于是管理部门准备通过集资来解决这个问题。但在管理者向居民们收费的时候,却出现了问题:因为各个 家庭的收入不同,具体情况也不一样:有的上夜班,有的不上夜班