博弈论中理性人假设的困境

资源描述

《博弈论中理性人假设的困境》由会员分享，可在线阅读，更多相关《博弈论中理性人假设的困境（5页珍藏版）》请在金锄头文库上搜索。

1、博弈论中理性人假设的困境“博弈参与人是理性的”是博弈论的公设，然而理性人假定存在许多博弈困境。囚徒困境与公共地悲剧反映的是个体理性与集体理性之间的冲突；纽科母难题(Newcomb problem) 体现了理性人使胜占优策略原则与最大期望效用原则时的两难；最后通牒博弈与蜈蚣博弈则表现了理性参与人选择过程是理性的而结果是非理性的，其中蜈蚣博弈悖论又称为逆向归纳法悖论；而投票悖论则反映了群体建立加总群体偏好的理性规则的限度。在博弈论中，博弈论专家不仅假定了博弈参与人(player)是理性的 (rational)，而且假定了“所有参与人是理性人”是博弈参与人之间的公共知识(common knowle

2、dge) 公共知识简单说来就是 “我们知道” 的事实。理性人在博弈论中是指具有推理、决策能力并通过选择策略使自己的得益或支付(pay-off) 最大的人。然而，理性的参与人在某些博弈中并不能使自己的得益最大，在另外一些博弈中理性反而成为获得最大得益的障碍，在某些情况下理性人面临难以做出决策的二难，即：“理性人”面临着困境。一、个体理性与集体理性的冲突一个熟知的博弈困境是囚徒博弈。囚徒困境(Prisonersdilemma) 是这样一个博弈：两个囚徒被警察抓住后单独关押，警察给他们的政策是“坦白从宽，抗拒从严”。每个囚徒均面临着两个策略选择“招认”和“不招认”。如果一方“招认” ，另外一方“

3、不招认” ，招认方无罪释放，不招认方将被重判（比如10 年）；如果双方均“招认” ，因无立功表现，每人均被判刑（如5 年），而如果每人均“不招认”，警察抓不到足够的证据证明以前的犯罪，只能对他们目前所犯的罪进行惩戒（如判刑半年）。这个博弈中，两个囚徒均会选择“招认”，因为无论对方选择什么策略，自己选择“招认”是占优策略(dominant strategy)。双方均选择“招认”的策略组合点是纳什均衡(Nash Equilibrium) 点。如果两个囚犯都选择“不招认”策略，结果是最理想的状态。但这个状态是达不到的，因为每个理性的囚徒均会主动偏离这个状态。一个稳定的状态是双方均选择“招认”

4、，这是理性的囚徒难以摆脱的困境。与此类似的是公共地悲剧(tragedy of the commons) 。公共地悲剧是由美国生物学家哈定(G.Hardin)在 1968 年提出的，该问题提出后引起各个领域里的讨论。他说，想象一个对所有牧民开放的牧场，每个牧民的占优策略是尽量多地放牛。因为购买小牛的成本小于当牛长成后被卖出后所得的收益。但是，当每个牧民均作如此思维与策略选择的时候，牧场将被过度放牧而荒芜了。这是一种集体行动的悲剧。哈定说，人口问题，污染问题以及军备竞赛问题，均具有与此相同的结构。哈定这里所说的悲剧是古希腊意义上的。他借用怀特海的话说，悲剧不是不幸，而是事物发展的无情性。

5、即，人类知道这个悲剧，但无法摆脱它发展的必然性。公共地悲剧就是这样的悲剧每个人均能够预先知道悲剧的必然性，因为这个必然性是每个人理性行为的结果，但每个人由于自己的理性，均不会约束自己的策略选择，因而悲剧是不可避免的。囚徒困境与公共地悲剧所反映的是个体的理性行为产生的集体的不合理性行为，体现了个体理性与集体理性的冲突。然而，当人类社会真的要产生如公共地悲剧这样的悲剧的时候，人们的价值观以及相应的社会制度会自动产生一种克服该悲剧的方法来。因而，悲剧并不是不可避免的。囚徒困境与公共地悲剧中的个体的理性是没有任何价值观约束下的理性，与实际中的情况相差甚远。二、理性原则间的冲突1960 年，物理学家

6、威廉纽科姆(William Newcomb)提出了一个策略选择难题。哲学家诺齐克在1969 年纽科姆难题和两个选择原则中转述了这个难题，并称之为纽科姆难题(Newcomb problem) 。然而，“人们从未看到纽科姆本人就该疑难发表文章”。诺齐克认为，纽科姆难题 “是一个漂亮的难题。我真希望它是我提出的。” 不管纽科姆难题是谁提出来的，但它的提出引起了人们尤其是哲学家的广泛争论。它所反映的是理性人决策时的两个原则“最大期望效用原则”(Maximum Expected Utility) 与“占优策略原则”(Dominant Strategy) 之间的冲突。纽科姆难题是这样的：假定有两个黑色的

7、盒子。你无法看到盒子里的东西。1 号盒子里面有1000 元钱；2 号盒子里面或者有1000000 元，或者为0 元（这由神来确定）。你有两个选择：(1)选择全部，即1 号和 2 号盒子；或者 (2)只选择 2 号盒子。假设一个有预测力的神能够预测你将作出的选择。如果他预测你将“选择两个盒子”，他事先不在2 号盒子里放钱，即他使盒子里面的钱数为0；如果神预测到你“只选择2 号盒子” ，他将 1000000 元钱放进2 号盒子里（如果他预测你将使用随机的方法做出选择，他仍使 2 号盒子空着）。我们假定了这个神能够准确预测。有可能的是，这个神的预测能力可能不是100%准确，但足够准确，如90

8、%的准确。具有这个能力的可以是神，或者精灵，或者某个超级生物。这是人和神之间的一个博弈。如果是你，你将“选择两个盒子”还是“只选择2 号盒子”？表 1在神与人的博弈中人的得益附图根据占优策略原则，你应当选择 “取两个盒子的策略” 。因为，神的预测是过去做出的。2 号盒子里的钱的多少是不可更改的，与你现在的选择无关。如果神预测到你将“取两个盒子” ，而你“只取了 2 号盒子”，你所得为0 元，而选择 “取两个盒子” 的策略的所得为1000元， “取两个盒子”的所得比“只取1 个盒子”的收益多1000 元。此时，你应当“取两个盒子” 。而如果神预测到你“只取2 号盒子”，他在 2 号盒子里面放了1

9、000000 元，你如果“只取 2 号盒子”，你的所得为1000000 元，而如果“取两个盒子” ，你的所得为1001000 元， “取两个盒子”比“只取一个盒子”多1000 元。此时，你应当“取两个盒子”。综上所述，“取两个盒子”是占优策略。你应当选择“取两个盒子的策略”。而如果根据最大期望效用原则，你应当选择“只取一个盒子”的策略。因为，假定你选择“取两个盒子” ，神已经预测到这点，他使 2 号盒子里面为0，你的所得是1000 元；你“只取 2 号盒子”，神预测到这一点，那么神在2 号盒子里面放了1000000 元，这样你的所得为1000000 元。选择“只取2 号盒子”比“取两个盒子

10、”的所得多1000000 元。因此，你应当选择“只取2 号盒子”的策略。即使神的预测不是100%的准确，只要神的预测准确度超过一定的概率，我们还是应当选择“只取2 号盒子”的策略。因为：假定神的预测是90%的准确，“取两个盒子策略”的期望得益为：0.91000+0.11001000=101000（元）“只取 2 号盒子”的期望所得为：0.10+0.91000000=900000（元）此时，应当选择“只取2 号盒子”。通过计算，只要神预测的准确性超过0.5005，根据最大期望效用原则，我们应当选择 “只取 2 号个盒子”。这两个选择均有理由，但它们不可能同时正确。究竟应当选择“取两个盒子”还

11、是“只取2 号盒子”的策略？加得纳 (Matin Gardner)1973 年在科学美国人杂志数学游戏栏目中邀请读者给出这个难题的答案以及建议，有明确答案的126 封来信中， 89 封信说选择2 号盒子； 37 封信说他们选择取两个盒子。另外有18 人认为这个难题的条件不能满足。对这个难题，哲学家诺齐克、莱维 (Isaac Levi)，均认为应当选择“取两个盒子”，纽约大学政治系著名政治学家勃拉姆兹(Steven Brains)，以及纽科姆本人认为应当选择“只取2 号盒子”。笔者进行了一个实验。本人将这个难题出作本科生博弈论课程的考试题。78 名学生参加了考试。学生事先不知道这是一个没有确

12、定答案的难题。我给了他们这两种选择答案，并给了他们理由，让他们利用他们的分析能力对之进行选择。实验结果是： 62 人选择 “只取 2号盒子”，14 人选择“取两个盒子” ，2 个人不能表明态度。选择“只取2 号盒子”的人数接近“取两个盒子”的人数的4.5 倍。加得纳 (Matin Gardner)的实验结果也是选择“只取2 号盒子”的人多，但比例没有本人这里的实验结果高。见下表。表 2实验结果附图纽科姆难题涉及到人的意志是否是自由的问题。因而，纽科姆难题又称自由意志困境。在博弈论中，博弈论专家预设了博弈参与人具有理性决策能力。但更为基本的是，博弈论预设人可以“自由地”选择策略，即人的意志是

13、自由的。然而在纽科姆难题中人的意志是否是自由的，则是一个问题。如果神能够准确预测并做出正确的决定，表明在人的预测与人的决定之间存在着因果联系。此时，无论人做出什么样的决策，均是神的预测的实现。如果神预测不是绝对准确，可能因为他对这种因果联系的认识不精确而已。基于这样的信念，选择“只取2 号盒子”是合适的。如果人的意志是自由的，神的预测就难以准确。此时，人的理性便能够发挥作用。此时，人应当采用“混合策略” ，即以一定的概率选择“取两个盒子”和“只取2 号盒子策略” ，概率各为 0.5。当然，如果是重复博弈，并且假定神的目标是尽量预测准确人的选择，人与神采取“合作策略”是合理的，即人选择只取2 号

14、盒子，而神预测人将选择“只取2 号盒子”的策略。三、过程理性与结果理性之间的冲突逆向归纳法 (backward induction) 是求解动态博弈均衡的方法。所谓动态博弈是指博弈参与人的行动存在着先后次序，并且后行动的参与人能够观察到前面的行动。逆向归纳法在逻辑上是严密的，然而它存在着“困境”。所谓逆向归纳法是从动态博弈的最后一步往回推，以求解动态博弈的均衡结果。逆向归纳法又称逆推法。它是完全归纳推理，其推理是演绎的，即结论是必然的。我们来看一下最后通牒博弈(ultimatum game) 的均衡。有这样一个动态博弈A、B 两个人分100 元钱。规则规定： A 提出方案， B 对之进行表

15、决。如果B对 A 提出的方案表示同意的话，A、B 就按照 A 提出的方案进行分配，如果B不同意 A 的方案，那么A 和 B 均将一无所有。这是一个完全且完美信息动态博弈(dynamic game with perfect and complete information)。让我们分析这个过程。A 提出方案时，他知道 B是理性人。 B 的行为是可被A 预测的。A 将提出这么一个方案：A 和 B 的所得比例为99.99:0.01，即给 B 留 1 分钱，而将其余99 元 9角 9 分留给自己。此时B面临“同意”和“不同意”的选择：如果B“同意”，B 所得为 1 分钱；如果B “不同意”，他将

16、一无所得。理性的B将选择“同意”这个选择是A 所能够预测的。因此在“最后通牒博弈”中，理性的B 只能得到1 分钱！而A 正是根据B 的理性的选择而使自己利益最大。当然这不是实际情况，有博弈论专家对这个问题进行实验研究（在经济学中实验研究已成时尚，2002 年诺贝尔经济学奖获得者卡尔曼是实验经济学研究的先驱）。根据宾谟 (K Binmore) ， “实验结果呈现多样化，但是参与人A 提出的方案很可能在50:50 附近；而对参与人B而言，如果其分配的数额不少于三分之一，他将趋向于接受。”现在，我们假定B 具有某种程度的非理性。他会向A 发出威胁“如果你不给我足够的份额，我将不同意。 ”A 知道 B 确实不是完全理性的人。A 想，如果不给B 足够数额的钱，B将不同意。因此，在提出分配方案时，A会考虑 B的非理性的程度。一个极端的情况是，如果 A 是理性人，而B极端非理性，那么一个可能的分配方案比例将是0.01:99.99。即 A 得到1 分钱， B得到 99.99 元！在这个例子中，我们看到，人的理性程度与其所得是呈反比关系的。在博弈论中理性人是努力使

展开阅读全文