公共合作中的社会困境与社会正义——基于计算机仿真的经济学跨学科研究• 2012-12-20 11:01:21叶航来源:《经济研究》(京)2012年8期【内容提要】在公共品博弈中,搭便车会导致合作瓦解,这是i个著名的社 会困境大量研究表明,对搭便车进行惩罚,是维护公共合作的有效机制但惩 罚是有成本的,它又会诱发二阶搭便车,进而导致惩罚机制瓦解,这种情形被称 为二阶社会困境如何化解这一困境,是该研究领域最具挑战性的问题之一通 过一个多行为主体(Multi-Agent)演化博弈随机过程的计算机仿真即可证明,在 不改变其他假设的情况下,只要公共甜的回报足够人,惩罚行为就能保持稳定的 演化趋势研究显示,随着公共品回报的不断增加,二阶搭便车对惩罚者的演化 优势会不断缩小;当这种优势足够小时,它就可能被演化过程的随机性所抵消 本文的跨学科研究表明,以公平和公正为宗旨的社会正义是化解社会困境的必要 前提;在人类的公共合作中,正义原则优先于效率原则;而人类天性中的正义感, 则是这一社会规范内部化的产物关键词】公共品博弈/社会困境/利他惩罚/二阶社会困境/社会正义引言在公共品博弈中,合作者对公共品的贡献经放大后在全体参与者中平均分 配;如果所有参与者都选择合作,则每个人都将实现收益最大化,这是一•个帕累 托最优状态。
但由于公共品的非竞争与非排他性质,背叛者可以通过搭便车获取 合作收益,从血获得比合作者更高的净收益从理性人假设岀发,搭便车是i个 占优策略从演化均衡看,不管合作者在人群中的初始比例多大,他们最终都将 被搭便车的背叛者所取代,从而无法形成高效率的社会合作公共品博弈所呈现 的这种个体理性与整体效率之间的矛盾,与囚徒困境、公地悲剧一起,被称为三 大“社会困境” (Dawes, 1980; Messick and Brewer, 1983; Ostrom, 1990)但是,大量的行为实验,比如在囚徒困境(Flood, 1952, 1954).公地悲剧 (Ostrom et al., 1992)、最后通牒(Guth et al., 1982)、信任博弈(Berg et al., 1995)、独裁者博弈(Forsythe et al., 1994).公共品博弈(Bohm, 1972)和礼物 交换博弈(Fehr et al., 1993)-p,研究者都发现,人们并非像经典理论所预测 的那样,必然会通过背叛来增进自身利益这些实验对“经济人”或“理性人” 的自利假设构成了系统性背离(Gintis, 2003) o其中,影响最大的是美国桑塔费 研究院上世纪90年代开展的田野实验:该实验历时10年,以全球15个不同文 化和经济背景的小型社会为样本;结果表明,文化与经济差异虽然会影响人的行 为,但自利假设却没有得到任何样本的支持(Henrich et al., 2001)。
行为实验 提出一个关键问题:在严格的非合作博弈条件下,究竟什么机制导致了合作行为 的出现?而这正是公共品博弈及社会困境研究中最重要的导向性问题与自利假设兼容的解释是互惠理论,包括直接互惠和间接互惠直接互惠认 为,人们之所以寻求合作,是因为他们期望对方也能这样对待自己(Trivers, 1971) o但这个理论的前提是博弈双方长期的重复互动,它无法解释大量存在的 一次性博弈中的合作行为(Gintis, 2000, 2003)间接互惠认为,乐于合作的好 名声可以增加他人与自己合作的儿率(Alexander, 1987)但这个理论的前提是 博弈身份的公开,它无法解释大量存在的匿名博弈中的合作行为(Fehr and G chter, 2000)1992年,人类学家们发现惩罚背叛是早期人类社会维护公共合作的重要机 制(Boyd and Richerson) o 1995年,动物学家证实,惩罚是社会性动物维护合 作的重要手段(Clutton-Brock and卩arker) o 2002年,实验经济学家证实利他 惩罚可以显著提高群体的合作水1Z (Fehr and G chter) □至此,惩罚或利他惩罚 成为化解社会困境的重要理论范式,引起了研究者的普遍关注(Fehr and Schmidt, 1999, 2003; Boyd et al., 2003; Bowles and Gintis, 2004; Henrich, 2004, 2006) o 2004年8月,《科学》杂志刊登了一篇由神经科学家与经济学家共同完 成的研究报告,报告他们通过正电子断层扫描(PET)发现了利他惩罚的神经基础 (De Quervain et al., 2004)。
①2006年4月,英国心理学家科尔曼(Andrew Colman)发表于《自然》杂志的 评论指出,惩罚不是免费午餐,惩罚本身是有成本的;除了需要消耗时间和精力, 惩罚者还要承受被报复的风险;这样就可能产生“二阶搭便车”行为从演化逻 辑看,惩罚者将被演化优势更大的二阶搭便车者所取代血一旦人群全部由不施 行惩罚的合作者组成吋,背叛者乂会侵入该群体,并逐步取代合作者这就是所 谓的“二阶社会困境”科尔曼认为,“看来,我们现在需要用对惩罚的解释来 取代对合作的解释” (Colman, 2006)2006年至今,大量研究用绕化解二阶社会困境展开(GUrerk et al., 2006; Henrich et al., 2006; Gintis, 2008; Janssen and Bushman, 2008; De Silva et al., 2009; Pennisi, 2009)其中,影响最大的是一个由演化动力学家和数 学家提出的“自由选择”模型他们在公共殆博弈中引入一种被称为“非参与” (non-participant)的策略性行为,并假设非参与者可以自由选择是否加入一场 合作事业在《科学》和《自然》杂志发表的系列研究报告中,他们通过多行为 主体演化博弈随机过程的计算机仿真证明,如果允许博弈者h由选择,就能够化 解二阶社会困境(Hauert et al., 2007; Sigmund et al., 2010)。
但研究合作问题的著名人类学家博伊徳(Robert Boyd)却在《科学》杂志和 《英国皇家学会会刊》撰文指出,自由选择需要依赖极强的假设:模型中的公共 产品必须是排他性的,否则放弃从该物品上受益便不再是一种可能的选择,而“非 排他性”则被认为是公共品更一般的属性因此,这个模型“只能解释很少一部 分符合这些假设的情形”,而“现在的挑战,便是解释惩罚如何能够在其他情形 卜产生” (Boyd and Mathew, 2007; Mathew and Boyd, 2009)为了在一般条件下化解二阶社会困境,博伊德和杰斐提出了 “协调惩罚” (Boyd et al., 2010)和“联合惩罚” (Jaffe and Zaballa, 2010)模型计算机 仿真结果表明,惩罚者如果能就惩罚达成共识或彼此分摊成本,就能化解二阶社 会困境但是,“协调惩罚”或者“联合惩罚”本身就是一种合作行为;用來解 释合作的形成,无异于用合作解释合作;它不但使研究陷入循环论证,而且改变 了公共殆博弈的非合作博弈性质(Ye et al., 2011)是否能在不改变公共品博弈基本属性的条件下化解二阶社会困境?通过一 个多行为主体演化博弈随机过程的计算机仿真,我们发现:如果公共品的冋报足 够大,惩罚行为就能保持稳定的演化趋势,从而有效化解二阶社会困境。
通过进 一步研究,我们揭示了其中的机理:随着公共品回报的不断增加,二阶搭便车对 惩罚者的演化优势会不断缩小;半这种优势足够小时,它就可能被演化过程的随 机性所抵消这一研究结果表明:以公平和公正为宗旨的社会正义是化解社会困 境的必要前提,在人类的公共合作中,正义原则必须优先于效率原则;而人类天 性中的正义感,则是这一社会规范内部化的产物二、假设与模型本节根据演化博弈的方法,通过数学建模对引言中讨论的公共品博弈案例进 行梳理,并在此基础上提出我们化解二阶社会困境的模型假设一个n人公共品博弈有两种策略行为者其中以为合作者的个数,y为背叛者的个数,设c为合作成本辽为公共品回报乘数如果所有博弈者都选择合作即n=x,则该群体 的总回报P和每个博弈者的个人回报R都将实现 帕累托最优:但由于公共品的非竞争与非排他性质,合作回报将在所有博弈者之间平均分配即使一个不对公 共合作做任何贡献的背叛者也可以通过搭便车获 取合作收益片,从而超过合作者的回报匕:按照理性人假设,该博弈的纳什均衡为所有博弈者都不对公共品作贡献从 演化角度看,不论合作者在初始人群中的比例多大,他们最终都将被演化优势更 大的背叛者取代,其演化均衡为n = yo如此,该博弈的总冋报P和个人冋报均为零,从而使群体陷入社会困境:P= =0(3)假设存在惩罚者z,他们不但对公共品做贡献,而且会惩罚背叛者。
若惩罚强度大于等于合作成本c,合作者的回报将大于等于背叛者,从而使群体免于陷入社会困境:(4)但惩罚不是免费午餐,既需要耗费时间和精力,还可能承受被报复的风险若实施惩罚的成本为了,则合作者的回报匕就将大于惩罚者的回报R:(5)按照理性人假设,上述情形将诱发二阶搭便车,其纳什均衡为所有博弈者都 不作惩罚,即n = x当群体全都由不惩罚的合作者组成吋,背叛者就可以轻易 地侵入进来,其最终演化均衡为n = y于是合作秩序再次面临崩溃,这种状况 被称为二阶社会困境为化解二阶社会困境,研究者引入非参与者,并假定他们可以获得一•个不依 赖公共合作的独立收益若搭便车的人很多,独立收益将大于博弈收益,人们 可以选择退出博弈;若合作的人很多,独立收益乂小于博弈收益,人们乂会重新 参与博弈模型的这一内在机制,避免了公共合作被锁定在社会困境状态:Py =0y
为在一般条件下化解二阶社会困境,我们将在不增加其他假设的情况下考察 惩罚机制的演化均衡:假设在一•项非排他性的门人公共晶博弈中,有x个合作者、 y个背叛者和z个惩罚者(i = l, 2, —, n)o为代博弈理论止在经历经典博弈论基础范式的三大转变,即理性假设向BPC 假设②的转变,策略博弈向行为博弈的转变,纳什均衡向演化均衡的转变(Gintis, 2009; Camerer, 2003; Gould, 2002)考察公共品博弈的演化均衡需要将博弈 过程置于一个复制动态过程中,其基本方法是把博弈者的博弈回报(payoff)与博 弈者的演化适应度(fitness)相关联,并把适应度的高低作为博弈者改变其策略 性行为的主要依据(Smith and Price, 1973;史密斯,1982;诺瓦克,2006) 在生物学或生态学中,适应度被定义为“生命有机体预期的后代数量”(Smith, 1989; Gintis, 2009)事实上,这一定义可以在多重意义上描述生物体的复制 动态,例如基因复制、个体繁衍,以及策略学习和策略更新过程随机性是演化过程的重要特性,它包括来自行为主体内部的随机变异以及來 自外部环境的随机扰动(Fudenberg et al., 2004)。
演化随机性是过程的随机性, 而不是结果的随机性(Gell-Mann, 1994)在复杂系统中,演化过程的随机性往 往会导致某种“秩序涌现”的确定性结果社会科学研究的对象,比如经济系统 和人类的社会行为就是一个由多。