合作抑或竞争——经验积累对博弈策略选择的影响

上传人:蜀歌 文档编号:148738915 上传时间:2020-10-22 格式:PDF 页数:65 大小:1.06MB
返回 下载 相关 举报
合作抑或竞争——经验积累对博弈策略选择的影响_第1页
第1页 / 共65页
合作抑或竞争——经验积累对博弈策略选择的影响_第2页
第2页 / 共65页
合作抑或竞争——经验积累对博弈策略选择的影响_第3页
第3页 / 共65页
合作抑或竞争——经验积累对博弈策略选择的影响_第4页
第4页 / 共65页
合作抑或竞争——经验积累对博弈策略选择的影响_第5页
第5页 / 共65页
点击查看更多>>
资源描述

《合作抑或竞争——经验积累对博弈策略选择的影响》由会员分享,可在线阅读,更多相关《合作抑或竞争——经验积累对博弈策略选择的影响(65页珍藏版)》请在金锄头文库上搜索。

1、分分类类号号密密级级U D C学学校校代代码码硕士研究生学位论文合合作作抑抑或或竞竞争争经经验验积积累累对对博博弈弈策策略略选选择择的的影影响响学学院院(部部、所所):统统计计与与数数学学学学院院专专业:统计学业:统计学研研究究方方向:合作博弈向:合作博弈姓姓名:管晴园名:管晴园导导师:石磊教授师:石磊教授论文起止时间:2011 年 4 月2012 年 3 月学位论文原创性声明声明:本人所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。 尽我所知, 除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作品成果。 对本文的研究做出重要贡献的个人和集体,均

2、已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。论文作者签名:日期:年月日学位论文版权使用授权书本人完全了解云南财经大学有关保留、 使用学位论文的规定, 即:学校有权保留并向国家有关部门或机构送交论文和论文电子版, 允许学位论文被查阅或借阅;学校可以公布学位论文的全部或部分内容,可以采用影印、缩印或其它复制手段保存、汇编、发表学位论文;授权学校将学位论文的全文或部分内容编入、提供有关数据库进行检索。(保密的学位论文在解密后遵循此规定)论文作者签名:导师签名:日期:年月日日期:年月日摘要I摘摘要要当前已有大量研究讨论了亲缘系数与互惠系数、空间异质性、退出成本、系统非对称等各种影

3、响因素对合作系统形成与维持的作用,其中讨论经验积累对博弈选择或合作演化的影响的工作往往与对学习过程的研究结合在一起。大量对学习过程的研究,尤其是对强化学习模型和信念学习模型的研究,本身就是承认了针对特定博弈的特殊经验的积累能够影响个体的策略选择。而个体的各种特殊经验汇集而成的一般经验应该也对个体的策略选择存在影响,因而本文尝试通过实验方法来研究个体一般经验的积累对其博弈选择的影响。本文以 Dreber et al.(2008)的实验为基础设计并组织了四次实验。四次实验分为两组大三组与大一组,分别对大三与大一的本科学生进行,除此之外各次实验的实验设计完全一致。 在实验数据的基础上, 本文利用 M

4、ann-Whitney检验与列联表齐性检验考察了大三与大一实验组的实验结果的差异,并构建广义线性模型讨论了一般经验的积累对个体合作策略选择的影响。本文通过 Mann-Whitney 检验与列联表齐性检验发现: 大三组实验参与者与大一组实验参与者相比不合作使用率(fd)更高,合作使用率(fc)与惩罚使用率(fp)更低,并获得了相对更高的平均收益(ap) 。而为了考察大三组实验参与者与大一组实验参与者在策略选择上的差异是否源自它们的一般经验的差异, 本文建立了误差服从二项分布、 连接函数为 logit形式的广义线性模型来考察合作使用率(fc) 、不合作使用率(fd)与惩罚使用率(fp)的影响因素。

5、通过三个模型发现:在控制了其他影响因素后,大三组实验参与者比大一组实验参与者更多地使用了不合作策略,而更少地使用了合作与惩罚策略,这与之前非参数检验的结果是一致的;而在同一实验组内部,实验参与者的年龄越大,使用合作策略越多,使用不合作策略越少,而年龄对惩罚策略的使用没有表现出显著影响。摘要II本文通过讨论还发现,与女生相比,男生在实验中更多地使用了合作与惩罚策略,而更少使用不合作策略。本文的研究可以向两个方向延展:第一,必须进一步讨论当实验的收益矩阵改变时是否还能得到相同的结果,即本文所得的结论是否带有一般性,是否可以推广。第二,可以进一步研究在非对称的博弈系统中一般经验积累的作用。关关键键词

6、词:一般经验;策略选择;实验abstractIIIabstractExtensive research have discussed the coefficient of relationship, mutual coefficient,spatial heterogeneity, exit costs, asymmetric and other other factors affecting the for-mation and maintenance of the cooperative system, in which the role of experience isoften dis

7、cussed together with the learning process. A lot of research on the learningprocess,especially thediscussionsaboutreinforcementlearningmodelandbelief learning model suggest that the special experience of a game has effect onindividuals action in this particular game. So we guess that the general exp

8、eriencepooled form special experience should also has effect on individuals action in a game,and thus we try to discuss the effect of general experience through some experiments.We organize four experiments based on the games of Dreber et al. (2008) with thesubjects of undergraduate student. There a

9、re two groups of the experiments: gamesfor grade three and games for grade one, and all of the four games have same design.We examine the game results with Mann-Whitney test and Contingency table test,and discuss the effect of general experience on subjects action with Generalizedlinear model.With M

10、ann-Whitney test and Contingency table test we find that compared withsubjects of grade one, subjects of grade three use more “defect”, less “cooperate” andless “punish”, and get higher payoff.In order to find out whether the action differences between grade three subjects andgrade one subjects are

11、derived from the differences of their general experience, weuse logit model, a kind of Generalized linear model, to investigate the influencingfactors that affect the subjects action. We find that with other factors controlled,subjects grade and age have significant impact on their action. Subjects

12、of gradeabstractIVthree use more “defect”, less ”cooperate” and less “punish” than grade one subjects,which is consistent with the results of non-parametric test; and within the sameexperiment, older subjects use more “cooperate” and less “defect” than younger ones,but the same “punish” with them.We

13、 also find that compared with female, male use more “cooperate”, more “punish”and less “defect” in the games.Two questions should be discussed in further research: First, will same results beobserved when the payoff matrix of the game changes? Second, what is the role ofgeneral experience in asymmet

14、ric system?Key Words: general experience; individual action; experiment.目录V目 录第一章 引言.1第二章 实验设计与分析方法简介.6第一节实验设计.6一、二人博弈的囚徒困境模型.6二、Dreber et al.(2008)的实验 .8三、本文的实验设计.10第二节实验的实现实验程序的简单介绍.12第三节非参数检验方法简介.16一、假设检验简述.16二、Mann-Whitney 检验简介.17三、列联表齐性检验的简介.19第四节广义线性模型简介.20一、模型形式.20二、参数估计.23三、拟合优度及自变量选择.24第三章

15、实验结果.26第一节四次实验结果展示.26第二节大一、大三实验组内部 fc、fd、fp、ap 的非参数检验.33一、大一、大三实验组内 fc、fd、fp、ap 的 Mann-Whitney 检验.33二、大一、大三实验组内 fc、fd、fp 的列联表齐性检验.34三、对两种检验以及检验结果的讨论.35第三节大一与大三实验组之间 fc、fd、fp、ap 的非参数检验.37第四章 实验数据的建模分析.40第一节建模的准备.40第二节模型的构建与结果.43目录VI一、使用实验数据拟合针对合作次数(c)建立的 logit 模型.43二、使用实验数据拟合针对不合作次数(d)建立的 logit 模型.44

16、三、使用实验数据拟合针对惩罚次数(p)建立的 logit 模型.45第五章 讨论与结论.48第一节实验结果的讨论.48一、一般经验积累作用的解释.49二、其他影响因素的讨论.49第二节本文的结论.50参考文献.52致谢.56本人在学期间发表的研究成果.57第一章引言1第一章 引言自 20 世纪中页起,合作逐渐成为生物学、经济学等众多学科的研究热点。这些研究讨论了各种影响因素对合作系统形成与维持的作用,比如亲缘系数与互惠系数(Hamilton,1964,1970,1972;Trivers ,1971;Axelrod, 1984 等) 、空间异质性(Hamilton,1970;Frank,1998

17、 等) 、退出成本(Hirschman,1970;林毅夫,1992,2000;张军,1999 等) 、系统非对称(Wang & Shi,2010;wanget al.,2008,2009,2010;Ahn et al.,2007 等)等等。而对个体经验的积累在合作演化或者博弈策略选择中所起作用的讨论,基本都是与对学习过程(也称学习理论或学习模型)的研究结合在一起。对学习过程的研究最早源于心理学,而后在认知行为学、博弈论、生物学、计算机科学、经济学等学科内逐渐展开。Brenner(2004)详细总结了学习过程研究的发展历程及成果,本文在此简要介绍博弈论研究中对学习过程的讨论。博弈理论家对学习过程

18、的研究源自于对经典博弈理论中“绝对理性”这一条件的怀疑。 一些博弈理论家 (Camerer, 1999; Fudenberg & Levine,1995, 1998等)认为,大多数非合作博弈理论集中研究的均衡问题,尤其是博弈规则、局中人理性以及其支付函数都是共同知识( “绝对理性”的主要要求)的条件下产生的纳什均衡及其精炼解, “在理论上和实证上都存在许多问题” (Fudenberg &Levine,1998) 。因而,他们开始关注个体的学习过程,研究个体如何对过去行为进行学习从而形成新的行为选择,提出了许多学习模型。这些模型大多可以归入强化学习(reinforcement learning)

19、模型与信念学习(belief learning)模型两大类。在强化学习模型中,博弈的参与者只能得到自己的信息而对其他博弈参与者的情况一无所知。个体只根据自己以往的行为(或策略选择)与所得的收益来调整下一步的行为(或策略) ,以使得能获得更高收益的行为(或策略选择)第一章引言2被更多地采用,使收益较低的行为(或策略选择)使用减少。即参与者根据对自己的策略和收益的经验来调整下一步的行动。心理学家 Bush 与 Mosteller 在 1955 年提出了随机学习模型(Bush-Mosteller模型) ,是最早的强化学习模型。Brgers & Sarin(1997)将 Bush-Mosteller

20、模型的一个版本引入博弈研究,发现在一个连续的时间限制内,该学习模型收敛于进化博弈理论的复制者动态模型。这为进化博弈理论提供了一个非生物学解释。Roth & Erev(1995)组织了三组扩展型博弈实验:公共品游戏、市场游戏与最后通牒游戏(也称分钱游戏) ,并引入一族动态学习模型来模拟实验者的行为。他们发现前两组游戏都很快地达到了理论均衡,而各种动态学习模型对游戏的模拟效果也与实际情况一致;最后通牒游戏没有实现理论均衡,而动态学习模型的模拟结果也对实验条件十分敏感,没有收敛于理论均衡,但其变动方向与实际实验一致。他们所讨论的学习模型一般被称为 Roth-Erev 模型。而后,Erev & Rot

21、h(1998)通过使用不同的学习模型来模拟各种不同的博弈实验发现,在预测参与者行动方面,即使是一个单参数的强化学习模型的都要稳健地好于博弈均衡的预测。而更早地,Arthur (1991)提出了名为“参数化的学习机器” (parameterizedlearning automaton)的强化学习模型,该模型由于可以调整学习过程中的学习速度而显得相当灵活。 Arthur 的模型中学习速度的两个极端的情况是: 恒定的学习速度和按双曲线形式递减的学习速度。 前者的边界情况与 BushMosteller 模型相同,后者则与 RothErev 模型相同。在信念学习模型中,博弈的参与者除了了解自己以往的行为

22、(或策略选择)与收益,还能够了解其他参与者以往的行为(或策略选择) ,并对其他参与者接下来的行为形成预期,然后参与者根据这些预期来选择自己下一步的行为(或策略选择) 。即参与者根据对博弈双方以往行动的经验来调整自己的下一步行动。对信念学习模型最早的研究是 Brown(1951)进行的。信念学习模型的分类第一章引言3较多,在博弈研究中最常使用的是虚拟博弈模型。Fudenberg & Levine(1995)研究了一个虚拟博弈模型的变种。该模型中参与者采用各种行动的概率是采取该行动的期望收益的指数函数,其中计算期望收益时所需的对手采取所有不同行动的概率则通过历史信息得到。该文献指出这样的行为策略在

23、独立同分布的环境中是近似最优的,在不考虑对手的行为策略时可以保证是极小极大化的。Cheung & Friedman(1997)通过对信念学习模型的研究发现,参与者个体间在学习方式上存在异质性:一些参与者可以用虚拟博弈(长记忆)模型很好地刻画,另一些则可以由古诺(Cournot)学习(短记忆)模型刻画,还有一些则介于前两者之间。Cammer & Ho(1999,2002) 提出并讨论了不同博弈形式下的经验-权重吸引模型(Experience-Weighted Attraction model) ,将强化学习模型与信念学习模型进行了融合。通过改变参数的取值,该模型可以转化为不同的强化学习模型、信念

24、学习模型或两者的结合体,因而显得更具一般性。除了强化学习模型与信念学习模型之外,也有研究者讨论其他形式的学习模型或使用其他方法来考察博弈中的学习过程。如 Slonim & Roth(1998)组织了一次最后通牒游戏,并在参与者无实验经验和有经验时都观察他们的行为。该文献使用了一组广义线性模型来研究参与者双方的行为,发现:当参与者无实验经验时,风险的大小对参与者行为的影响很小;而当参与者累积了一定的实验经验时,风险越高,参与者拒绝分钱方案的比率越低,且高风险下分钱者给对手提供的金额下降缓慢。实际上,在强化学习模型与信念学习模型中,博弈参与者都是根据自己所了解的博弈历史(自己的或他人的)也就是参与

25、者对该博弈的经验来调整自己的行为或策略,这本身就暗含了对经验积累的影响的认可。也就是说在博弈中,参与者对博弈的特定经验能够影响参与者的策略选择。而对于个人而言,众多特定经验的积累又构成了一般经验,即个人在长年的学习、工作、第一章引言4生活中所积累下的知识、信息、能力以及价值观等诸多内容。那么我们自然会考虑这样的问题:个人的一般经验是否会对他在特定博弈中的策略选择产生影响,是否一般经验更多的个体更愿意合作?对于这个问题,我们在现实中有着一些认识和感知的,比如年长者与年轻者行事方式往往并不相同,我们无法仅凭这些感知做出断言。我们无法断言的原因在于影响个人行为的因素很多,而在现实中要控制其他因素来专

26、门观察一般经验的作用太过困难。所以本文考虑通过实验的方法,控制住其他可能的因素来考察个体一般经验积累的差异所带来的影响。要进行实验,首要问题是确定如何衡量个体的一般经验。由于一般经验是由众多特定经验汇集而成的,而一般来说个体年龄越大,其经历也越多,而对于学生这类群体,本文认为个体的年级也应该可以较好的反映其一般经验的积累程度。因此,本文针对大三与大一的本科学生设计了两组共四次实验,通过实验讨论了一般经验积累的差异对实验参与者策略选择的影响。而已有研究表明,博弈系统中个体间的亲缘关系、互惠关系可能对个体的策略选择存在影响(Hamilton,1964,1970,1972 等) ;同时系统对称与否也

27、可能对个体的策略选择存在影响,即个体在地位、收益、信息等方面的不对等对对个体的策略选择存在影响(Wang & Shi,2010;Wang et al.,2008,2009,2010等) 。为了消除这些因素的影响,本文考虑在实验中使各参与者在地位与关系上保持一致,即尽力使参与者处于平等的地位并消除他们之间亲疏关系的差异。为此,实验必须匿名进行,而实验规则对每位参与者也完全一致。另一方面,为了能清晰看到一般经验的作用,本文认为保证参与者对该实验的特定经验完全一致是有必要的,所以四次实验的参与者都是选择了没有参加过类似实验的大学生。第二章将详细介绍这四次实验的实验设计,说明实验是如何展开的;简要介绍

28、单次实验的实际进行过程和为实验编制的程序;简要介绍本文所使用的统计方法。第三章起,将根据实验的结果来讨论一般经验积累的差异对实验参与第一章引言5者策略选择的影响。第三章将详细介绍实验的结果,并利用非参数方法检验大一实验组与大三实验组的实验结果间的差异;第四章将对实验数据建立广义线性模型,在控制其他可变因素的条件下考察一般经验对策略选择的影响;第五章将详细讨论第三和第四章的研究结果,总结本文的结论,并指出本文研究的不足以及进一步研究的方向。第二章实验设计与分析方法简介6第二章 实验设计与分析方法简介本文的研究基于从 2010 年 6 月至 2011 年 11 月间进行的四次实验。本章将介绍这四次

29、实验的实验设计、实验所使用的计算机程序以及分析实验数据所使用的统计方法。第一节实验设计本文研究的四次实验是以 Dreber et al(2008)的实验为蓝本,改变了部分实验控制条件而设计的,因此为了清晰明了地说明这四次实验的实验设计,需要简要介绍 Dreber et al(2008)的实验,并解释选择以他们的实验为蓝本的原因。而在说明这些之前,本文将首先简要介绍经典的二人博弈囚徒困境模型,因为无论是 Dreber et al (2008) 的实验还是本文的四次实验都是由此经典的囚徒困境模型衍生而来的。一、二人博弈的囚徒困境模型1二人博弈的囚徒困境模型(以下提及的囚徒困境模型均是指二人博弈的囚

30、徒困境模型) ,也称二人博弈的囚徒困境游戏,是合作博弈的一个经典模型。在这个经典模型中,有两个参与者,他们在游戏中都有两个策略可供选择合作(策略 C)或不合作(策略 D) ,他们将通过策略博弈来获得自己的收益。游戏开始时,两个参与者同时选择自己将执行的策略,他们无法交流,也不知道对方将采取什么策略。双方都选定的策略之后,双方的收益也就根据策略而确定。表 2.1 就是单次囚徒困境博弈的收益矩阵。表 2.1 中,0a 是双方都合作时参与者所能获得的收益,1a 是参与者背叛合作1对于二人博弈的囚徒困境模型的介绍可参见 Axelrod 所著的The Evolution of Cooperation (

31、1984)一书的第一章。第二章实验设计与分析方法简介7者所能获得的收益,2a 是采用合作策略的参与者被背叛时获得的收益,3a 而是参与者相互背叛时所得的收益。要使囚徒困境模型成立,关键的是四种收益0a 、1a 、2a 、3a 之间的大小排序。当满足1032a a a a 且012a (a +a )/2时,给定对手策略,参与者不合作总比合作获得的收益多,但双方都不合作的收益又要比双方都合作时要少,且参与者无法通过轮流背叛来获得高于双方合作时的收益,这就是“困境” 。表 2.1 单次囚徒困境博弈的收益矩阵列参与者策略合作(C)不合作(D)行参与者策略合作(C)0a,0a2a,1a不合作(D)1a,

32、2a3a,3a注:0a、1a、2a表示参与者在对应策略下的收益。逗号前面的是行参与者的收益,后面的是列参与者的收益。当以上的囚徒困境博弈只进行一次时,就是单次博弈的囚徒困境模型;而当同样的博弈进行多次时,就是重复博弈的囚徒困境模型。在单次博弈的囚徒困境模型中,唯一的纳什均衡是双方都采用不合作策略。而重复博弈的囚徒困境模型按重复次数是否有限又分为有限重复的囚徒困境模型和无限重复的囚徒困境模型。有限重复的囚徒困境模型的结果与单次博弈的囚徒困境模型相同。由于追求利益最大化的参与者在最后一次博弈时一定会背叛,那么他在倒数第二次也没有合作的动力,由此推演,双方在博弈一开始就都会选择背叛,结果与单次博弈的

33、囚徒困境模型相同。但在无限重复的囚徒困境模型中情况就会发生变化,因为参与者不知道博弈何时才会结束,那么他们始终是有动力采用合作以避免在之后的博弈中陷入一起背叛的低收益状况。第二章实验设计与分析方法简介8而本文的实验是不能直接使用经典的囚徒困境模型的。对于单次博弈与有限重复博弈的囚徒困境模型,本身存在唯一的纳什均衡,参与者很容易明白“不合作” 就是好策略。 而 Axelrod 在其所著的 The Evolution of Cooperation(1984)一书的第二章中通过两次计算机竞赛的结果展示了 “以牙还牙” 策略 (亦称 “一报还一报”策略)在不确定次数的重复博弈的囚徒困境游戏中的优秀表现

34、。时至今日, “以牙还牙”策略已是声名在外,大多数接触过博弈论的学生都对这一策略及其在无限重复博弈的囚徒困境游戏中的有效性有所了解。但本文的实验不希望参与者有对实验的特定经验,即不能让参与者事先确定在游戏中究竟什么是好的策略,因此本文的实验必须在经典的囚徒困境模型基础上进行变化。二、Dreber et al.(2008)的实验Dreber et al.(2008)在囚徒困境模型中引入了“有代价的惩罚”策略(以下简称惩罚策略) 来考察惩罚策略在系统的合作演化中的作用。 Dreber et al. (2008)设计了四个实验,分别记为 C1、C2、T1、T2 实验。每个实验都进行许多轮(inter

35、action) ,每轮中博弈双方匿名随机配对进行数回合(round)的交互博弈,双方同时选择策略。实验参与者只被告知与同一对手完成一回合博弈后还进行下一回合的概率是 0.75,但不知道究竟要与当前对手完成多少回合的博弈。当一轮结束以后,参与者重新随机配对进行下一轮博弈。C1、C2 实验只提供给参与者合作(C)与不合作(D)两种策略,T1、T2实验则提供合作(C) 、不合作(D)与惩罚(P)三种策略。C1、T1 实验中采用合作策略意味着己方损失 1 个单位使对方增加 2 各单位,C2、T2 实验中采用合作策略意味着己方损失 1 个单位使对方增加 3 个单位,而四个实验中采用不合作策略均导致己方增

36、加 1 个单位而使对手损失 1 个单位,采用惩罚策略均导致己方损失 1 个单位而使对手损失 4 个单位。由此可以分别得到四次实验中单次博弈的收益矩阵,在此本文仅给出 T1 实验的收益矩阵(参见表 2.2) ,因为 T1实验正是本文实验的基础。第二章实验设计与分析方法简介9表 2.2 Dreber et al.(2008)进行的 T1 实验的收益矩阵列参与者策略合作(C)不合作(D)惩罚(P)行参与者策略合作(C)1,1-2,3-5,1不合作(D)3,-20,0-3,-2惩罚(P)1,-5-2,-3-5,-5注:该收益矩阵表示 T1 实验中一次博弈后博弈双方在对应策略下的收益。逗号前的是行参与者

37、的收益,逗号后是列参与者的收益。从 T1 实验的收益矩阵不难看出,在给定对方的策略时,参与者采用不合作策略所得的收益总要高于采用合作策略所得的收益,而双方都采用不合作策略时个人所得收益比双方都采用合作策略时要低。且参与者无法通过轮流采用不合作策略来获得高于双方合作时的收益。此外,可以看到当给定对方策略时,参与者采用合作策略和采用惩罚策略所能得到的收益是一样的。选择以 T1 实验为基础构建本文的四次实验的理由如下:1.现实中人们(或组织)有时会对背叛自己的对象进行有代价的惩罚,且这种行为并不罕见。近年来有许多文章讨论了有代价的惩罚在系统的合作演化中的作用(Yamagishi,1986;Boyd

38、& Lorberbaum,1992;Dreber et al.,2008;Randet al.,2009;Wu et al.,2009 等) ,甚至有研究指出在单次的博弈中惩罚策略的存在也可能促进了合作(Fehr & Gachter,2002) 。因此,在实验中加入对惩罚的考虑是符合现实的,有其理论意义的。2.T1 实验在经典的囚徒困境游戏中加入了惩罚策略,这带来了更多的变数,使得在经典囚徒困境游戏中的好策略在 T1 实验中不一定也是好策略,同时也使得参与者要在短时间内依靠纯理性分析出 T1 实验中的好策略十分困难。这些就使得第一次参加实验的参与者不再拥有对实验的特定经验,他们只能依靠自己平时

39、积累的知识、能力以及其他的一般性经验来进行临场的分析判断,而这正第二章实验设计与分析方法简介10是本文所希望的。3.T2 实验与 T1 实验相比,双方都采用合作策略时的收益增加了,即参与者采用不合作策略的机会成本加大,这是有利于系统中合作形成的。讨论在一个更有利于合作形成的条件下一般经验对参与者策略选择的影响,这是下一步希望进行的研究。所以,最终本文以 Dreber et al.(2008)的 T1 实验作为基础设计了两组共四次实验来进行研究。三、本文的实验设计仿照 Dreber et al.(2008)的 T1 实验,我们对大一、大三的本科学生设计了两组共四次实验。实验在云南财经大学统计与数

40、学学院计算机实验室进行。实验参与者均来自于云南省高校, 共记 110 名学生, 其中有 46 名男生, 64 名女生,他们都没有参加类似实验的经验。该实验室中总共有 60 台计算机,每位实验者之间有一个空位,以防止相互交流。我们运用 z-Tree 软件设计了匿名的博弈游戏,在实验中,随机配对的参与者通过计算机屏幕进行策略选择,他们只知道对手的编号而不知道对手的名字。实验将进行多轮(interaction) ,每一轮中参与者与同一对手进行数回合(round)的交互博弈。与 Dreber et al.(2008)的 T1实验一样,参与者只知道与对手完成当前回合后还将进行下一回合博弈的概率是 75%

41、,但参与者不知道最终要与当前对手进行几回合的交互。在一轮结束后,参与者将被重新随机分配,两两配对进行新一轮的交互博弈,如此直至实验结束。在每回合交互完成后,我们向参与者展示博弈双方选择的策略、双方本回合的收益以及参与者自己的总收益。每次实验开始前,我们给参与者详细讲解实验说明。之后我们会提问一至两名同学几个测试问题,以检验他们是否真正理解了实验规则。在正式实验开始前,我们会安排一轮(interaction)训练实验,训练轮结束后参与者若有不明白之处可作询问。参与者都被告知实验结束后他们将获得 15 元的出场费以及最第二章实验设计与分析方法简介11后的总得分数乘以 0.2 元的奖励金。若最后得分

42、为负数,参与者将不能获得额外的奖励,只获得出场费 15 元。每位参与者只能参加一次实验,以保证各次实验的参与者都没有实验经验。我们的两组实验都以 Dreber et al.(2008)的 T1 实验为基础,各次实验中参与者的收益矩阵都相同。每位实验参与者的起始分为 50 单位。在每回合的交互中,参与者都有三个策略可供选择合作(C) 、不合作(D)与惩罚(P) 。合作是指自己损失 1 个单位使对手增加 2 个单位;不合作是指自己增加 1 个单位而使对手损失 1 个单位,;惩罚是指自己损失 1 个单位而使对手损失 4 个单位。由此每位参与者个人的收益矩阵如图 2.1 所示,而博弈双方的收益矩阵则与

43、表2.2 所示的 T1 实验的收益矩阵相同。125303125CDPCDP图 2.1 本文的四次实验的参与者个人的收益矩阵。行策略表示参与者自己选择的策略,列策略表示对手选择的策略,所示的收益表示参与者自己的收益。各次实验的参与者的收益矩阵都是相同的。两组实验之间的区别在于实验的参与者年级不同:一组的参与者是大一学生,另一组的参与者是大三学生。两组实验的具体说明如下:大大一一实实验验组组:这一组包括两次实验,分别在 2010 年 6 月 18 日与 2011 年 11月 27 日进行,依次记为 A1 实验与 A2 实验。A1 实验共有 26 位参与者,其中有11 位男性, 15 位女性,实验参

44、与者平均年龄为 19.92 岁;A1 实验一共进行了24 轮 80 回合。A2 实验共有 30 位参与者,其中有 16 位男性,14 位女性,实验参与者平均年龄为 19.13 岁;A2 实验一共进行了 22 轮 82 回合。大大三三实实验验组组:这一组包括两次实验,分别在 2010 年 6 月 17 日与 2011 年 5月 14 日进行,依次记为 B1 实验与 B2 实验。B1 实验共有 26 位参与者,其中有11 位男性,15 位女性,实验参与者平均年龄为 21.73 岁;B1 实验一共进行了 19第二章实验设计与分析方法简介12轮 80 回合。B2 实验共有 28 位参与者,其中有 8

45、位男性,20 位女性,实验参与者平均年龄为 21.93 岁;B2 实验一共进行了 24 轮 83 回合。第二节实验的实现实验程序的简单介绍在确定实验设计后,本文利用 z-tree 软件编制了实验所需的计算机程序。这一节将对程序进行简单介绍。从运行思路上看,实验分为三步。第一步是将参与者随机配对准备进行试验; 第二步是进行一回合 (round) 的游戏; 第三步是决定当前实验轮 (interaction)是否在这一回合后结束,若“是”则回到第一步进行新一轮的实验,若“否”就回到第二步进行本轮的下一回合游戏。实际中, 实验的第一步即参与者的随机配对是利用 z-tree 软件的菜单命令即可简单完成的

46、。参与者通过终端软件(z-leaf)与实验主控电脑相联接后,参与者的电脑就进入操作界面,此时的操作界面是空白的。当所有参与者都进入操作界面后,主控电脑就可以使用“Treatment”菜单下“Macthing”选项中的“Stranger” 与 “As First Selected Period” 命令将参与者随机配对 (先用 “Stranger”命令将参与者随机配对,再用“As First Selected Period”命令使这一配对在接下来的一轮中固定) 。而实验的第二步与第三步则需要通过编制程序来完成。从程序编制的结构上看,程序分为三部分。第一部分是程序的背景信息;第二部分是让参与者选择策

47、略;第三部分是根据参与者选择的策略计算他们的本回合收益与总收益,并将结果展示给参与者。而在第三部分中也将决定本轮实验是否结束,但这一信息并不告知实验者。编制的程序命令如图 2.2 所示。z-tree 软件的每一个程序文件都包括“Background”与“stage” (如图 2.2 中“do”和“see” )两部分,其中前者就是用来设定程序的背景信息的。在“Background”部分中设定了用于存储参与者总收益的全局变量 (在 “session” 中设定, 记为 TT) 和博弈的收益矩阵 (subjects.do) ,第二章实验设计与分析方法简介13并在“Active screen”项目中加入

48、了文本框以解释参与者可以选择的策略,而每次实验开始前还需要双击“Background”来设定实验参与者的人数与分组数。图 2.2 本文实验的主体程序分为 “Background” 与 “stage” 两部分。 本图展示了 “Background”部分的命令,而“stage”部分则分为“do”和“see”两个阶段。程序的第二部分是通过“do”这一阶段的命令来完成的。当实验开始后,参与者的电脑首先会进入输入界面。根据“subjects.do”中的命令,程序将找到参与者的总收益(总收益包含了起始分)和对手的编号,并展示在输入界面上;同时,程序也在输入界面上给出一个输入框以供参与者输入自己选择的策略。

49、输入框中仅可以输入“1” 、 “2”或“3” ,分别代表“合作” 、 “不合作” 、 “惩罚”三种策略。程序设定参与者必须在 25 秒内输入策略并点击“ok”按钮,否则将视作未选择策略并自动进入“see”阶段。第二章实验设计与分析方法简介14图 2.3 本文实验的主体程序中“do”阶段的命令。根据这阶段的命令,参与者的电脑进入输入界面,向参与者展示对手的编号及其自身的总收益(包括起始分)并给出一个输入框以供参与者输入自己选择的策略。程序的第三部分是通过“see”这一阶段的命令来完成的。此时,参与者的电脑进入输出界面。在“see”阶段,首先是确定每个参与者选择了什么策略,这是通过第一个“subj

50、ects.do”中的命令完成的。要说明的是如果参与者在“do”阶段没有选择策略,那么此处程序就利用随机数为这个参与者随机选择一种策略。在确定了参与者的策略后,程序就根据第二个“subjects.do”中的命令找出参与者的对手选择的策略,并根据双方的策略计算参与者在这一回合的收益。接着,程序就根据“session.do”中的命令计算参与者的总收益并储存于全局变量 TT 中,再按第三个“subjects.do”中的命令找到参与者的总收益和对手的本回合收益。至此,输出界面上将展示参与者的对手的编号、双方选择的策略、双方本回合的收益以及参与者自己的总收益。至此,实验的第二步就完成了。实验的第三步则是通

51、过“see”阶段下“globals.do”中的命令实现的。z-tree 软件的内置变量“RepeatTreatment”是控制程序是否重复执行的,在“globals.do”中当随机数(取值范围为 0 到 1)大于0.75 时, “RepeatTreatment”取 0,不进行下一回合游戏;当随机数小于等于 0.75第二章实验设计与分析方法简介15时, “RepeatTreatment”取 1,继续下一回合游戏。需要说明的是,由于实验时间有限,每轮实验被控制在 9 回合之内,即在第九回合的“see”阶段“RepeatTreatment”强制取 0,这一点与 Wu et al.(2009)的实验是

52、相同的(Wuet al.(2009)在北京完整重复了 Dreber et al.(2008)的实验) 。图 2.4 本文实验的主体程序中“see”阶段的命令。根据这部分命令,程序可以确定参与者选择的策略,计算参与者在本回合的收益与总收益,然后向参与者展示相关信息。同时,第二章实验设计与分析方法简介16根据“globals.do”中的命令,程序将决定是继续下一回合的游戏还是开始新一轮的游戏。在实验正式开始前,会先进行一次试验轮以确保参与者们掌握了实验的规则。而在试验轮之前还需要运行一个辅助程序来为参与者设定起始分。图 2.5 展示了辅助程序, 其中 TT 记录参与者在正式实验中的总收益, Ts

53、记录参与者在试验轮中的总收益,这两者都要在“Background”的“session”项目中先设定。在实际的实验中,正式实验的总回合数被控制在 80 回合左右,以便于对比分析。图 2.5 本文实验的辅助程序。该程序用来设定起始分,其中 TT 记录参与者在正式实验中的总收益,Ts 记录参与者在试验轮中的总收益,这两者都要在“Background”的“session”项目中先设定。第三节非参数检验方法简介一、假设检验简述在利用实验方法或观测方法得到样本后,利用样本对总体位置参数进行假设检验往往是必须的工作。要进行假设检验首先要设立原假设与备择假设,再以原假设成立为前提条件利用各种信息针对要考察的位

54、置参数构建合适的统计第二章实验设计与分析方法简介17量,然后根据统计量的分布与统计量在样本中的实现值来考察样本的显著性水平并判断是否要拒绝原假设。对于位置参数的检验,如果明确总体的分布,那么就可以构建对应的检验统计量。以总体均值的检验来说,如果事先知道总体是正态分布,或者说样本的分布与正态分布相似并且样本量足够大,那么可以构建服从正态分布的检验统计量;如果样本的分布与正态分布相似但却是小样本,那么可以构建服从 t分布的检验统计量(即 t 检验) 。这是对总体分布有足够了解时进行均值检验常用的参数方法。但是实际中我们得到的很多样本数据的总体分布并不明确,所以我们常常希望在不假定总体分布的情况下,

55、仅依靠样本数据本身的信息来进行统计检验,这就是非参数检验。对于两独立样本位置参数的检验问题,比较常用的是Mann-Whitney 检验;而对于列联表形式的数据,常用2 检验进行齐性检验。二、Mann-Whitney 检验简介要检验两独立样本的中位数是否相等,常使用 Wilcoxon 秩和检验或Mann-Whitney 检验。这两种检验是等价的。它们只要求假定两总体的分布有相似形状,而不需要对称。假设从两总体X与Y中得到样本观测12 ,mx xx与12 ,ny yy,要检验两总体X与Y的中位数XM与YM 是否相等。检验的原假设是: “这两样本所属的总体的中位数相等” ,即XYMM;备择假设为:X

56、YMM或XYMM或XYMM。Wilcoxon 秩和检验的基本思想:将X与Y的样本观测合并为一个样本,在合并样本中将所有观测按从小到大排列,并依次标记为1,2,nm,称这些标记为各观测的秩。记XW 为X的所有观测在合并样本中的秩的和,YW 为Y的所有观测在合并样本中的秩的和。显然有:第二章实验设计与分析方法简介181(1)()2XYWWmn mn(2.1)当原假设成立时,X与Y的中位数XM与YM相等,则XW与YW应该比较接近。那么当XW(或YW)很小或很大时就有理由怀疑原假设。称XW(或YW)为Wilcoxon 秩和统计量。Mann-Whitney 检验的基本思想是:记XYW为所有的X观测值和Y

57、观测值做比较之后,Y的观测值大于X观测值的个数;而记YXW为Y的观测值大于X观测值的个数。易知:XYYXWWmn(2.2)如果原假设成立,X与Y的中位数XM与YM相等,则XYW与YXW应该相差不多。那么当XYW(或YXW)很小或很大时,就可以怀疑原假设。称XYW(或YXW)为 Mann-Whitney U 统计量。事实上 Wilcoxon 秩和统计量与 Mann-Whitney U 统计量有如下关系:1(1)2YXYWWn n(2.3)1(1)2XYXWWm m(2.4)由此可见,Wilcoxon 秩和统计量与 Mann-Whitney U 统计量实际上是完全等价的。所以人们也通称XW、YW、

58、XYW、YXW为 Mann-Whitney-Wilcoxon 统计量。当合并样本中没有打结(有观测值相等称为打结)情况时,我们可以得到以上统计量的分布并计算检验的精确 p 值;在大样本情况下,我们可以以正态分布来近似这些统计量的分布。但当存在打结情况时,统计量需要进行修正。具体的计算方法可以参见吴喜之老师的非参数统计 (2006)一书,在此不再详述。实际工作中, 我们基本是利用统计软件来完成Mann-Whitney检验 (Wilcoxon第二章实验设计与分析方法简介19秩和检验)的。在 R 软件中,使用 wilcox.test 命令可以直接对数据进行Mann-Whitney 检验。要说明的是在

59、数据存在打结的情况下,wilcox.test 命令不会给出检验的精确 p 值,而是给出大样本正态近似得到的 p 值。三、列联表齐性检验的简介表 2.3 展示了一个二维列联表,其中行因素 A 有 r 种水平(记为 A1至 Ar) ,列因素 B 有 s 种水平(记为 B1至 Bs) 。本文以此为例来介绍列联表齐性检验。用ijp表示第ij 个格子的频数占总频数的理论比例。易知,.()ijijpE nn,此处()ijE n为ijn的数学期望,而相应的第i行的理论比例与第 j 列的理论比例分别记为.1siijjpp与.1rjijipp,进而记给定第i行后第 j 列的条件概率为|.j iijippp。表

60、2.3 一个列联表例子B1Bs合计A1n11n1sn1.Arnr1nrsnr.合计n.1n.sn.列联表齐性检验就是要考察行因素 A 的齐性,原假设为: “| *j ij ipp对于所有不同的i与*i以及所有的 j成立” ,而备择假设为: “原假设的等式至少有一个不成立” 。在原假设成立时,第ij 个格子的期望频数ijE应该等于.ijjiEp n,其中. jp是未知的。 在原假设下, 可以用. jp的估计.jjpnn代替. jp, 这样可以得到第ij 个格子的期望频数为:第二章实验设计与分析方法简介20.ijjiijEp nn nn(2.5)而第ij 个格子的实际观测值为ijn,由此,可以构建

61、 Pearson2统计量:211()rsijijijijQnEE (2.6)当样本量较大时(如每个格子的期望频数都大于等于 5)时,统计量Q近似地服从自由度为(1)(1)rs的2分布。由此,在根据样本得到统计量Q的值后,就可以计算其所对应的 p 值,对照事先设定的显著性水平就可以判断是否拒绝原假设。在 R 软件中,可以使用 chisq.test 命令对列联表数据进行齐性检验,得出检验的 p 值。第四节广义线性模型简介一、模型形式在介绍广义线性模型之前, 我们先回顾一下传统线性模型的形式。 假设iy表示第 i 个观测数据,1(,)iiipxxx表示与iy有线性关系的解释性变量,则线性回归模型可以

62、表示为:,1,iiiyxin (2.7)其中i为随机误差,它们相互独立,且2(0,)iN。 (2.7)的一个等价表示为:2,(,)iiiiiEyxyN 即线性模型(2.7)意味着用解释变量ix的线性函数拟合随机观测值iy的均值,并假设iy是正态的,并且具有常数方差。但在许多数据分析中,人们发现iy服从正态假设并不一定成立,它可能服第二章实验设计与分析方法简介21从其他的分布,如 Poisson 分布、Weibull 分布或其它形式的分布。此时用(2.7)建立线性模型是不可行的,但拟合iy的均值iiEyp的某个函数可能是合理的。由 Nelder and Wedder burn(1972)提出的广

63、义线性模型(Generalized LinearModel,简记为 GLM)理论能够很好的解决上述模型拟合中存在的问题。广义线性模型由三个部分构成:1.分分布布部部分分:随机变量iy服从指数族分布(;, )exp( )(, )iiiiiif yybc y (2.8)其中i随 i 的不同而不同,称为散布参数(dispersion parameter) 。指数族分布是一类应用非常广泛的分布族,它包括指数分布、正态分布、0-1 分布、二项分布、Gamma 分布等常用分布。2.系系统统部部分分:由解释变量1(,)iiipxxx产生的一个线性预测i,其中i为:iix(2.9)3.连连接接函函数数:连接函

64、数指定了系统部分i与随机变量iy的期望iiEy之间的函数关系:()iiigx(2.10)广义线性模型的三个部分构成了 GLM 的模型结构,指数族分布(2.8)具有较好的统计性质,并且包含了大部分常用的统计分布,容易证明:( )iiiEyb()( )iiVar yb (2.11)这里22( )( ), ( )( )bdbdbd bd。由(2.10)及(2.11)可知111()()()iiiibbgxh x(2.12)(2.12)给出了i与的函数关系。我们把满足( )h xx(Identity function)时的连接函数 g 称之为典则(Canonical)连接函数。表 2.4 给出了几种常用

65、指数族分布下对应的相关函数特征。第二章实验设计与分析方法简介22表 2.4 几种常见指数族分布下对应的相关函数特征正态分布Poisson二项分布GammaInnerse Gaussan记号2( ,)N ( )P( ,)B m( , )Gv2( ,)IG 211m1v2( )b22elog(1)elog()12( 2 ) ( ; )c y21(log(2)24ylog !ylogmmylog()loglogTvvyyLv311log(2)2yy( ) exp( )(1)ee112( 2 )连续函数( ) IdentitylogLogisticreciprocal21方差函数( )v1(1)23由

66、于在本文的实验数据中,被解释变量服从二项分布,所以以下对 logit 模型进行具体介绍。假设1,nyy来自于二项分布( ,)iBinomia m的 n 个相互独立的样本,1(,)iiipxxx为影响iy的解释性变量。iy的密度函数为:(;)(1)explog()log(1)log1explog()(,)1iiym yiiiiiiiiiiiiiimf yymymyycy其中(,)log(1)logiiiimcymy,因此在典则连接函数下log()1iiix(2.13)这就是我们所要使用的 logit(或 Logistic)回归模型。第二章实验设计与分析方法简介23二、参数估计广义线性模型的参数估

67、计使用极大似然估计方法,假设1,nyy为来自指数族(2.8)的独立样本。则1(,)nYyy的联合密度函数为:111(,|)log(;, )( )(, )niiinniiiiiiLYf yybc y (2.14)i与ix之间的关系由(2.10)式(2.12)式确定。当的极大似然估计唯一存在时,它满足似然方程(,|)0jLY ,即11( )0,1,niiiijybjp(2.15)注意到;iiiiiijjiijjddddxdddd,令2iiiiiddwdd则(2.15)变为1()()0njiiiiiijiSw yddx(2.16)上式方程非常类似于加权最小二乘方法的估计方程,但由于,iiw及()ii

68、dd中含有未知参数, (2.16)必须通过迭代求解, 利用 Fisher-Scoring 方法, 此时 Fisher 信息阵为:2jkLAE 因此21111()()()()niijkiiiijiijiiijkkiiknnniiiiiiijiijiijikiiiikiikddLAEEywxwxydddddddwxwxw x xddddd 因此在(m+1)次的迭代解为:第二章实验设计与分析方法简介24(1)()1()mmTTX WXX WS(2.17)其中11(,),( ,)TnnWdiag wwSss,()iiiiidsyd, (2.17)式右边第二项中的参数在()m处取值。 (2.17)还可以

69、写为:(1)1()1()()()mTTmTTX WXX W XSX WXX WZ(2.18)其中()mZS称为工作变量(working variable) 。 (2.18)可以看成是一个加权最小二乘估计。因此广义线性模型中参数的估计也称为迭代加权最小二乘估计(Reweighted Least Square estimation) 。对典侧连接函数21,()iiiiiiiiiddddwdddd,此时 Fisher -Scoring 方法等价 Newton-Raphson 方法。如果不为常数,其极大似然估计可以类似于正态线性模型对方差参数的 MLE 的方法求出。可以证明:22()/0TTLEX W

70、XLE 有 MLE 估计的大样本估计理论,的渐进方差为1var( )()TX WX三、拟合优度及自变量选择当使用一个模型拟合数据之后,一个重要的问题是如何衡量模型拟合的好坏。 在广义线性模型中, 常用的拟合优度统计量称为 Deviance。 为了给出 Deviance统计量的定义,我们把对数似然函数记为(均值)的函数,即( ,|)LY 。在完全模型(Full Model)下,我们可以假设有 n 个独立参数,因此i可以完全拟第二章实验设计与分析方法简介25合iy,即(1, )iiy in,记此时对应的为,则( ;)2 ( ,|)( ,|)2 ( ,|)( ,|)D YL YYLYLYLY (2.

71、19)由于 n 个观测值是独立的1( ; )(; )niiiD Yd y。这里表示在拟合模型下得到的的估计。( ;)D Y越小,表明拟合程度越高。另外一种拟合优度统计量是 Pearson2统计量,其定义为:221()()niiiiyv(2.20)这里()iv表示iy的方差函数的估计。在正态假设下的线性模型中,Deviance 统计量服从一个精确的2分布,但在一般广义线性模型中,我们只能使用渐近的2分布进行近似。在模型选择上,本文中主要涉及的是解释变量选择的问题。在实际中,研究者们常常还是使用 AIC 最小准则来选择最佳的模型。对于解释变量的选择,依然可以像在传统线性模型中一样使用逐步选元法,只

72、是判断解释变量是否进出模型的标准由偏 F 统计量变换为 Deviance 统计量或模型 AIC 值。第三章实验结果26第三章 实验结果上一章说明了本文的实验设计并简要介绍了实验程序,本章开始将详细说明四次实验的结果,在实验数据的基础上对四次实验的结果进行对比分析并构建统计模型来讨论经验积累对策略选择的影响。本章将对四次实验结果进行描述统计,运用非参数方法对结果进行对比;第四章将利用实验数据构建广义线性模型与分位数回归模型;第五章将在描述统计与模型的基础上深入讨论一般经验积累对策略选择的影响,并总结本文的结论以及不足之处。第一节四次实验结果展示对于各次实验我们所关注的不外乎就是合作、不合作、惩罚

73、三种策略的使用以及参与者的收益这四项信息。策略选择的信息有绝对数与相对数两种形式,而参与者的收益有总数与平均数两种形式。虽然四次实验均将总的回合数控制在 80 回合左右,但各次实验的总回合数仍是存在细微差别,这使得各次实验的绝对数与总数不能直接比较,因此以下将把相对数形式的策略选择信息与平均数形式的收益信息一一展示,并在此基础上比较各次实验的结果。策略选择的相对数信息就是所有回合中合作、不合作与惩罚三种策略的使用率,以下简称为合作使用率、不合作使用率与惩罚使用率,分别记作 fc(frequency of C use) 、fd(frequency of D use)与 fp(frequency

74、of P use) ;收益的平均数信息就是参与者平均每回合的净收益,以下简称为平均收益,记作 ap(average payoff) 。参与者个人的平均收益是将参与者在实验中的总收益减去 50 起始分,再除以总的回合数得到的。将各参与者的平均收益再作算术平均就得到整个实验的平均收益。参与者个人的合作使用率、不合作使用率与惩罚使用率是将参与者个人使第三章实验结果27用合作、不合作与惩罚三种策略的总次数分别除以实验的总回合数得到的。而实验整体的合作使用率、不合作使用率与惩罚使用率则有两种算法,这两种算法对应着不同的检验对比方法。以合作使用率为例,第一种算法是将所有参与者使用合作的次数分别加总,然后除

75、以实验总回合数与实验参与者人数的乘积,得到实验整体的合作使用率;第二种算法就是对实验中所有参与者的个人的合作使用率作算术平均,以此作为实验整体的合作使用率。就合作使用率、不合作使用率与惩罚使用率的数值而言,对于单次实验这两种算法所得的结果是一致的。但当需要对不同实验进行比较时,第一种算法所得结果只能转化为列联表数据,因而需要使用列联表方法进行统计检验;而针对第二种算法所得结果需要使用均值检验的方法进行统计检验。因此在以下比较各次实验的结果时,本文将同时使用两种方法进行统计检验。四次实验所得结果如表 3.1 与图 3.1 所示。单纯从数值上看,四次实验按合作使用率(fc)由高到低排列为 A1 实

76、验、A2 实验、B1 实验、B2 实验;按不合作使用率(fd)由高到低排列为 B2 实验、B1 实验、A2 实验、A1 实验;按惩罚使用率(fp)由高到低排列为 A1 实验、A2 实验、B2 实验、B1 实验;按平均收益(ap)由高到低排列为 B1 实验、B2 实验、A2 实验、A1 实验。大致可以看到,大一组实验与大三组实验相比,合作使用率与惩罚使用率略高,不合作使用率与平均收益略低。但这些差异是否显著,则要通过统计检验才能说明。表 3.1 四次实验中三种策略使用情况与平均收益的展示实验年级fcfdfpapave-ageB2 实验大三0.1501720.7310670.118761-0.44

77、36321.93B1 实验大三0.1836540.7024040.113942-0.3860621.73A1 实验大一0.2230770.5884620.188462-0.7192319.92A2 实验大一0.2150410.6097560.175203-0.6609819.13注:对应于各次实验,fc 表示合作使用率(frequency of C use) ,fd 表示不合作使用率(frequency of D use) , fp表示惩罚使用率 (frequency of P use) , ap 表示平均收益 (averagepayoff) 。ave- age 表示各次实验的参与者的平均年龄

78、,各次实验按照 ave-age 从大到小排列。第三章实验结果28图 3.1 四次实验的合作使用率(fc) 、不合作使用率(fd) 、惩罚使用率(fp)与平均收益(ap)的柱形图。每张图中从左到右,B2、B1、A1、A2 实验的参与者平均年龄依次递减。单次实验中,fc、fd、fp 之和为 1。四次实验中参与者个人的 fc、fd、fp 与 ap 的直方图如图 3.2(a-d)所示,从图中可以看出,fc、fd、fp 与 ap 的分布似乎都是有偏的。针对这一点,本文对四次实验参与者个人的 fc、fd、fp 与 ap 进行了 Shapiro-Wilk 正态检验。经过检验发现,在 95%的置信水平上,除了

79、 A2 实验的 fd、B1 实验的 fd 以及 B2 实验的 fd 与 ap 外,其他指标的分布均不服从正态分布;而当置信水平放宽到 90%时,可以认为 A2、B1、B2 实验的 fd 也不服从正态分布。由于大部分指标都不服从正态分布,而单次实验的数据量也并不特别大,所以保守起见,在对比四次实验的结果间的差异时,本文采用非参数方法进行第三章实验结果29统计检验。图 3.2a 四次实验中参与者个人的合作使用率(fc)的直方图。经过 Shapiro-Wilk 正态检验,A1、A2、B1、B2 四次实验 fc 的 p 值分别为 0.0066、0.0071、0.0004、0.0193。因此在 95%的

80、置信水平上,认为各次实验的 fc 均不服从正态分布。第三章实验结果30图 3.2b 四次实验中参与者个人的不合作使用率(fd)的直方图。经过 Shapiro-Wilk 正态检验,A1、A2、B1、B2 四次实验 fd 的 p 值分别为 0.0291、0.0780、0.0644、0.0773。由此在 95%的置信水平上,认为 A1 实验的 fd 不服从正态分布。而要认为 A2、B1、B2 实验的fd 也不服从正态分布,置信水平需要放宽到 90%。第三章实验结果31图 3.2c 四次实验中参与者个人的惩罚使用率(fp)的直方图。经过 Shapiro-Wilk 正态检验,A1、A2、B1、B2 四次

81、实验 fp 的 p 值分别为 0.0004、0.0002、0.0000、0.0046。因此在 95%的置信水平上,认为四次实验的 fp 均不服从正态分布。第三章实验结果32图 3.2d 四次实验中参与者个人的平均收益(ap)的直方图。经过 Shapiro-Wilk 正态检验,A1、A2、B1、B2 四次实验 ap 的 p 值分别为 0.0074、0.0009、0.0118、0.2643。由此在 95%的置信水平上,认为 A1、A2、B1 实验的 ap 不服从正态分布。但即使置信水平放宽到 90%,也不能否定 B2 实验的 ap 服从正态分布。如前文所言,在对比不同实验的 fc、fd、fp 时,

82、对应于 fc、fd、fp 的两种计算方法有列联表检验与均值检验两类统计检验方法。在非参数方法中更多考察中位数而非均值。从图 3.2(a-d)中可以看出,四次实验同一指标(fc、fd、fp、ap)的直方图的大致形状比较相似,即它们分布的形状应该也是比较相似的;而四次实验的参与者人数最少为 26,最多为 30,第三章实验结果33即四次实验的数据量很相近, 所以使用Mann-Whitney检验来检验不同实验间fc、fd、fp 以及 ap 的中位数是否相等是可行的。而 Dreber et al.(2008)使用了列联表检验来对比不同实验的 fc、fd、fp,所以本文也将沿用列联表检验以与 Mann-W

83、hitney 检验做一比较。因此本文使用列联表检验与 Mann-Whitney 检验来考察不同实验间 fc、fd、fp 的差异,使用 Mann-Whitney 检验来考察不同实验间 ap 的差异。第二节大一、大三实验组内部 fc、fd、fp、ap 的非参数检验本文的目的是研究大一实验组与大三实验组之间策略选择的差异,因此就希望将两实验组各自作为一个整体来进行对比分析。为了实现这一目标首先需要确认同一实验组内部的两次实验是否存在差异,是否可以合并。那么,本节就在 fc、fd、fp、ap 四项上对 A1 实验与 A2 实验、B1 实验与 B2 实验分别进行统计检验。一、大一、大三实验组内 fc、f

84、d、fp、ap 的 Mann-Whitney 检验首先,我们使用 Mann-Whitney 检验来分别考察 A1 实验与 A2 实验、B1 实验与 B2 实验在 fc、fd、fp、ap 上是否存在差异。以检验 A1 实验与 A2 实验的 fc 是否相等为例。原假设及备择假设如下:原假设: A1 实验参与者个人的 fc 的中位数等于 A2 实验参与者个人的 fc 的中位数;备择假设: A1 实验参与者个人的 fc 的中位数不等于 A2 实验参与者个人的 fc 的中位数。在 R 软件中利用 wilcox.test 命令可以直接得到检验的 p 值为 0.7611。 p 值远大于 0.05,因此在 9

85、5%的置信水平上不能拒绝原假设,没有理由认为 A1 实验参第三章实验结果34与者个人的 fc 的中位数与 A2 实验参与者个人的 fc 的中位数存在差异,即没有理由认为 A1 实验的 fc 与 A2 实验的 fc 存在差异。表 3.2 展示了 A1 实验与 A2 实验、 B1 实验与 B2 实验的 Mann-Whitney 检验的 p 值。通过 Mann-Whitney 检验发现,在 95%的置信水平上,A1 实验与 A2实验的实验结果均无显著差异,B1 实验与 B2 实验的实验结果均无显著差异,即同一实验组内部的两个实验间并无显著差异。表 3.2 大一、大三实验组组内双侧 Mann-Whit

86、ney 检验的 p 值fcfdfpapA1 实验对比 A2 实验0.76110.86300.33620.2534B1 实验对比 B2 实验0.88980.67140.60920.4514但要说明的是,这里所进行的都是双侧检验,而实际上可以进行更严格的单侧检验。从数据中可以得到各个实验的参与者的 fc、fd、fp、ap 的中位数,比较中位数大小后就可以进行单侧检验,而进行单侧检验所得 p 值是双侧检验 p值的一半。但是,可以看到,即使进行单侧检验表 xxx 中所有的 p 值依然是大于 0.05 的。这说明在 Mann-Whitney 检验下,大一、大三实验组内部均无显著差异(置信水平 95%)

87、。二、大一、大三实验组内 fc、fd、fp 的列联表齐性检验接下来,我们使用 Mann-Whitney 检验来分别考察 A1 实验与 A2 实验、B1实验与 B2 实验在 fc、fd、fp 上是否存在差异。同样以检验 A1 实验与 A2 实验的 fc 是否相等为例。 首先构建检验所用的列联表,如表 3.3。列联表中“合作策略使用次数”是将单次实验中所有参与者使用合作策略的次数加总, “其他策略使用次数”是将单次实验中所有参与者使用其他策略的次数加总,行合计就等于实验总回合数与参与者人数的乘积。 “合作策略使用次数”与行合计的比值就是单次实验整体的合作使用率 fc, “其他策略使用次数”与行合计

88、的比值就是 1-fc,所以检验的原假设只需要考虑合作使用率fc。第三章实验结果35表 3.3 A1 实验与 A2 实验合作使用情况合作策略使用次数其他策略使用次数合计A1 实验46416162080A2 实验52919312460合计99335474540由此,构建原假设与备择假设如下:原假设:A1 实验的合作使用率等于 A2 实验的合作使用率;备择假设:A1 实验的合作使用率不等于 A2 实验的合作使用率。在 R 软件中利用 chisq.test 命令可直接得到2检验的 p 值为 0.5375, 检验的p 值远大于 0.05,因此在 95%的置信水平上无法拒绝原假设,没有理由认为 A1实验与

89、 A2 实验的合作使用率存在差异。表 3.4 展示了 A1 实验与 A2 实验之间、B1 实验与 B2 实验之间 fc、fd、fp对比的列联表齐性检验的 p 值。通过列联表齐性检验发现,在 95%的置信水平上,大一组实验(A1、A2)内部差异不显著;而大三组实验(B1、B2)内部存在显著差异:B1、B2 实验在 fc、fd 上存在显著差异,而在 fp 上无显著差异。表 3.4 大一、大三实验组组内列联表齐性检验的 p 值fcfdfpA1 实验对比 A2 实验0.53750.15300.2641B1 实验对比 B2 实验0.00320.03790.6523三、对两种检验以及检验结果的讨论我们看到

90、, Mann-Whitney 检验与列联表齐性检验在 A1 实验与 A2 实验的对比检验中是一致的,而在 B1 实验与 B2 实验的对比检验中却出现了差异。为了明确大三实验组内部是否存在显著差异,我们必须考察 Mann-Whitney 检验与列联表齐性检验在本文实验数据的检验中的整体表现。本文对四次实验两两间进行了 Mann-Whitney 检验与列联表齐性检验,检验第三章实验结果36的 p 值如表 3.5 与表 3.6 所示。可以看到,对于本文的数据列联表齐性检验表现得比 Mann-Whitney 检验更严厉,很多在 Mann-Whitney 检验中差异并不显著的对比项在列联表齐性检验中都表

91、现出显著差异。但本文认为这并不能说明列联表齐性检验就一定比 Mann-Whitney 检验更真实地反映了四次实验间的差异。在列联表齐性检验中,为了构建列联表,本文将所有参与者的同一策略使用数进行了累加,而这样就完全忽略了参与者中极端个体的存在。事实上,如果去除某个极端个体的策略数,那么列联表齐性检验的结果可能变化很大。而Mann-Whitney 检验由于是使用参与者 fc、fd、fp 的秩进行检验,能够大大地减轻极端值的影响,但代价则是检验要相对的温和。所以在对比四次实验结果的差异时,还是需要将两种检验的结果结合起来综合考虑。表 3.5 四次实验两两对比的双侧 Mann-Whitney 检验的

92、 p 值fcfdfpapA1 实验对比 A2 实验0.76110.86300.33620.2534A1 实验对比 B1 实验0.20930.09210.00660.0019A1 实验对比 B2 实验0.18240.06520.04010.0238A2 实验对比 B1 实验0.31200.20870.53740.0442A2 实验对比 B2 实验0.24620.08550.53850.3155B1 实验对比 B2 实验0.88980.67140.60920.4514表 3.6 四次实验两两对比的列联表齐性检验的 p 值fcfdfpA1 实验对比 A2 实验0.53750.15300.2641A1

93、 实验对比 B1 实验0.00180.00000.0000A1 实验对比 B2 实验0.00000.00000.0000A2 实验对比 B1 实验0.00950.00000.0000A2 实验对比 B2 实验0.00000.00000.0000B1 实验对比 B2 实验0.00320.03790.6523第三章实验结果37虽然两种检验的结果有很大差异, 但它们之间仍有共同点。 从 Mann-Whitney检验中可以看到,大一、大三两组实验的组间对比的 p 值要比组内对比的 p 值要更小,即两组实验的组间差异比其各自组内差异更显著(两项例外,A2 实验与 B1、B2 实验的 fp 对比的 p 值

94、大于 A1、A2 实验间 fp 对比的 p 值) ;而在列联表齐性检验中,这一现象同样存在(仅有一项例外:A2、B1 实验间 fc 对比的 p值大于 B1、B2 实验间 fc 对比的 p 值) 。结合两种检验来看,本文认为大一、大三两实验组的组间差异要比组内差异更显著。综合以上考虑,本文认为大一实验组的两次实验可以合并,大三实验组的两次实验也可以合并。以下本文将使用 Mann-Whitney 检验与列联表齐性检验来考察合并后的大一实验组与大三实验组之间的差异。第三节大一与大三实验组之间 fc、fd、fp、ap 的非参数检验将大一实验组的两次实验A1 实验与 A2 实验合并,构成 A 实验组;将

95、大三实验组的两次实验B1 实验与 B2 实验合并,构成 B 实验组。以下说明两实验组的 fc、fd、fp、ap 的计算与对比结果。与单次实验一样,A、B 两实验组的 fc、fd、fp 也有两种计算方法,一种是“先比再平均” ,即直接采用组内所有参与者个人 fc、fd、fp 的算术平均值;另一种是“先加总再比” ,即采用组内所有参与者使用某种策略(C、D 或 P)的总次数与所有策略总次数的商。此时,由于 A1、A2 实验(B1、B2 实验)的参与者人数、总回合数不同,通过两种方法所得到 A 实验组(B 实验组)整体的 fc、fd、fp 并不完全相同。而 ap 依然是选用组内所有参与者个人 ap

96、的算术平均值。表 3.7 与图 3.3 展示了 A、B 两组实验整体的 fc、fd、fp、ap 的值。可以看到,使用两种方法得到的 fc、fd、fp 都相差很小。而单纯从数值上看,大一(A)实验组的合作使用率(fc) 、惩罚使用率(fp)比大三(B)实验组略高,而不合作使用率(fd)与平均收益(ap)比大三实验组略低。以下就对这些差异进行统计检验。第三章实验结果38表 3.7 A、B 两组实验中三种策略使用情况与平均收益的展示计算方法实验组年级fcfdfpapave-age先比再平均A大一0.218770.599870.18136-0.6880219.5B大三0.166290.717270.1

97、1644-0.4159121.83先加总在比A大一0.218720.60.1812819.5B大三0.165990.71750.1164921.83图 3.3 按“先比再平均”方法计算所得的 A、B 两组实验的合作使用率(fc) 、不合作使用率(fd) 、惩罚使用率(fp)与平均收益(ap) 。图中的 fc、fd、fp 与 ap 均是直接采用的组内所有参与者个人 fc、fd、fp 与 ap 的算术平均值。在对 A、B 两组实验结果的对比进行统计检验时,保守起见,依然采用非参第三章实验结果39数的检验方法。按本章第一节所述,对按“先比再平均”方法计算所得的数据是要进行 Mann-Whitney

98、检验,而对按“先加总再比”方法计算所得的数据则是要进行列联表齐性检验。表 3.8 给出了两种检验的所得的 p 值。表 3.8 A、B 两组实验结果对比的两种检验的 p 值对比项目fcfdfpapMann-Whitney 检验0.09050.02070.03910.0035列联表齐性检验0.00000.00000.0000通过 Mann-Whitney 检验发现,在 95%的置信水平上,A 实验组与 B 实验组在不合作使用率(fd) 、惩罚使用率(fp)以及平均收益(ap)上存在显著差异,而在合作使用率(fc)上的差异并不显著。而通过列联表齐性检验发现,在 95%的置信水平上,A 实验组与 B

99、实验组在合作使用率、不合作使用率(fd)以及惩罚使用率(fp)上都存在显著差异。此处的 Mann-Whitney 检验中,使用的依然是双侧检验。而从数据中可以得到 A 实验组中参与者 fc 的中位数为 0.1605,B 实验组中参与者 fc 的中位数为0.1084。由此在检验 A、B 两组实验的合作使用率是否相等时,可以将备择假设定为“A 实验组的 fc 大于 B 实验组的 fc” ,即进行单侧检验。而单侧检验的 p值是双侧检验的一半,那么对 fc 的单侧 Mann-Whitney 检验的 p 值就是 0.0453,小于 0.05。也就是说,在 95%的置信水平上,A、B 两组实验的 fc 之

100、间也是存在显著差异的。结合 A、B 两组实验 fc、fd、fp、ap 的数值与统计检验的结果可以看到,与大一实验组的参与者相比,大三实验组的参与者更多地使用了不合作策略,而显著地减少了合作策略与惩罚策略的使用,并得到了相对更好的收益。这些反映出经验积累更多的大三实验组参与者在策略选择上与大一实验组参与者确实存在显著差异。但这种策略选择的差异是否就是由经验积累的差异造成的?在此仍不能妄下判断。下一章将尝试利用实验数据构建模型,来讨论实验参与者整体的经验积累水平以及参与者个人经验积累差异对策略选择的影响。第四章实验数据的建模分析40第四章 实验数据的建模分析第一节建模的准备本章将利用四次实验的数据

101、构建模型来讨论一般经验(而非特定经验)的积累对个体策略选择的影响,而第一步就是结合建模目的与实验数据来确定模型的被解释变量与解释变量。模型的被解释变量必须是能够反映个体策略选择的变量。对于每次实验,可以得到实验参与者个人使用合作 (C) 策略的总次数, 记为 c; 使用不合作 (D)策略的总次数,记为 d;使用惩罚(P)策略的总次数,记为 p;以及总回合数,记为 round。c、d、p 之和等于 round。在此基础上,以个人的合作次数(c) 、不合作次数(d) 、惩罚次数(p)分别除以总回合数(round)就可以得到上一章中用到的参与者个人的合作使用率 (fc) 、 不合作使用率 (fd)

102、以及惩罚使用率 (fp) 。c、d、p 与 fc、fd、fp 这两组变量都能反映参与者的策略选择,那么就可以考虑利用它们来构建被解释变量用于建模。四次实验所有参与者个人的合作使用率(fc) 、不合作使用率(fd)以及惩罚使用率(fp)的直方图如图 4.1 所示,三个变量的直方图形状看都似并不是对称的。 进一步通过 Shapiro-Wilk 正态检验发现这三个变量均不服从正态分布 (置信水平 95%,三个变量的检验的 p 值均小于 0.0000) 。结合直方图与正态性检验可以明确这三个变量的分布不能用正态分布来近似。而另一方面,从已有的信息也很难推断 fc、fd、fp 三者的确切分布。这种情况下

103、要以 fc、fd、fp 来构建被解释变量进行建模似乎比较困难。第四章实验数据的建模分析41图 4.1 四次实验所有参与者个人的合作使用率(fc) 、不合作使用率(fd)以及惩罚使用率(fp)的直方图。经 Shapiro-Wilk 正态检验得到这三个变量的 p 值均小于 0.0000,这说明在 95%的置信水平下可认为三者均不服从正态分布。再来考察 c、d、p 三个变量的情况。在实际的实验中,参与者在某一回合所选择的策略往往与自己以及对手在上一回合选择的策略联系紧密,也就是说,参与者每次选择策略并不是独立的。这种情况下,参与者使用合作、不合作、惩罚三种策略的总次数(变量 c、d、p)的分布并不能

104、确定。但是,如果将参与者个人的合作使用率(fc) 、不合作使用率(fd) 、惩罚使用率(fp)视作常数,将参与者的每次策略选择视作独立的,那么变量 c、d、p 就可以视作是伯努利实验的结果,服从二项分布。问题在于,我们能不能做这种变通考虑?本文认为是可以的。对于两个不同的参与者,当他们在上一回合使用了同样的策略,而他们的对手也使用了同样的策略,那么着两个参与者在这一回合就一定也会采用同样的策略吗?答案显然是“不一定” 。参与者在当前回合的策略选择确实要受到博弈双方之前所选择策略的影响,但博弈环境中的其他因素也在影响着参与者的决策。这些因素中即包括实验条件等得到控制的因素,也包括收益对于参与者而

105、言的效用大小、参与者与对手在之前游戏轮中的博弈历史、参与者的理性程度与宽容程度等众多难以度量的因素。而本轮游戏的博弈第四章实验数据的建模分析42历史对于参与者策略选择的影响并不一定就比这些因素(无论是可控制的还是难以度量的)的影响要大。而另一方面,本文希望考察的是参与者在整个实验中的策略选择,而非在各个回合中的策略选择情况,因此各回合策略间的这种类似自相关的影响是要被削弱的。正因为有了以上考虑,本文将变量 c、d、p 视作近似服从二项分布,并利用它们来构建被解释变量。而根据 c、d、p 近似服从二项分布这一点,本文决定采用广义线性模型作为模型的基本形式。确定了被解释变量与模型形式后,就需要选择

106、可能进入模型的解释变量。因为本文希望讨论一般经验积累对参与者策略选择的影响,所以模型中必须含有能反映参与者一般经验积累的解释变量。本文认为对于学生,年级能够反映参与者的一般经验积累,本文的实验也正是是分为大一组与大三组来组织进行的,所以参与者的年级应该被纳入模型考量。另一方面,大一、大三两组实验在实验设计上只有参与者的年级是不同的,其他实验条件应该完全一致。但在实际的实验中,由于每轮游戏的回合数是随机的,我们为了将每次实验的总回合数控制在 80 回合左右,实验的轮数便无法控制。因此四次实验在轮数上存在细微差别,而这“细微”差别需要在模型中进行控制。此外,参与者的性别也被引入模型加以控制。根据以

107、上讨论整理了建模所需的数据。每个参与者作为一个观测,数据一共包括 110 个观测,8 个变量。变量说明具体如下:合作次数(c)观测在实验中采用合作的次数,从 0 到 64 不等。不合作次数(d)观测在实验中采用不合作的次数,从 3 到 82 不等。惩罚次数(p)观测在实验中采用惩罚的次数,从 0 到 68 不等。实验参与者年级(grade)虚拟变量,1 表示“大三” ,0 表示“大一” 。实验参与者性别(gender)虚拟变量:1 表示“男性” ,0 表示“女性” 。实验总轮数(interaction)观测参与的实验的总轮数,19 到 24 轮不等。以下就利用实验数据拟合广义线性模型。第四章实

108、验数据的建模分析43第二节模型的构建与结果由于 c、d、p 本身服从二项分布,所以我们直接建立广义线性模型如下:123( ( )g P zgradegenderinteraction(4.1)其中( )g x表示连接函数,在此常用的有 logit、probit 两种形式的连接函数;z代表合作策略(C) 、不合作策略(D)或惩罚策略(P) ;( )P z表示z出现的概率;是常数项;123、 、是解释变量的系数。假设各观测误差服从 binomial族分布,模型采用 binomial 分布族的误差函数。由于 logit 和 probit 形式的连接函数本质上是一样的,所以在此我们只考虑 logit

109、形式的连接函数。对于各个模型,均采用逐步法选择解释变量。一、使用实验数据拟合针对合作次数(c)建立的 logit 模型本文使用 R 软件拟合模型。为了符合 R 软件对数据格式的要求,将合作次数(c)与没有使用合作策略的次数(round-c)拼成一个两列的矩阵,记为 cc,以 cc 作为被解释变量。使用所有的解释变量(grade、gender 与 interaction)对 cc拟合模型,并通过逐步法,根据模型 AIC 值选择变量,记最终得到的模型为模型 binomial_c。模型的结果如表 4.1 所示。表 4.1 模型 binomial_c 的结果解释变量系数的估计结果模型的AIC 值解释变

110、量估计系数标准误p 值grade-0.33350.05880.00002201.4gender0.32550.05480.0000interaction-0.02570.01490.0856常数项-0.85030.34820.0146注:在 95%的置信水平下,变量 grade 与 gender 是显著的,interaction 不显著。第四章实验数据的建模分析44模型 binomial_c 包含了 grade、gender、interaction 三个解释变量。模型中解释变量 grade 与 gender 在 95%的置信水平下均是显著的,而解释变量 interaction在 95%的置信水

111、平下不显著。通过模型 binomial_c 我们看到,实验参与者的年级(grade)与性别(gender)对合作策略的使用都存在显著的影响。对照表 4.1 的模型结果,将模型 binomial_c 具体形式整理如下:11exp (C)1exp fPf其中:10.85030.33350.32550.0257fgradegenderinteraction 可以看到,1f 中变量 grade 的系数为负,变量 gender 的系数为正。进而容易推出: 在模型 binomial_c 中,grade 对(C)P存在显著的负向影响;gender 对(C)P存在显著的正向影响。这样的结果表明,将四次实验综合

112、来看,在控制了其他因素保持不变后:大三组实验参与者比大一组实验参与者更少使用合作;男生比女生更愿意采用合作策略;实验的轮数对参与者的合作使用没有显著的影响。二、使用实验数据拟合针对不合作次数(d)建立的 logit 模型将不合作次数(d)与没有使用不合作策略的次数(round-d)拼成一个两列的矩阵,记为 dd,以 dd 作为被解释变量。用所有解释变量对 dd 拟合模型,并使用逐步法, 根据模型 AIC 值选择变量, 将最终得到的模型记为模型 binomial_d,模型结果如表 4.2 所示。模型 binomial_d 包含了 grade 与 gender 两个解释变量, 而变量 intera

113、ction 没有进入模型。在 95%的置信水平下,解释变量 grade 与 gender 均是显著的。这说明,实验参与者的年级(grade)与性别(gender)对不合作策略的使用都存在显著的影响。第四章实验数据的建模分析45表 4.2 模型 binomial_d 的结果解释变量系数的估计结果模型的AIC 值解释变量估计系数标准误p 值grade0.47310.04570.00002549.9gender-0.44070.04560.0000常数项0.62300.03820.0000注:在 95%的置信水平下,模型中变量 grade 与 gender 均是显著的。对照表 4.2 的模型结果,将

114、模型 binomial_d 的具体形式整理如下:22exp()1 expfP Df其中:20.62300.47310.4407fgradegender在2f 中,变量 grade 的系数是正数,而变量 gender 的系数是负数。由此容易推得在模型 binomial_d 中,变量 grade 对()P D存在显著的正向影响,而变量gender 对()P D存在显著的负向影响。这些结果表明,在本文的四次实验中,当控制了其他因素保持不变后,大三组的实验参与者比大一组的实验参与者更多地使用了不合作策略;男生使用不合作策略比女生要少。此外,各次实验轮数的差异没有对参与者使用不合作策略产生显著影响。三、

115、使用实验数据拟合针对惩罚次数(p)建立的 logit 模型将惩罚次数(p)与没有使用惩罚策略的次数(round-p)拼成一个两列的矩阵,记为 pp,以 pp 作为被解释变量。用所有解释变量对 pp 拟合模型,并使用逐步法,根据模型 AIC 值选择变量,将最终得到的模型记为模型 binomial_p,模型结果如表 4.3 所示。模型 binomial_p 包含了 grade、gender 与 interaction 三个解释变量。模型中,第四章实验数据的建模分析46解释变量 grade 与 gender 在 99%的置信水平下依然是显著的,而解释变量interaction 在 95%的置信水平下

116、并不显著。这说明实验参与者的年级(grade)与性别(gender)对惩罚策略的使用存在显著影响。表 4.3 模型 binomial_p 的结果解释变量系数的估计结果模型的AIC 值解释变量估计系数标准误p 值grade-0.43500.06500.00001707.0gender0.36840.06070.0000interaction0.02860.01710.0945常数项-2.35200.39960.0000注:在 95%的置信水平下,模型中变量 grade 与 gender 是显著的,而变量interaction 是不显著的。对照表 4.3 的模型结果,将模型 binomial_p

117、的具体形式整理如下:33exp ( )1 exp fP Pf其中:32.35200.4350.36840.0286fgradegenderinteraction 可以看到,在3f 中变量 grade 的系数为负,而变量 gender 的系数为正。据此容易推出,在模型 binomial_p 中,解释变量 grade 对( )P P存在显著的负向影响,而解释变量 gender 对( )P P存在显著的正向影响。这些结果表明,在本文的四次实验中,当控制了其他因素后,大三组实验参与者比大一组实验参与者更少地使用了惩罚策略;男生比女生更多地使用了惩罚策略。同时可以看到,在控制了实验参与者的年级(grad

118、e)与性别(gender)之后,实验的轮数对惩罚策略使用的影响并不显著。藉由以上三个模型可以看到,实验参与者的年级(grade)与性别(gender)第四章实验数据的建模分析47对参与者选用合作、不合作、惩罚三种策略是有显著影响的;而控制住年级(grade)与性别(gender)不变后,实验的轮数对参与者在实验中的策略选择并无显著影响。下一章将结合第三章非参数检验的结果与本章的建模结果来详细讨论一般经验积累的差异对参与者策略选择的影响。第五章讨论与结论48第五章 讨论与结论第三章通过Mann-Whitney检验与列联表齐性检验发现大三组实验参与者与大一组实验参与者在合作、不合作、惩罚三种策略的

119、使用上均存在显著的差异;第四章通过对三种策略的使用分别构建广义线性模型发现:实验参与者的年级、性别对三种策略的使用均存在显著影响;每次实验的轮数对参与者的策略选择没有显著影响。本章将结合第三章与第四章的发现来详细讨论在本文的四次实验中一般经验积累所带来的影响,并总结本文的发现与结论,最后指出本文的不足与进一步研究的方向。第一节实验结果的讨论通过第三章的讨论我们看到大三组与大一组的实验参与者在策略选择确实表现出了显著的差异,并且这种差异在合作、不合作、惩罚三种策略中均存在。为了考察这种策略选择间的差异是否是由参与者一般经验积累的差异造成的,第四章构建了广义线性模型来讨论参与者年级与年龄对策略选择

120、的影响。三个模型的结果表明,在控制了其他可能的影响因素后,参与者的年级确实对策略选择存在显著影响。而实验参与者的年级正代表着参与者的一般经验积累。那么,接下来本章首先需要考察实验参与者的年级对策略选择所造成的影响的方向与第三章中两组实验参与者策略选择差异的方向是否一致。在第三章中通过结合 Mann-Whitney 检验与列联表齐性检验我们发现:与大一组实验参与者相比,大三组实验参与者更多的使用了不合作策略,并显著减少了合作策略与惩罚策略的使用。在第四章中,通过针对合作与不合作策略的广义线性模型我们看到:在控制了其他影响因素后,大三组实验参与者比大一组实验参与者使用了更多的不合作策略和更少的合作

121、,这与第三章的结果是一第五章讨论与结论49致的。这表明一般经验积累的差异确实在影响着实验参与者策略选择。同时我们也看到,参与者的性别对策略选择也存在影响。那么以下本文将尝试讨论各种因素对实验参与者策略选择产生影响的原因。一、一般经验积累作用的解释我们看到,在实验中,整体经验积累程度相对较低的大一组比整体经验积累程度更高的大三组更偏向于合作与惩罚策略。这是可以理解的。在我们的实验中,相对于不合作策略,选用合作与惩罚策略要先付出代价从实验的收益矩阵可以看到,参与者采用不合作策略时自己先得到 1 单位收益;使用合作与惩罚策略时虽然可能获得更好的长期收益或能对对手造成更大的打击,但自己却要先实实在在地

122、失去 1 单位收益。而在现实中,年轻人作为一个群体比年长者更激进是从古到今的普遍现象:年轻人之间进行交互时更可能出现不顾及背叛的合作,而在遭遇背叛后也更可能出现不计代价的报复;而年长者之间进行交互时往往更可能因为担心背叛而选择不合作,遭遇背叛后也更可能因为担心报复要付出的代价而选择妥协。因此,本文认为,在我们的实验中,在无法简单判断最佳策略的情况下,一般经验积累程度较低的大一组更愿意付出代价去合作或惩罚,而一般经验积累程度较高的大三组更愿意采用不合作策略是十分正常的情况。二、其他影响因素的讨论通过三个广义线性模型我们还看到在控制其他因素时,实验参与者的性别对策略选择也存在影响。我们看到,三个模

123、型中,变量参与者性别(gender)都是显著的。容易看出,与女生相比,男生在实验中更多地使用了合作与惩罚策略,而更少使用不合作策略。在本文看来这与现实是相符的。在人们的一般观点中,男性就比女性更具扩张性、更激进;而女性就比男性更现实,更保守。相对激进的男性更愿意第五章讨论与结论50付出代价去合作或惩罚,相对保守的女性更愿意使用不合作策略并无什么不合理之处。通过以上的讨论可以看到非参数检验与建模分析所得的结果都是合理的,实验参与者的一般经验的积累确实对他们的策略选择存在显著的影响。以下就将总结本文的发现,并指出本文研究的不足与进一步研究的方向。第二节本文的结论本文以 Dreber et al.(

124、2008)的实验为基础,设计了两组共四次实验(其中大三组两次,大一组两次) ,利用 z-tree 软件自行编制了实验程序,并按照实验设计严格、完整地完成了实验。通过这四次实验本文研究了一般经验积累的差异对实验参与者策略选择的影响,同时也考察了实验中其他因素对参与者策略选择的影响。现将本文的研究工作与所得结论总结如下:1.本文使用 Mann-Whitney 检验与列联表齐性检验对大一、大三实验组的组内差异进行了统计检验,结合两种检验的结果发现大一、大三实验组的组内差异并不显著。在此基础上,本文进一步对大三组实验与大一组实验进行了整体上的对比检验,发现大三组实验参与者比大一组实验参与者更多地使用了

125、不合作策略,而更少地使用了合作与惩罚策略,并获得相对更高的总收益。2.为了考察大三组实验参与者与大一组实验参与者在策略使用上的差异是否是由他们一般经验积累的差异造成的,本文利用四次实验的数据对实验参与者个人的合作次数(c) 、不合作次数(d) 、惩罚次数(p)分别构建了广义线性模型。 通过这三个模型发现, 在控制了其他因素之后, 实验参与者的年级 (grade)与性别(gender)对参与者的策略选择存在显著的影响。3. 本文结合非参数检验的结果与建模的结果详细讨论一般经验积累的差异对参与者策略选择的影响。本文发现,在控制了其他影响因素后,大三组实验参与者比大一组实验参与者更多地使用了不合作策

126、略,而更少地使用了合作与惩罚策略。本文通过分析认为出现这种情况可能是因为实验参与者的一般经验第五章讨论与结论51的积累程度越高,实验参与者就越不愿意付出代价去合作或惩罚。4. 本文通过讨论还发现,与女生相比,男生在实验中更多地使用了合作与惩罚策略,而更少使用不合作策略;同时实验轮数对参与者的策略选择没有造成显著影响。需要指出的是,在本文的研究中仍有一些不足之处,主要在于:构建广义线性模型时实验参与者个人的合作次数(c) 、不合作次数(d) 、惩罚次数(p)的确切分布并不明确,而本文最终是以二项分布作为这三者的近似分布,这可能会带来一些问题,在以后的研究中仍要进一步讨论。在本文研究的基础上,进一

127、步的研究可以向多方面进行。目前正在考虑研究如下问题:(1)本文的四次实验均是以 Dreber et al.(2008)的 T1 实验为基础的,收益矩阵与 T1 实验相同。那么一个必须要讨论的问题是当收益矩阵改变时是否还能得到相同的结果,即本文所得的结论是否带有一般性,是否可以推广。(2)本文的研究是在对称的系统中进行的,而大量研究表明非对称在合作系统的形成与维持上起到了重要作用(Shi & Wang,2010;wang et al.,2008,2009,2010 等) ,因此考察一般经验积累在非对称的系统中对人们策略选择的影响应该是有意义的。参考文献52参考文献1林毅夫. 制度、技术与中国农业

128、发展.上海三联书店,1992.2林毅夫. 再论制度、技术与中国农业发展.北京大学出版社,2000.3吴喜之. 非参数统计.中国统计出版社,2006.4张军. 合作团队的经济学: 一个文献综述. 上海: 上海财经大学出版社, 1999.5Axelrod R. The Evolution of Cooperation. New York: Basic Books Press. 1984.6Ahn T K, Lee M, Ruttan L, Walker J. Asymmetric payoffs in simultaneous and sequentialprisoners dilemma gam

129、es. Public Choice. Springer, 2007. 132: 353366.7Arthur W B. Designing Economic Agents that Act Like Human Agents: A BehavioralApproach to Bounded Rationality. TheAmerican Economic Review, 1991. 81, 353-359.8Beckenkamp M, Hennig-Schmidt H, Maier-Rigaud F P. Cooperation in Symmetric andAsymmetric Pris

130、oners Dilemma Games. Preprints of the Max Planck Institute for Research onCollective Goods Bonn, 2006.25.9Berninghaus, S.K. & Ehrhart, K.-M. Time Horizon and Equilibrium Selection in TacitCoordination Games: Experimental Results. Journal of Economic Behavior and Organization,1998: 37, 231-248.10Brge

131、rs, T. & Sarin, R. Learning Through Reinforcement and Replicator Dynamics. Journalof Economic Theory, 1997: 77, 1-16.11Boyd R, Lorberbaum J P. No pure strategy is evolutionarily stable in the repeated prisonersdilemma game. Nature, 1987, 327: 58-59.12Boyd R. Reciprocity: you have to think different.

132、 J Evol Biol, 2006, 19: 1380-1382.13Boyd R, Richerson P J. Punishment allows the evolution of cooperation (or anything else) insizable groups. Ethol Sociobiol, 1992, 13: 171195.14Bush R, Mosteller F. Stochastic Models for Learning. NewYork, John Wiley & Sons. 195515Brenner T, Agent Learning Represen

133、tation: Advice in Modelling Economic Learning. MaxPlanck Institute for Research into Economic Systems Papers on Economics and Evolution,参考文献532004, NO.0416.16Brenner, T. Modelling Learning in Economics. Cheltenham, Edward Elgar, 1999.17Brown, G. W. Iterative Solution of Games by Fictitious Play. Act

134、ivity Analysis of ProductionandAllocation: John Wiley and Sons, 1951, 374-376.18Camerer, C. F. & Ho, T. Experience-weighted Attraction Learning in Normal Form Games.Econometrica, 1999 , 67, 827-874.19Camerer C, Ho T, Chong J K. Sophisticated Experience-Weighted Attraction Learning andStrategic Teach

135、ing in Repeated Games. Journal of Economic Theory, 2002, 104: 137-188.20Cheung, Y, W., Friedman, D. Individual Learning in Normal Form Games: Some LaboratoryResults. Games and Economic Behavior, 1997, 19, 46-76.21DiekmannA. Volunteers Dilemma. The Journal of Conflict Resolution, 1985, 29, 605-610.22

136、Dreber A, Rand D G, Fudenberg D & Nowak M A. Winners dont punish. Nature, 2008, 452,348-351.23Doebeli M, Hauert C. Limits of Hamiltons rule. J Evol Bio, 2006, l19: 1386-1388.24Doebeli M, Knowlton N. The evolution of interspecific mutualisms. Proc Nat Acad Sci USA,1998, 95: 8676-8680.25Erev I, Roth A

137、. Predicting how people play games: Reinforcement learning in experimentalgameswithunique,mixedstrategyequilibria.AmericanEconomicReview,1998,88(4):848-881.26Fehr E, Gachter S. Altruistic punishment in humans. Nature, 2002, 415:137140.27Frank S A. Foundations of Social Evolution. Princeton: Princeto

138、n University Press. 1998.28Fudenberg D, Levine D. Consistency and Cautious Fictitious Play. Journal of EconomicDynamics and control, 1995, 19:1065-1089.29Fudenberg D, Levine D. The Theory of Learning in Games. The M.I.T. Press, Cambridge,MA. 1998.30Galliard J F L, Ferriere R & Dieckmann U. The adapt

139、ive dynamics of altruism in spatiallyheterogeneous populations. Evolution, 2003, 57: 1-17.31Grosskopf B. Reinforcement and Directional Learning in the Ultimatum Game withResponder Competition. Experimental Economics, 2003, 6, 141-158.参考文献5432Hirschman A. Exit, Voice and Loyalty. Cambridge: Harvard U

140、niversity Press, 1970.33Healy A & J Pate. Asymmetry and Incomplete Information in an Experimental VolunteersDilemma. 18th World IMACS/MODSIM Congress, Cairns,Australia, 13-17 July 2009.34Herrmann B, Thoni C, Gachter S. Antisocial punishment across societies. Science, 2008,319:13621366.35Hauert C, Do

141、ebeli M. Spatial structure often inhibits the evolution of cooperation in thesnowdrift. Nature, 2004, 428: 643-646.36Henrich J, McElreath R, Barr A, Ensminger J, Barrett C, Bolyanatz A, Cardenas J C, GurvenM, Gwako E, Henrich N, Lesorogol C, Marlowe F, Tracer D & Ziker J. Costly punishmentacross hum

142、an societies. Science, 2006, 312: 1767-1770.37Heinsohn R, Packer C. Complex cooperative strategies in group- territorial African lions.Science, 1995, 269: 1260-1262.38Hamilton W D. Altruism and related phenomena: mainly in social insects. Ann Rev Ecol Syst,1972, 3: 193-232.39Hamilton W D. Selfish an

143、d spiteful behaviour in an evolutionary model. Nature, 1970, 228:1218-1219.40Hamilton W D. The genetical evolution of social behavior. J Theor Biol, 1964, l7: 1-52.41Kiers E T, Rousseau R A, West S A, et al. Host sanctions and the legume-rhizobiummutualism. Nature, 2003, 425: 78-81.42Maynard S J. Ev

144、olution and the theory of games. Cambridge: Cambridge university Press,1982.43Nikiforakis N. Punishment and counter-punishment in public good games: Can we reallygovern ourselves? J Public Econ, 2008, 92: 91-112.44Rockenbach B. & Milinski M. The efficient interaction of indirect reciprocity and cost

145、lypunishment. Nature, 2006, 444: 718-723.45Rand D G, Ohtsuki H & Nowak M A. Direct reciprocity with costly punishment: generoustit-for-tat prevails. Theoret. Pop. Biol., 2009, 256: 45-47.参考文献5546Reeve H. Queen activation of lazy workers in colonies of the eusocial naked mole-rat. Nature,1992, 358: 1

146、47-149.47Roth A, Erev I. Learning in Extensive-form Games: Experimental Data and Simple DynamicModels in the Intermediate Term. Games and Economic Behavioral Sciences, Special Issue:Nobel Symposium, 1995, 8, 164-212.48Slonim R and RothAE. Learning in high Republic. Econometrica, 1998, 66, 569-596.49

147、Taylor P D. Altruism in viscous populations-an inclusive fitness model. Evol Ecol, 1992, 6:352-356.50Trivers R. The evolution of reciprocal altruism. Q Rev Bio, 1971, l46: 35-57.51Williams G C. Adaptation and Natural Selection. Princeton: Princeton University Press, 1966.52Wu J-J, Zhang B-Y, Zhou Z-

148、X, He Q-Q, Zheng X-D, Cressman R. & Tao Y. Costlypunishment does not always increase cooperation. Proceedings Of The National Academy OfSciences Of The United States OfAmerica. 2009; 106(41): 17448.53Wang R W, He J Z, Wang Y Q, Shi L & Li Y T. Asymmetric interaction will facilitate theevolution of c

149、ooperation. Science China: Life Sciences. 2010, 52: 1041-1046.54Wang R W, Ridley J, Sun B F, et al. Interference competition and high temperature reduce thevirulenceof fig wasps and contribute to the ecological and evolutionary stability of a fig-waspmutualism. PLoS ONE, 2009, 4: e7802.55Wang R W &

150、Shi L. The evolution of cooperation in asymmetric systems. Science China LifeScience, 2010, 53: 111.56Wang R W, Shi L, Ai S M, et al. Trade-off between the reciprocal mutualists: local resourceavailability oriented interaction in fig/fig wasp mutualism. J Anim Ecol, 2008, 77: 616-623.57West S A, Pen

151、 I, Griffin A S. Cooperation and competition between relatives. Science, 2002,296: 72-75.58Yamagishi T. The provision of a sanctioning systems as a public good. J Pers Soc Psychol,1986, 51: 110116.致谢56致谢在论文完成之际我要感谢我的导师石磊老师在我硕士研究生的学习生活中给予的关心与指导。从平时的学习、生活到论文的选题、实验的设计与组织、论文的撰写,石磊老师都给予了我大量的指引、帮助与无微不至的关怀。同时我要感谢王瑞武研究员在实验的设计与论文撰写方面给予的指导与帮助;还要感谢与我一起设计、组织实验,一路同甘共苦的同学李爽、江萍、王璐和孙俊。由于我的学术水平有限,所写论文难免有不足之处,恳请各位老师和学友批评和指正!在读期间研究成果57本人在学期间发表的研究成果1. 与同学合作作品 经验、 信息以及实力非对称对博弈策略的影响 于 2011年 10 月获第十二届挑战杯全国大学生课外学术科技作品竞赛三等奖;2. 与同学合作作品非传统实验条件下合作演化的建模分析于 2011 年10 月获 2011 年全国大学生统计建模大赛优秀奖

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 经营企划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号