陆天然：博弈的最佳策略是“一报还一报”

资源描述

《陆天然：博弈的最佳策略是“一报还一报”》由会员分享，可在线阅读，更多相关《陆天然：博弈的最佳策略是“一报还一报”（8页珍藏版）》请在金锄头文库上搜索。

1、陆天然：博弈的最佳策略是“一报还一报”互联网时代的世界观关系宇宙导读之七十九由陆天然、叶舟、胡均亮合著、国务院研究室中国言实出版社出版发行的互联网时代方法论丛书第一卷互联网时代的世界观关系宇宙一书科学地论证了博弈的最佳策略是“一报还一报”。生活中的“一报还一报”合作策略什么是“一报还一报”策略？即“人不犯我，我不犯人，人若犯我，我必犯人”。为了进一步理解“一报还一报”策略，在此不妨首先看看三个小故事：故事一：一次，张作霖逛街正自得其乐，突然听到一声吆喝，吓得他打了个哆嗦，回头一看，原来是个卖豆腐脑的，挑着担子正从小巷里走出来。张大帅大怒：“给我抓起来！ ”卖豆腐脑的莫名其妙地被一直拉进大

2、帅府。“我要枪毙他！ ”张作霖说着，把小贩一直拖到操场上。只听“砰”的一声枪响，小贩即瘫软在地。不一会儿，只见小贩蠕动着身子，爬了起来。奇怪，身体丝毫无伤。这时，张作霖得意地说：“刚才你吓我一跳，现在我吓你一死。”故事二：上世纪初，张作霖所属的东北军有两名士兵无故被日本查道兵打死了，事后日方赔给士兵家属每户120元。张作霖对此十分愤怒，下令东北军：“碰到日本查道兵就打，我也有钱。”东北军得令后，很快打死了12个日兵，惹得日本驻沈阳领事跑去找张作霖，提出抗议，要求：一、惩凶；二、道歉；三、赔偿；四、保证不再有类似事件发生。结果，张作霖这样回复：一、“胡子”杀了人跑了，既捉不到，自难严惩；

3、二、不是东北军干的事，为什么要我道歉；三、东北“胡子”很多，无法保证以后不再发生，四、赔偿可办到，依日本兵打死东北军一人赔120元赔偿。日本领事闻言无可奈何，此事只好不了了之。故事三：一个面包师每天从他一位农民邻居那儿购买黄油。有一天，他觉得本应该是3磅重一包的黄油似乎太轻了点。于是他开始定期地称一称黄油，发现每回都是分量不足，这等于他每次都多付了钱。他特别生气，便开始提起诉讼。这一来事情就闹到了法官面前。“您没有天平吗？”法官问农民。“有哇，法官先生，我有一架天平。”农民回答道。“有很准的砝码吗？”“没有，法官先生，我不需要砝码。”“没有砝码，那你怎么称黄油呢？”“这好办，”农民回答说，“你

4、瞧，就在面包师从我这儿买黄油的那段时间，我也一直买他的面包。我总是要同样重的面包。每次这些面包就作为称黄油的砝码。如果砝码不准，那就不是我的过错，而是他的过错了。于是，法官判定农民无罪，而面包师不得不承担诉讼的费用。很显然，谁都不是傻瓜。我们怎样对待世界，世界就会同样对待我们；我们怎样对待周围的人，周围的人也会同样对待我们。把自己最好的东西给别人，就会从别人那里获得最好的东西。帮助别人越多，得到也会越多；愈吝啬就愈会一无所有再接着讲上文图书订货商的故事分析:刘收到了订货商的钱而未发货，是刘首先选择了背叛，那么，别人很快便不敢再交钱给刘了，不敢再跟刘往下合作下去了。刘因为第一轮先采取背

5、叛，很快被首先淘汰出局了。这就是最典型的一一一报还一报合作策略。刘如果选择合作对方也会选择继续合作。刘如果选择背叛对方也会选择直接背叛。其实，“一报还一报策略”在社会生活中最为常见：我赞美你，你立即报以笑脸；我过年送了一筐苹果给你，你“五一”送一箱“王老吉”给我；我给你挠背，你也给我洗头，等等，诸如此类的事都是最常见的一报还一报。那么，“一报还一报”合作策略究竟是聪明的策略还是愚蠢的策略？究竟会给自己带来什么呢？“一报还一报”为什么会胜利？合作是人类最有利的生存方式，多数人都相信这一结论。但多数人是否选择合作，却不一定，因为人们对他人是否合作心存疑虑。有一个著名的假设：囚徒困境。“囚徒

6、困境”是1950年美国兰德公司提出的博弈论模型。两个共谋犯罪的人被关入监狱，不能互相沟通情况。如果两个人都不揭发对方，则由于证据不确定，每个人都坐牢一年；若一人揭发，而另一人沉默，则揭发者因为立功而立即获释，沉默者因不合作而入狱 5年；若互相揭发，则因证据确实，二者都判刑 3 年。由于囚徒无法信任对方，因此倾向于互相揭发，而不是同守沉默囚徒困境讲述的就是在信息不对称的前提下，人与人合作与背叛选择中利益最大化的思维模拟。C （合作）D （背叛）C （合作）甲=3，乙=3甲=0，乙=5D （背叛）甲=5，乙=0甲=1，乙=1从上图可知，甲乙双方都选择合作，收益为 6,任何一方背叛，总收益

7、为5, 双方都选择背叛，总收益为2。以此来看，合作会比背叛有利多了。问题在于，两个囚徒真的会作出对双方有利的选择而不是只顾自己吗？现实中的囚徒，常常彼此揭发，愿意选择合作、共守秘密的反倒是极少数。因此，有人认为，虽然合作与信任是人类社会得以存在和发展的基础，但它们总会被自私所侵蚀。霍布斯甚至得出一个极悲观的结论：无论人与人还是国与国的关系，随着资源稀缺的加剧，都会变得更接近狼与狼的关系。但我们看到，现代社会虽说资源危机深重，终究没有沦为原始丛林，有合作善意的人群还没有灭绝，人与人之间的温情和信任也没有消失一一自私和克制自私，似乎同样属于人类本能。人类之所以不会堕落为狼群，可能是因

8、为，人类掌握了一个简单的“法宝”：一报还一报。为了验证这一推测，同时也是为了探索合作中不同策略的规律，美国密歇根大学政治学家罗伯特阿克塞尔罗德想出了一个聪明的办法。他向当时博弈论专家们发出了广告邀请，让有兴趣参赛的博弈论专家和一些社会学家，各自设计一种自认为最好的博弈策略，来参加他的“博弈策略”比赛第一次实验中，他收到14个“策略参赛者”比赛。加上自己的第 15个策略程度“随机策略”，也就是没有策略的策略，随机地出“合作”或“背叛”牌。如果前面14个策略在比赛中比随机策略得分还低，那就证明那个策略设计十分可悲和难堪。15个策略，共进行了 225轮相互“比赛”，每场“比赛”都玩

9、到了 200个回合。由于参赛者都是当世博弈论专家，故有些参赛程序看起来设计得非常聪明，但比赛结果却令人出乎预料。冠军策略居然是一一一报还一报。此策略是加拿大多伦多大学著名博弈论心理学家拉波波特教授提供。一报还一报策略非常简单：第一回合采取合作，然后再一回合都重复对手上一回合的策略。令人跌破眼镜的是，在15个参赛策略中，最失败的居然是那个设计最复杂的策略。“一报还一报”为什么会赢？因为当遇到合作者时，他永远采取合作，故针对合作者来说，其得分也最高。当遇到狡诈者背叛者时，你怎么来，我也怎么对付你，因此，也差不到哪里去。由此“一此还一报”得出：一是一一一开始采取合作姿态一一善良；二是不

10、首先背叛讲原则；三是一一对背叛者予以背叛惩罚一一正义；四是一一当背叛者改正后我也不再背叛一一宽恕；五是一一对合作者的高分不嫉妒一一平衡由“一报还一报”的胜利，同样也可推导出是人性的光辉的胜利，如善良、光明正大、讲原则、讲诚信，能理解别人的成功，能分享别人的成功，能包容宽恕别人等，这都是人性中最美好的部分。阿克塞尔多德组织了第一届博弈策略竞赛之后不久，又召开了第二届比赛。这次，阿克塞尔罗德共收到62套策略程度，加上他“没有策略的策略”即“随机策略”，共63套策略参赛。而且，主办者还将第一届的胜利者及原因分析都告知了参与第二次比赛策略设计的所有人。比赛结果很快又出来了，依然还是拉波波特的“一报还一

11、报”策略再度获胜。而且，善良策略普遍表现得比狡诈的策略好。在前 15名中，只有一个不是善良策略，在后15名中只有一个不是“狡诈”策略。不过，著名生物学家演化博弈论的奠基人之一史密斯设计“两怨还一报”的“超级宽恕一一好好先生”策略居然被狡诈的策略“群狼”所“击败”。正因为如此，阿克塞尔罗德又进行了一轮比赛。他没有征集新的策略，而是在改变电脑程序后，让第二届所有参赛策略再进行比寒。他想找出史密斯的“演化稳定策略”。第三届比赛结果表明：几乎所有”诡诈型“策略都在200代左右完全消失了。“一报还一报”仍表现得很出色。其他五种“善良而勇敢”、“善良而精明”、“善良聪明坚定”等策略也获得了同样的成

12、功。对于这一演化博弈结果，生物学家道金斯（名著自私基因的作者）不无感慨地归纳道：即使有自私的基因掌权控制，好人仍能得到好报!三次比赛总结出“一报还一报”胜利原因如下:胜利原因之一本性善良（第一步合作）；胜利原因之二一一正义（对丑恶立即反击）；胜利原因之三一一宽恕（你改正后我仍合作）；胜利原因之四一一诚信（我自己不首先背叛）；胜利原因之五一一平衡（不嫉妒强者）；胜利总原因是一一大爱是唯一的指引。从以上三次比赛中，我们还可以得出：关系稳定进化，是每个人都希望追求的结果。因为每个人的财富名誉地位，都得建立在稳定的关系进化上；因为每个人的快乐幸福自由，都得依靠稳定的关系进化。人与人之间有了许多相

13、处策略，唯有采取合作，采取大爱才是最佳的选择，才会使彼此共生共享共赢。否则，就会存在潜在的风险，相互在背叛中折磨。“一报还一报”的六种优良特征如何运用“一报还一报”策略？其特征是什么？下文引用一位专家的文章：“一报还一报”策略，在国内大部分人都理解为“以其人之道，还治其人之身”、“以牙还牙”等，但这些词语都是贬义词，就有误解“一报还一报”策略的意义。因此，有必要说明“一报还一报”策略的真正含义。 “一报还一报”的策略很简单，就是首先第一步选择合作，其后的每一步都选择跟对方上一步相同的策略。但是“一报还一报”策略却具有一般策略所不具有的优点。阿克塞尔罗德给出了 “一报还一报”策略 6种

14、优良特征:是具有善良性，它不首先背叛。在计算机竞赛中，凡是善良的规则之间相处得很好，也就是能得到较高收益。只要对方不背叛，每个善良的规则一定是持续合作直到最后一步。二是具有宽容性。就是别人只背叛一次，“一报还一报”只报复别人的一次。而那些不太宽容的规则有可能会在报复别人的同时，也是在自我报复，故而在计算机竞赛中这些不太宽容的规则收益也较低。因为，“一旦一方的背叛诱发一长串的报复和反报复，双方都要吃亏。”这是人们考虑“反射效应”不深入的缘故。一般的人都会想第一层次，“即选择的直接效果，那就是背叛比合作来得收益高。第二层次是选择的间接效果，即考虑对方是否会出发自己的背叛。但是第三

15、层次就很少有人考虑了，即为了反应对方的背叛行为，有人就会重复甚至扩大自己以前的挑衅性选择。一个孤立的背叛变成了一连串无休止的报复。”三是具有韧性。就是“一报还一报”策略不仅能够跟那些不太善良的策略相处而得到较高的收益，而且也能够跟那些善良的策略相处而得到较高的收益，这就表明它在很大的环境中表现极佳。四是策略具有明晰性，在使用“一报还一报”策略时，别人能够很快识别出你的策略。五是不占他人便宜。从两次竞赛的结果，“一报还一报”策略并不比其他的策略的收益高多少。因为，试图占便宜可以引起如下的风险：一种是如果一个策略用背叛试探是否可以占便宜，它就得冒被那些可激怒的规则报复的风险；另一种是双方反击一旦开始，就难以摆脱僵局；第三种是放弃了其他的一些合作机会。六是报复性，而且是即刻报复。在某些情况下，即刻报复比等一段时间才报复是有好处的，因为即刻报复，可以让对方知道背叛是会受到立即惩罚的。那么既然“一报还一报”策略自身有如此多的优点，但也还有一个缺点，那就是报复性可以形成恶性循环。比如对方由于一次疏忽而选择了背叛，那么“- 报还一报”策略也就是背叛，这样对方可能又会选择背叛，于是就有可能形成了恶性循环。虽然有形成恶性循环的可能性，但是“一报还一报”策略还是一个善良的策略。

展开阅读全文

陆天然：博弈的最佳策略是“一报还一报”

最新文档