博弈策略的生活解

上传人:精****档 文档编号:52105528 上传时间:2018-08-18 格式:PPT 页数:53 大小:220.50KB
返回 下载 相关 举报
博弈策略的生活解_第1页
第1页 / 共53页
博弈策略的生活解_第2页
第2页 / 共53页
博弈策略的生活解_第3页
第3页 / 共53页
博弈策略的生活解_第4页
第4页 / 共53页
博弈策略的生活解_第5页
第5页 / 共53页
点击查看更多>>
资源描述

《博弈策略的生活解》由会员分享,可在线阅读,更多相关《博弈策略的生活解(53页珍藏版)》请在金锄头文库上搜索。

1、博弈策略的生活解读主讲人:黄春建 电话:18639715222走近博弈论 对于许多非数学专业和经济学专业人士来说,博弈论 应该是一个极为陌生的概念。但在国外,博弈论作为 现代经济学的前沿领域,已成为占据主流的基本分析 工具之一。 博弈之道是古已有之,但博弈思想的系统化、数学化 却是近几十年发展起来的。正是因为博弈科学是一门 新学科,我国管理界、经济界对博弈论与信息经济学 的研究还是停留在引进介绍层面上,他们发表的成果 大多是堆砌庞杂的数学算法与令人眩目的数学模型。 我们学习博弈的目的就是通过博弈相关知识及 著名的博弈案例,诸如囚徒困境、智猪博弈、 斗鸡博弈等等,研究人们如何进行决策,以及 这种

2、决策如何达到均衡的问题。每个博弈者在 决定采取何种行动时,不但要根据自身的利益 和目的行事,还必须考虑到他的决策行为对其 他人的可能影响,以及其他人的反应行为的可 能后果,通过选择最佳行动计划,来寻求收益 或效用的最大化。这门课在一定程度上,是为 了提高在校大学生感性认识和理性认识的融合 ,明白做人做事的道理,掌握分析和处理一些 事情的方法和技巧。一、博弈基础知识 博弈的定义:一些个人、团队或其他组织,面对一定 的环境条件、在一定的规则约束下,依靠所掌握的信 息,同时或先或后,一次或多次,从各自允许选择的 行为或策略进行选择并加以实施,并从中各自取得相 应结果或收益的过程。 博弈的构成要素:1

3、、博弈要有2个或2个以上的参与 者(Player) 。2、博弈要有参与各方争夺的资源或 收益(Resources或Payoff)。3、参与者有自己能够 选择的策略(Strategy)。4、参与者拥有一定量的 信息(Information)。 博弈的分类:1、分为合作博弈与非合作博弈。如果各 博弈方能达成某种有约束力的契约或默契,以选择共 同的策略,此种博弈就是合作博弈。反之,就属于非 合作博弈。2、分为零和博弈、常和博弈与变和博弈 。零和博弈指的是所有博弈方的得益总和为零 。常和 博弈则是指所有博弈方的得益总和等于非零的常数。 变和博弈则是指随着博弈参与者选择的策略不同,各 方的得益总和也不同

4、。 3、分为静态博弈与动态博弈 。所有博弈方同时或可看作同时选择策略,采取行动 的博弈是静态博弈。 4、分为完全信息博弈与不完 全信息博弈。 纳什均衡 定义:在给定别人最优的情况下,自己最优选择达成 的均衡。 假设有n个局中人参与博弈,给定其他人策略的条件下 ,每个局中人选择自己的 最优策略(个人最优策略可 能依赖于也可能不依赖于他人的战略),从而使自己 利益最大化。所有局中人策略构成一个策略组合(Strategy Profile)。纳什均衡指的是这样一种战略 组合,这种策略组合由所有参与人最优策略组成。即 在给定别人策略的情况下,没有人有足够理由打破这 种均衡。纳什均衡,从实质上说,是一种非

5、合作博弈 状态。 纳什均衡达成时,并不意味着博弈双方都处于不动的 状态,在顺序博弈中这个均衡是在博弈者连续的动作 与反应中达成的。纳什均衡也不意味着博弈双方达到 了一个整体的最优状态,以下的囚徒困境就是一个例 子。 二、囚徒困境两个共同偷窃的犯罪嫌疑人甲和 乙被带进警察局。警方对两名犯 罪嫌疑人实行隔离关押,隔离审 讯,每个犯罪嫌疑人都无法观察 同伴的选择。 警方怀疑他们作案,但手中并没 有掌握确凿证据,于是明确地分 别告知两名犯罪嫌疑人:对他们 犯罪事实的认定及相应的量刑完 全取决于他们自己的供认。如果 其中一方坦白,而另一方抵赖, 供认方将不受惩罚,无罪释放, 另一方会被重判10年;如果双

6、方 都供认,各被判5年;而如果双 方均不认罪,因为警方找不到其 他证据,则无罪释放。乙抵赖乙供认甲抵赖二人无 罪释放 甲判10 年,乙 无罪释 放 甲供认甲无罪 释放, 乙判10 年 甲乙各 判5年 体现囚徒困境基本精神背叛 形成囚徒困境的机制担心自己成为傻瓜(处于囚 徒困境时,两害相权取其轻) 启示:囚徒困境这个模型,几乎是博弈论的代名词。 两个基于“坦白从宽,抗拒从严”审讯的囚徒,从理性 的角度出发,会产生怎样的结局?结果却是,从个人 理性并追求个人利益最大化,那么二人皆坦白,也就 是背叛。这在四种策略中并不占优,那为什么不采用 集体最优策略而合作呢?很简单的集体优化,必然侵 害个人利益的

7、最大化。当然这一切前提是理性假设, 也就是著名的经济人假设:经济学中的人都是“小人” (管理学则认为人是“君子”)。破解这一困境的途径 则是打破信息孤立,而执法者的反制则是维持孤立或 者加强威胁。无论背叛还是合作,谁在这里面坚持到 最后,谁将取胜。三、重复博弈合作的开始重复博弈是一种特殊的博弈,在博弈中,同样结构的博弈重复许 多次,其中的每次博弈称为“阶段博弈”(stage games)。在每 个阶段博弈中,参与人可能同时行动,也可能不同时行动。因为其 他参与人过去的行动的历史是可以观测的,因此在重复博弈中, 每个参与人可以使自己在每个阶段选择的策略依赖于其他参与人 过去的行为。 对未来的预期

8、是影响我们行为的重要因素。一种是预期收益:我 这样做,将来有什么好处;一种是预期风险:我这样做可能将来 面临什么问题。这都将影响个人的策略。资深的博弈论专家罗伯特-奥曼在1959年指出,人与人的长期交 往是避免短期冲突、走向协作的重要机制。在现实环境中,存在着一些道德因素,可以化 解个人理性与群体理性的矛盾,维系整个社会 的稳定。 有限次的囚徒困境情况不同于无限次的囚徒困境 的重复博弈。当临近博弈的终点时,采取不合作策 略的可能性加大。即使参与人以前的所有策略均为 合作策略,如果被告知下一次博弈是最后一次,那 么肯定采取不合作的策略。所以要是博弈终点不确 定性,只要存在继续合作的机会,背叛就会

9、被抑制 。 无名氏定理:博弈中双方合作时得益最大,但若一 方不遵守合作约定,必定是另一方合作者吃亏。所 以需要引入惩罚机制:谁违约,就要处罚他,使他 不敢违约。博弈一方之所以会与另外一位合作,只 是因为他知道,如果他今天被骗,明天还能对欺骗实施惩罚。奥曼先生把这一洞察结论称之为“无名 氏定理” 启示:每一次人际交往其实都可以简化为两种基 本选择:合作还是背叛。在人际交往中普遍存 在囚徒困境:明知合作能带来双赢,但理性的 自私和信任的缺乏导致合作难以产生。而且, 如果博弈是一次性,那么必然加剧双方进行“ 坦白”的决心,选择相互背叛。而现实生活中 反复交往的人际关系,则是一种“不定次数的 重复博弈

10、”。在较长的视野内,人与人交往关 系的重复造成“低头不见抬头见”的关系,可以 使交往主体之间走向合作。4、一报还一报 人际交往个体原则 重复博弈理论上导致了合作的产生,但是谁也不能保 证合作的继续,合作的代价是建立在对方背叛的风险 之上的。如果个人放弃未来收益或当前背叛收益大于 未来收益,背叛的风险仍然存在。哪么在重复博弈怎 样的策略才是最优。经过若干科学家在计算机PK后, 及其原始的“以牙还牙”策略脱颖而出,固然这个策略 简单至极,其威力却无穷,以至于人们在推捧这一策 略的后发现,这一策略有其可怕性。一旦某个环节出 现背叛,据此原则行事的博弈将永无休止背叛下去。 所以我们又设计了修正的一报还

11、一报策略,作为人际 关系中的指导。 生活中有很多事情,法律和道德不好约束 美国密西根大学学者罗伯特爱克斯罗德提出 了一报还一报策略。他是一个政治科学家,研 究方向是人与人之间的合作关系。 研究前提:一、每个人都是自私的;二、没有 权威干预个人决策。研究的问题:一、人为什 么要合作。二、人什么时候合作、什么时候不 合作。三、如何使别人与你合作。 一报还一报策略优点: 1、善良,是指它第一部总是向对方表达善意。它坚持 永远不首先背叛对方,开始总是选择合作,而不是一 开始就选择背叛或主动作弊。 2、可激怒,是指对方出现背叛行动时,它能够及时识 别并一定要采取背叛的行动来报复,不会让背叛者逍 遥法外。

12、 3、宽容,是指它不会因为别人一次背叛,长时间怀恨 在心或者没完没了的报复,而是在对方改过自新、重 新回到合作轨道时,能既往不咎的恢复合作。 4、简单,是指它的逻辑清晰,易于识别,能让对方在 较短时间内辨别出来其策略所在。 5、不妒忌,是指它不耍小聪明,不占对方便宜,不在 任何双边关系中争强好胜。 一报还一报策略应用于现实社会的缺陷:由于现实中 的人会有误会的存在,一报还一报应用于现实社会主 要由两个缺陷:一是太容易激发背叛;二是它缺少一 个宣布“到此为止”的机制。 如何克服:在“在一在二不在三”的原则下,采用修正 的一报还一报策略,一是宽大的一报还一报,即以一 定的概率不报复对方的背叛;二是

13、悔过的一报还一报 ,即以一定的概率主动停止背叛。 处事哲学:以直报怨(摈弃以德报怨和以怨报怨)对于正在恋爱中的人们来说,获得幸福爱情的博弈原则应该是:(1)善意而不是恶意的对待恋人。这个道理很简单了,无须多 说。(2)宽容而不是尖刻地对待恋人。幸福的恋人可能并不是忠贞 不二的,当然也肯定不是见异思迁的,他们能够生活得愉快,关 键是能够彼此宽容,既宽容对方的缺点,甚至也宽容他偶尔的不 忠贞。而尖刻地对待恋人的人,对恋人的偶尔不忠贞总是不肯迁 就的人,往往也都不会幸福。 (3)强硬而不是软弱地对待恋人。就是要在我永远爱你的善意 的前提下,做到有爱必报,有恨也必报,以眼还眼,以牙还牙, 以其人之道,

14、还治其人之身。这其中,当然是要有限度和分寸的 。比如对恋人与其他异性的亲热行为,要有极其强烈的敏感与斩 钉截铁地回报,当然,每次发脾气都是有限度的,而且还要能宽 容对方。(4)简单明了而不是山环水绕地对待恋人。爱克斯罗德的实验 证明,在博弈过程中,过分复杂的策略使得对手难于理解,无所 适从,因而难以建立稳定的合作关系。其实,恋爱只是一个例子,在生活中的各种各样的人类交往中, 修正的一报还一报策略都是上上之选,因为它促进了人们之间的 长久的合作,取得了共赢。那么在交往中具体采用什么样的方法 提高合作性呢? (1)要建立持久地关系。即使是爱情,也需要建立婚姻契约以维 持双方的合作。 (2)要增强识

15、别对方行动的能力,如果不清楚对方是合作还是 不合作,就没法回报他了。 (3)要维持声誉,说要报复就一定要做到,人家才知道你是不 好欺负的,才不敢不与你合作。 (4)能够分步完成的对局不要一次完成,以维持长久关系,比 如,贸易、谈判都要分步进行,以促使对方采取合作态度。 (5)不要嫉妒人家的成功,“一报还一报“正是这样的典范。 (6)不要首先背叛,以免担上罪魁祸首的道德压力。 (7)不仅对背叛要回报,对合作也要作出回报。 (8)不要耍小聪明,占人家便宜。 友善、有原则、宽容、简单、不嫉妒朋友的成功,这些信条应是 我们每个人的为人处世之道。 五、人质困境 多个人的囚徒困境 在一群人面对威胁或损失时

16、,“第一个采取行 动”的决定是很难做出的,因为它意味着将付 出惨重代价。这个困境便就叫做人质困境。 需要协调和个人牺牲才能有所收获的事情,做 起来可能具有人们难以想像的难度。 仅仅用道德的呼唤来让人们挺身而出与邪恶作 斗争是不现实的,而且,要任何一个人在人质 困境中首先采取行动并独自承担报复的后果都 是不公平的。 解决方法:提升人的群体理性,加强沟通与合 作。 人质困境问题产生的机制称为“手风琴效应”,每一个 折叠都会推动或拉动邻近一个折叠。每一个体都做了 相同的选择,比如一车人面对两个劫匪选择沉默,但 都是错误的选择。 个体理性和完全理性: 以个体利益最大为目标的理性被称为个体理性,而有 完美的分析判断能力和不会犯选择行为的错误被称为 完全理性。完全理性包括追求最大利益的理性意识、 分析推理能力、识别判断能力、记忆能力和准确行为 能力等多方面的完美表现,其中任何一方面不完美就 不属于完全理性。六、酒吧博弈 混沌系统中的策略酒吧问题是

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号