人工智能模型与算法：博弈安全

资源描述

《人工智能模型与算法：博弈安全》由会员分享，可在线阅读，更多相关《人工智能模型与算法：博弈安全（63页珍藏版）》请在金锄头文库上搜索。

1、人工智能博弈与安全人工智能模型与算法人工智能模型与算法提纲提纲 1 博弈相关博弈相关概念概念 2 遗憾最小化算法遗憾最小化算法 3 虚拟遗憾最小化算法虚拟遗憾最小化算法 4 人工智能安全人工智能安全博弈论的诞生博弈论的诞生中国古代博弈思想中国古代博弈思想子曰饱食终日无所用心难矣哉不有博弈者乎为之犹贤乎已论语阳货朱熹集注曰博局戏弈围棋也颜师古注博六博弈围碁也古语博弈所指下围棋围棋之道又蕴含古人谋划策略的智慧略观围棋法于用兵怯者无功贪者先亡围棋赋孙子兵法等讲述兵书战法的古代典籍更是凸显了古人对策略的重视博弈论的诞生

2、博弈论的诞生田忌赛马田忌赛马齐将田忌善而客待之忌数与齐诸公子驰逐重射孙子见其马足不甚相远马有上中下辈于是孙子谓田忌曰君弟重射臣能令君胜田忌信然之与王及诸公子逐射千金及临质孙子曰今以君之下驷与彼上驷取君上驷与彼中驷取君中驷与彼下驷既驰三辈毕而田忌一不胜而再胜卒得王千金于是忌进孙子于威王威王问兵法遂以为师史记孙子吴起列传对局对局齐王马齐王马田忌马田忌马结果结果 1 A A 齐王胜 2 B B 齐王胜 3 C C 齐王胜对局对局齐王马齐王马田忌马田忌马结果结果 1 A C 齐王胜 2 B A 田忌胜 3 C B 田忌胜 3

3、 0 1 2 以己之长以己之长攻彼之短攻彼之短博弈论的诞生博弈论的诞生现代博弈论的建立现代博弈论的建立博弈论 game theory 又称对策论博弈行为带有相互竞争性质的主体为了达到各自目标和利益采取的带有对抗性质的行为博弈论主要研究博弈行为中最优的对抗策略及其稳定局势协助人们在一定规则范围内寻求最合理的行为方式 1944年冯诺伊曼与奥斯卡摩根斯特恩合著博弈论与经济行为以数学形式来阐述博弈论及其应用标志着现代系统博弈理论的初步形成冯诺伊曼被称为现代博弈论之父 John von Neumann 1903 1957 Oskar Morgenstern 1

4、902 1977 Theory of Games and Economic Behavior Princeton University Press 1944 博弈论的相关概念博弈论的相关概念博弈的要素博弈的要素参与者或玩家 player 参与博弈的决策主体策略 strategy 参与者可以采取的行动方案是一整套在采取行动之前就已经准备好的完整方案某个参与者可采纳策略的全体组合形成了策略集 strategy set 所有参与者各自采取行动后形成的状态被称为局势 outcome 如果参与者可以通过一定概率分布来选择若干个不同的策略这样的策略称为混合策略 mixed strategy

5、若参与者每次行动都选择某个确定的策略这样的策略称为纯策略 pure strategy 收益 payoff 各个参与者在不同局势下得到的利益混合策略意义下的收益应为期望收益 expected payoff 规则 rule 对参与者行动的先后顺序参与者获得信息多少等内容的规定建模者对参与者 player 规定可采取的策略集 strategy sets 和取得的收益观察当参与者选择若干策略以最大化其收益时会产生什么结果两害相权取其轻两利相权取其重博弈论的相关概念博弈论的相关概念研究范式研究范式博弈论的相关概念博弈论的相关概念囚徒困境囚徒困境 prisoner s di

6、lemma 参与者参与者甲乙规则规则甲乙两人分别决策无法得知对方的选择策略策略集集认罪沉默纯策略局势及对应收益年局势及对应收益年甲认罪 0 乙沉默 10 甲认罪 5 乙认罪 5 甲沉默 10 乙认罪 0 甲沉默 0 5 乙沉默 0 5 在囚徒困境中最优解为两人同时沉默但是两人实际倾向于选择同时认罪均衡解 1950年兰德公司的梅里尔弗勒德和梅尔文德雷希尔拟定了相关困境理论后来美国普林斯顿大学数学家阿尔伯特塔克以囚徒方式阐述警方逮捕了共同犯罪的甲乙两人由于警方没有掌握充分的证据所以将两人分开审讯若一人认罪并指证对方而另一方保

7、持沉默则此人会被当即释放沉默者会被判监禁10年若两人都保持沉默则根据已有的犯罪事实无充分证据两人各判半年若两人都认罪并相互指证则两人各判5年乙沉默合作乙认罪背叛甲沉默合作二人各服刑半年乙被释放甲服刑10年甲认罪背叛甲被释放乙服刑10年二人各服刑5年囚徒困境产生的原因对甲而言若乙沉默自己认罪的收益为0 而自己也沉默则收益为 0 5 若乙认罪自己认罪则收益为 5 自己沉默则收益为 10 对乙而言若甲沉默自己认罪的收益为0 而自己也沉默则收益为 0 5 若甲认罪自己认罪的收益为 5 自己沉默则收益为 10 即对两人而言认罪的收益

8、在任何情况下都比沉默的收益高所以两人同时认罪是一个稳定的局势其他三种情况都不是稳定局势囚徒困境表明稳定局势并不一定是最优局势博弈论的相关概念博弈论的相关概念囚徒困境囚徒困境 prisoner s dilemma 参与者参与者甲乙规则规则甲乙两人分别决策无法得知对方的选择策略策略集集认罪沉默纯策略局势及对应局势及对应收益年收益年甲认罪 0 乙沉默 10 甲认罪 5 乙认罪 5 甲沉默 10 乙认罪 0 甲沉默 0 5 乙沉默 0 5 在囚徒困境中最优解为两人同时沉默但是两人实际倾向于选择同时认罪均衡解合作博弈与非合作博弈合作博弈 co

9、operative game 部分参与者可以组成联盟以获得更大的收益非合作博弈 non cooperative game 参与者在决策中都彼此独立不事先达成合作意向静态博弈与动态博弈静态博弈 static game 所有参与者同时决策或参与者互相不知道对方的决策动态博弈 dynamic game 参与者所采取行为的先后顺序由规则决定且后行动者知道先行动者所采取的行为完全信息博弈与不完全信息博弈完全信息 complete information 所有参与者均了解其他参与者的策略集收益等信息不完全信息 incomplete information 并非所有参与者均掌握了所有

10、信息囚徒困境是一种非合作不完全信息的静态博弈囚徒困境是一种非合作不完全信息的静态博弈博弈论的相关概念博弈论的相关概念博弈的分类博弈的分类博弈的稳定局势即为纳什均衡 Nash equilibrium 指的是参与者所作出的这样一种策略组合在该策略组合上任何参与者单独改变策略都不会得到好处换句话说如果在一个策略组合上当所有其他人都不改变策略时没有人会改变自己的策略则该策略组合就是一个纳什均衡 Nash定理若参与者有限每位参与者的策略集有限收益函数为实值函数则博弈必存在混合策略意义下的纳什均衡囚徒困境中两人同时认罪就是这一问题的纳什均衡 Nash J No

11、n Cooperative Games The Annals of Mathematics 54 2 1951 286 博弈论的相关概念博弈论的相关概念纳什均衡纳什均衡博弈论的相关概念博弈论的相关概念混合策略混合策略下纳什均衡的例子下纳什均衡的例子参与者雇员雇主规则雇员与雇主两人分别决策事先无法得知对方的选择混合策略集雇员偷懒不偷懒雇主检查不检查局势及对应收益雇主采取检查策略时雇员工作与偷懒对应的结果雇主采取不检查策略时雇员工作与偷懒对应的结果例子公司的雇主是否检查工作与雇员是否偷懒是雇员的贡献是雇员的工资是雇员的付出是检查的成本是雇

12、主发现雇员偷懒对雇员的惩罚没收抵押金假定雇员偷懒不偷懒雇主检查不检查是雇员的贡献是雇员的工资是雇员的付出是检查的成本是雇主发现雇员偷懒而对雇员的惩罚没收抵押金假定雇员偷懒不偷懒雇主检查不检查采取采取策略策略收益收益雇主检查 1 1 不检查 2 1 雇员偷懒 3 1 不偷懒 4 1 若雇主检查的概率为雇员偷懒的概率为博弈论的相关概念博弈论的相关概念混合策略混合策略下纳什均衡的例子下纳什均衡的例子纳什均衡其他参与者策略不变的情况下某个参与者单独采取其他策略都不会使得收益增加无论雇主是否检查雇员的收益都一样无论雇

13、员是否偷懒雇主的收益都一样于是有 1 2 以及 3 4 在纳什均衡下由于 3 4 可知雇主采取检查策略的概率雇主趋向于用这个概率去检查在纳什均衡下由于 1 2 可知雇员采取偷懒策略的概率雇员趋向于用这个概率去偷懒在检查概率为之下雇主的收益 1 2 对上式中求导则当时雇主的收益最大其值为 2 采取采取策略策略收益收益雇主检查 1 1 不检查 2 1 雇员偷懒 3 1 不偷懒 4 1 若雇主检查的概率为雇员偷懒的概率为混合策略纳什均衡博弈过程中博弈方通过概率形式随机从可选策略中选择一个策略而达到的纳什均衡被称为混合策略纳什均衡博弈

14、论的相关概念博弈论的相关概念混合策略混合策略下纳什均衡的例子下纳什均衡的例子提纲提纲 1 博弈相关概念博弈相关概念 2 遗憾最小化算法遗憾最小化算法 3 虚拟遗憾最小化算法虚拟遗憾最小化算法 4 人工智能安全人工智能安全博弈论与计算机科学博弈论与计算机科学冯诺依曼现代计算机之父现代博弈论之父博弈论与计算机科学的交叉领域非常多理论计算机科学算法博弈论人工智能人工智能多智能体系统 AI游戏玩家人机交互机器学习广告推荐互联网互联网经济共享经济分布式系统区块链人工智能与博弈论相互结合形成了两个主要研究方向博弈博弈策略的求解策略的求解博弈规则的设

15、计博弈规则的设计博弈策略求解博弈策略求解动机博弈论提供了许多问题的数学模型纳什定理确定了博弈过程问题存在解人工智能的方法可用来求解均衡局面或者最优策略主要问题如何高效求解博弈参与者的策略以及博弈的均衡局势应用领域大规模搜索空间的问题求解围棋非完全信息博弈问题求解德州扑克网络对战游戏智能 Dota 星球大战动态博弈的均衡解厂家竞争信息安全遗憾最小化算法遗憾最小化算法 Regret Minimization 若干定义若干定义假设一共有个玩家玩家所采用的策略表示为对于每个信息集 0 1 是在动作集上的概率分布函数玩家的策略空间用表示一个策略组

16、包含所有玩家策略用 1 2 表示中除了之外的策略即除去玩家所采用的策略在博弈对决中不同玩家在不同时刻会采取相应策略以及行动策略下对应的行动序列发生的概率表示为于是这里表示玩家使用策略促使行动序列发生的概率除玩家以外其他玩家通过各自策略促使行动序列发生的概率可表示为对于每个玩家表示玩家的收益函数即在到达终止序列集合中某个终止序列时玩家所得到的收益玩家在给定策略下所能得到的期望收益可如下计算遗憾最小化遗憾最小化算法算法最佳反应策略与纳什最佳反应策略与纳什均衡均衡玩家对于所有其他玩家的策略组的最佳反应策略最佳反应策略满足如下条件 max 在策略组中如果每个玩家的策略相对于其他玩家的策略而言都是最佳反应策略那么策略组就是一个纳什均衡纳什均衡 Nash equilibrium 策略纳什均衡策略组 1 2 是纳什均衡当且仅当对每个玩家满足如下条件 max 1 2 遗憾最小化遗憾最小化算法算法纳什纳什均衡与均衡与平均遗憾平均遗憾值值纳什均衡对于给定的正实数策略组是纳什均衡当且仅当对于每个玩家

展开阅读全文