AlphaGo_Zero的原理分析报告

资源描述

《AlphaGo_Zero的原理分析报告》由会员分享，可在线阅读，更多相关《AlphaGo_Zero的原理分析报告（28页珍藏版）》请在金锄头文库上搜索。

1、计算机处理围棋复杂的能力压倒了人类 AlphaGoZero技术原理分析陈经2017年10月围棋AI是可以理解的约20篇围棋AI分析文章在观察者网新浪棋牌发表与应氏杯冠军唐韦星九段吴肇毅九段共同解说AI对人的棋局赛前独家预测到了李世石第四局战胜AlphaGo的方式分析出了AlphaGo的弱点通俗分析不需要太多算法专业知识 AlphaGoZero为什么很精彩需要了解围棋AI的历史围棋对计算机曾经多么困难 2015 2017年AlphaGo数次取得巨大进步战胜人类靠的是什么突破与难点在哪 AlphaGoZero从零知识开始学习成功意义是什么围棋是一个优美的数学问题规则极

2、简单只需要2条极简单的行棋规则即可 1 气尽提子2 禁止同形再现否则程序陷入死循环了需要打劫围棋是一个优美的数学问题由行棋规则可以推出博弈规则 1 双方占地能生存的棋子和围住的空归本方都不下了就终局数目 2 双方游戏目标是多占地至此已经可以进行游戏与优化了是一个博弈问题 3 博弈论的均衡解双方最完美的行棋达成的平衡数学问题双方分享N N个点双方博弈均衡值是多少 N 5已经解决五路棋盘均衡解黑方25个点全得七路棋盘均衡解推测为黑29子白20子李喆六段围棋是一个优美的数学问题围棋是宇宙数学中天然存在的游戏人类只是发现非发明了它胜负规则是人类强加的贴目 1

3、比赛棋盘19 19共361个交叉点黑占182 183 184 185 186 2 双方数子结果的和一定为361 白占179 178 177 176 175 3 现在黑184则负 185则胜这是为了分出胜负强加的 4 AI认为中国规则数子是自然的容易程序实现 AI是中国规则最坚定支持者 5 日韩规则数目定义不完全甚至是错误的是人强加的 AI无法理解日韩规则强行规定盘角曲四是死棋劫尽棋亡逻辑错误双活需要实战解决围棋是一个优美的数学问题东西方对围棋不同的理解东方中日韩围棋是文化艺术是竞技代表国家荣耀爱好者普遍认为围棋有深奥的战略与战术能开发智力非常有意思专

4、业与业余高手很多西方围棋是数学问题国际象棋爱好者多能领会围棋的优美与深奥的人少主要把围棋看成数学问题围棋高手极少国际象棋是一种仅仅局限于这个世界的游戏而围棋则有些不象是从地球上诞生的如果哪一天我们发现有一种天外文明和我们玩同一种游戏那一定是围棋决不会有任何疑问伊曼纽尔拉斯克 1894年26岁时成为国际象棋历史上第二位世界冠军五次卫冕 1909年研究围棋一年后伊曼纽尔拉斯克被日本高手让九子吃光但是他说围棋是数学思维的理想游戏而东方从来没有第一流的数学家我敢肯定我们能够在围棋上战胜他们他的本意是去日本学棋打败日本高手因第一次世界大战未能成行博弈论与计

5、算机算法对国际象棋与围棋的理解完全博弈树开盘是根节点按不同的下一招分出多个分支叶子节点不再需要分支国际象棋死棋或和局围棋终局数子所有可能的局面都会出现在这个完全博弈树中策梅罗定理 1913 每个节点都有确定的博弈结论黑方必胜白方必胜或和棋国际象棋应该是双方和棋顶级AI超过90 和棋但不是证明围棋如果均衡贴目双方和棋如黑184白177的均衡结果偏离均衡贴目一方必胜贴7目半执白有优势贴5目半执黑优势国际象棋局面数约10 46围棋合法局面数简单计算是3 361 精确数值是171位数 2015 2081681993819799846994786333

6、44862770286522453884530548425639456820927419612738015378525648451698519643907259916015628128546089888314427129715319317557736620397247064840935局面数都是天文数字到现在都不可能破解只能想办法设计实际的搜索算法国际跳棋已经破解国际象棋等传统棋类算法的核心概念局面评估函数局面评估函数可以静态计算仅依赖当前局面不用往前搜索局面评估函数和真实的局面情况存在误差如将黑胜的结果误判为白胜好的函数误差小适应性强没有明显bug 常见局面不出错

7、从一个节点往下搜索是改善这个节点评分的办法多算胜少算不胜利用局面评估函数进行搜索优化是棋类博弈算法的核心工作如Alpha Beta剪枝算法意思是损失巨大的分支就不用搜索了国际象棋AI战胜人类棋手符合人类直觉的传统算法局面评估剪枝搜索优化将搜索树规模降到计算机算力之内搜索代码人类知识库开局库硬件工程师软件算法工程师专业棋手国际象棋AI的算法和人类弈棋思维差不多但算得快算得深计算机国际象棋80 90年代就有相当实力因为没围棋那么复杂现在人类还有希望和AI下和国际象棋的复杂人还算能应付人类高手应对围棋复杂的办法优秀的直觉围棋高手识别局面根据局部棋形产

8、生直觉选点很多情况只此一手围棋高手的计算结果一般就是第一直觉 10秒的快棋水平与慢棋相差不大国际象棋高手更依赖于计算与评估围棋局面评估极难人类高手靠直觉围棋高手强调计算局部死活局部得失的验证是对第一直觉的验算围棋高手的局势评估会起关键作用但并不是每一招都进行感觉需要了才进行数目手割之类的评估评估不准确不同棋手观点对立计算局势评估是顶尖高手之间的竞争高手靠直觉随手下也能胜低手柯洁15秒快棋让二子胜职业低段让先胜世界冠军围棋的复杂并不仅是局面数众多深层次的复杂1 非线性子力位置稍不同就局势大变 2 死活局部死活大龙对杀弃子吃了未必胜 3 打劫

9、两手劫万年劫多重劫争 4 复杂死活复杂劫争大对杀大弃子耍大龙等局面是围棋艺术必不可少的精华围棋的局面评估极其复杂困难人类没有什么好办法 2006年前的早期围棋AI 棋力极弱代表程序手谈中山大学化学退休教授陈志行用汇编语言开发业余高手都能让10多个子引发bug甚至20个子以上 GnuGo 类似国际象棋搜索算法框架但开局库分支策略局面评估各方面都差致命弱点人写代码评估局面棋子对周边的影响累加等简单错误逻辑次要弱点根据棋形产生候选点时有错漏搜索效果极差冠军程序手谈是不搜索的多年无进展业界认为围棋AI难度极高是完全信息博弈问题的终极挑战带来研发活

10、力的突破蒙特卡洛树形搜索写代码评估局势极其困难死路一条强写出来也极弱革命性的思想蒙特卡洛树形搜索 MCTS Monte CarloTreeSearch 2006 到叶子结点就rollout 黑白轮流快速下完数子出胜负结果终局精确数子多次随机模拟局势评估胜率人不可能用这种方法下棋计算机特有的优势但快速下完也易出bug 全局思维多次模拟统计结果大局观已经强于人类不可靠的直觉 RemiCoulom 基于MCTS的围棋AI的实力代表程序日本的Zen 可以战胜一般业余棋手不如业余高手 2011 业余棋手感到兴奋对围棋AI兴趣上升积极对战 KGS 2015年11月连笑七

11、段让四子五子轻松战胜计算机围棋冠军Dolbram 职业棋界兴趣不大认为AI战胜人类还很遥远聂卫平俞斌 100年围棋AI研发者信心上升感觉到了希望乐观认为10 20年围棋AI战胜人类的导火索深度学习图像识别领域的深度学习出现突破 DCNN 2012 2015 将棋盘理解成图像建模人类高手直觉直接产生少数候选点策略网络不需要写代码用几十万局的棋局样本深度学习训练出来 2015 策略网络是图像识别软硬件技术进步的自然发展高水平围棋AI的开发变容易了人类高手脑神经为什么能产生优秀的直觉选点不清楚 AI的神经网络为什么能模仿人类的优秀直觉黑盒子解释不清但就是管用

12、围棋AI战胜人类的最重要最根本技术突破价值网络真正疯狂的想法用多层神经网络 DCNN 进行局势评估价值网络用静态的神经网络直接给出局面的胜率人脑肯定做不了电脑能行完全出人意料神经网络居然能做成价值网络这种人脑都不行的事怎么做的疯狂的办法海量服务器生成2000万局独立棋局 DavidSilver AlphaGo开发过程中的最强力武器强化学习机器海量自我对弈根据结果修改自己的神经网络系数机器独特的学习优势强化学习是学习过程在下棋的时候没有用到背后海量的资源用于学习 Deepmind的特点与思维方法是依靠机器自己改进而非人工写代码解决问题强化学习如何进行很自由

13、新领域能作出非常多改进效率提升潜力很大 DemisHassabis AlphaGo战胜李世石的工具总结综合优化多于创新策略网络提供优秀的选点另有一个快速的策略网络用于fast rollout 价值网络判断叶子节点胜率叶子节点fast rollout模拟至终局报告结果局面评估 0 5 价值网络 0 5 fast rollout 价值网络还是有缺陷 MCTS总领整个搜索框架 48个TPU海量模拟终局疯狂搜索提升棋力人类高手10万局棋谱2000万手深度学习训练出策略网络准备征子等盘面特征谷歌海量服务器生成2000万局训练出价值网络自我对弈强化学习不断改善 IBM深蓝模式软硬全面

14、提升每个技术都有人想过但加在一起做到极致 AlphaGo Lee为什么出了bug 框架很复杂技术环节很多强行拼在一起用强机保证整体效果策略网络价值网络 fast rollout三大模块都不是太可靠用MCTS互补不足框架性错误总有一定概率没补上都失效了就出bug了绝艺 DeepZenGo也经常出类似死活错误怎么也修不好只是降低出错概率 AlphaGo Lee其实也是陷入瓶颈修不好强化学习也提升不了实力了 Master是如何对人类63胜不出bug的业界都非常有兴趣在等新论文 Master是真正的突破 AlphaGoZero在论文中风光自然新论文 Maste

15、r的架构突破是最关键的有真正的干货 AlphaGoZero用的就是Master硬件配置网络架构搜索框架强化学习方法 Master 架构突破棋力突破消除bug AlphaGoZero 把结果做得更漂亮 Master网络结构的关键提升1 从AlphaGoLee的conv变到resnet 网络层数从12大幅增加至40 2 把价值与策略网络合并成一个二者其实是基于对盘面同样的理解二者各自能带来600分的等级分增幅这个等级分增幅需要强化学习来实现 Master的强化学习的重大提升策略网络的自学网络的直接输出不如MCTS搜索后输出的选择可以自学价值网络的自学网络直接给出的胜率

16、不如MCTS搜索下完后的对局结果需要改变网络结构扩大网络层数才能实施这种高效自学习成果1 Master富于创新发现很多人类想不到但是效果却不错的招法成果2 Master的价值网络持续突飞猛进自然而然在搜索中主打消除了bug 成果3 搜索速度在价值网络主导下大大加快将TPU从48个减成4个都足够了成果4 学习效率大增学习时间大幅缩短以前训练二个月的一周就行再从Master改进 AlphaGoZero水到渠成从零知识开始学脱离人类棋谱影响自然论文最大看点训练策略价值合一的网络时取消人工实现的特征直接训练出来更为自然取消搜索框架中的rollout 价值网络足够强大不需要了架构更简单围棋的知识结构强大的策略价值网络都从强化学习中来浑然天成以实际成果证明之前认为从零开始训练不可能成功是错误的人类棋谱并不是必须的甚至是有害的 AlphaGoZero从零开始学习能够成功的原因围棋漂亮的规则形成的数学空间人类难以掌握无法找到有效的局面评估方法 Master找到的网络结构能很好的抓住围棋状态空间的特征这是出人意料的 AlphaGoZero

展开阅读全文

AlphaGo_Zero的原理分析报告

最新文档