围棋人机大战背后与人工智能发展课件

上传人:我*** 文档编号:141535717 上传时间:2020-08-09 格式:PPT 页数:30 大小:1.46MB
返回 下载 相关 举报
围棋人机大战背后与人工智能发展课件_第1页
第1页 / 共30页
围棋人机大战背后与人工智能发展课件_第2页
第2页 / 共30页
围棋人机大战背后与人工智能发展课件_第3页
第3页 / 共30页
围棋人机大战背后与人工智能发展课件_第4页
第4页 / 共30页
围棋人机大战背后与人工智能发展课件_第5页
第5页 / 共30页
点击查看更多>>
资源描述

《围棋人机大战背后与人工智能发展课件》由会员分享,可在线阅读,更多相关《围棋人机大战背后与人工智能发展课件(30页珍藏版)》请在金锄头文库上搜索。

1、围棋人机大战的背后与人工智能发展趋势,刘知青 北京邮电大学教授、计算机围棋研究所所长 (注:本文由刘教授于2016年4月在围棋TV上的发言整理而成),报告提纲,什么是本次围棋人机大战的看点? 为什么是围棋问题? AlphaGo是如何解决围棋问题的? 如何展望围棋人机大战之后的人工智能?,樊麾,与围棋人机大战的赛前预测,AlphaGo开发过程: 1)项目正式开始于2014年 2)2015年7月已完全超越现有AI 3)2015年10月已5:0战胜了樊麾 4)2016年1月完全超越了普通职业棋手 樊麾的提示:说我棋臭的,我承认,确实棋臭,李世石,与围棋人机大战的结果,李世石完败 李世石赢的一盘也是因

2、为AlphaGo在大幅领先局势下的失误 AlphaGo在展现强大力量的同时,也暴露潜在的问题和弱点,柯杰,与围棋人机大战的看点,不是普通意义上的挑战比赛,更是公司内部的系统测试 AlphaGo展现了独特的围棋风格 优秀的大局观和强大的总体把握能力 简明直接的局部定型,虽非最优,但瑕不掩瑜 算法仍然存在弱点,还有很大改进空间 柯杰:“就算AlphaGo战胜了李世石,但它赢不了我”,为什么是围棋?,最复杂(注:状态复杂度与博弈复杂度)的智力游戏:看似简单,实为复杂,具有10的170次方状态复杂空间。 涉及逻辑推理,形象思维,优化选择等多种人类智能(注:国际象棋只有逻辑推理,没有形象思维) 公认是人

3、工智能领域长期以来的重大挑战 国际学术界曾经普遍认为解决围棋问题需要15-20年时间,AlphaGo的核心方法,由于天文数字的状态空间和搜索空间,蛮力计算无法解决围棋问题(注:解决国际象棋的IBM深蓝是用蛮力方法,就是靠计算,这种方法在围棋这么大的计算与搜索空间是无法进行的) 围棋职业棋手的解决方法:棋感直觉+搜索验证 AlphaGo的核心方法完全类似于完全职业棋手的解决方法 AlphaGo的优势:完全以胜率为目标,不受任何其它因素影响,深度神经网络:棋感直觉,棋感直觉,是高水平围棋对弈的要素 反应了职业棋手长期学习、训练、对弈的经验积累 AlphaGo通过深度神经网络机器学习,获得围棋棋感直

4、觉,并且训练强度远超出任何棋手的个人能力(注:有的围棋对弈软件如:Zen,没有棋感直觉,每走一步软件是硬写上去的,这个是规则,不是棋感直觉。规则的覆盖面非常小,围棋的变化太多)(训练两个网络,policy network走子网络和value network估值网络),策略网络:落子棋感,深度神经网络的有监督学习 学习职业棋手和业余高段棋 手的棋谱(数十万份棋谱, 上亿数量级的落子方式) 获得在围棋盘面下的落子棋感,价值网络:胜负棋感,深度神经网络的增强型学习(DeepMind独创) 通过自我博弈,学习不同盘面下的胜负情况(三千万盘自我对局) 获取在围棋盘面的胜负棋感(注:对每一个落子点给一个当

5、时的快速的胜负感(估算),这个胜负估算并不是根据分析计算出来的,而是直觉)(通过AlphaGo几千万盘的训练学习得来的),蒙特卡洛树搜索:搜索验证,没有棋感直觉不行,完全依赖棋感直觉也不行 直觉需要通过严格的数学模型和计算方法,对棋感直觉进行验证 AlphaGo使用蒙特卡洛树搜索,对落子棋感和胜负感进行计算验证。,蒙特卡洛树搜索,蒙特卡洛模拟采样:胜负棋感验证,基于数学期望的胜负评估模型(胜率) 基于蒙特卡洛模拟进行胜负结果采样(模拟采样比直觉更可靠) 根据模拟采样结果验证盘面胜负的数学期望 可靠程度与采样规模相关(采样越大,离真理会更近些),胜负棋感验证(采用b图),最大信心上限搜索:落子棋

6、感验证,最大信心上限搜索是在线机器学习的重要方法(不同的选点通过树搜索) 平衡机器学习过程中探索与利用之间的矛盾 搜索最优的落子点,同时也是搜索次数最多的、信心最大的、胜率最高的落子点(在最优的落子点做大量的搜索),落子棋感验证(采用e图),搜索结果:双方最佳的落子序列,落子过程的最终搜索结果是双方最佳的落子序列,反映了对棋局进程的展望(不太靠谱的可能搜索5-6步就停下来,最有可能的就搜索深一些,学习上限自动做的) 在一般情况下,28步落子序列展望远远超出围棋职业选手的搜索深度 在特殊情况下(一本道),28步的搜索深度仍显不足(例如打劫,由于步数较多搜索深度可能不足,如果机器被引入一个比较复杂

7、的局面,这个局面有可能会超出它的思维搜索深度) 注:AlphaGo的底层技术还是蒙特卡洛树搜索,它用了神经网络的棋感直觉进行有效剪枝(树可以分枝不要那么宽,到了某个程度就不需要往下搜索没有意义,是过去技术的升级),搜索结果:双方最佳的落子序列-28步搜索,围棋人机大战之后的人工智能展望,人工智能的技术基础 人工智能的核心方法:直觉获取、搜索验证、优化选择 人工智能的应用展望,人工智能的三大技术基础,1、大数据 2、廉价的并行计算 3、深度神经网络(其直觉的东西就是通过深度神经网络利用大数据进行训练),人工智能的核心方法:直觉获取,直觉:不经过思考过程,很快就能出现的直接想法、感觉、信念或者偏好

8、(这个非常重要,其强大的力量。如:落子的直觉,胜负的直觉、棋盘的直觉、棋形的直觉) 英文Intuition来自于拉丁语:intueri,意思是“往里看”、“默观” 通过深度神经网络和大数据的训练而获得,人工智能的核心方法:搜索验证,验证:为直觉建立真实性、准确性和可靠性的检验过程 验证是核实直觉不存在偏差的一个充分条件 由于廉价并行计算和大数据的支持,直觉可以通过搜索计算来验证,人工智能的核心方法:优化选择,人类生活面临一系列的抉择问题(注:有了直觉和验证就可以找一个最好的) A.手里的股票是持有还是抛售 B.驾驶员到交通灯前是左拐还是右拐 直觉获取和搜索验证的结合使用,可以提供优化选择,人工

9、智能的应用展望:优化决策,国防:战略决策与战术决策 医疗:诊断决策与治疗决策 金融:投资决策与市场决策 交通:资源决策与物流决策,刘知青教授的总结1,过去10年计算机围棋一直使用新的技术:蒙特卡洛树搜索 蒙特卡洛树搜索底层有一个坚实的数学基础:上层使用并行计算,通过计算进行模拟、采样一系列的数学方法使计算机围棋有明显提高 蒙特卡洛树搜索也是AlphaGo的一个基本技术点,刘知青教授的总结2,在此之上又使用了新的技术,就是基于机器学习的神经网络 这个神经网络有很大的作用: 1、通过学习高水平棋手的棋谱,获得如何在盘面落子的棋感 2、提高机器的增强型学习,获得形势判断的棋感 这两个棋感提供给蒙特卡洛树搜索技术进行验证,从而达到目前的技术突破,刘知青教授的总结3,计算机在这次人机大战中使用了与职业棋手相似的方式,通过棋感(落子棋感、形势判断棋感)再加上逻辑判断进行落子。 计算机没有其它因素的干扰,不受情绪影响。这是它在这次人机大战的优势,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号