围棋人机大战背后与人工智能发展课件

资源描述

《围棋人机大战背后与人工智能发展课件》由会员分享，可在线阅读，更多相关《围棋人机大战背后与人工智能发展课件（30页珍藏版）》请在金锄头文库上搜索。

1、围棋人机大战的背后与人工智能发展趋势,刘知青北京邮电大学教授、计算机围棋研究所所长（注：本文由刘教授于2016年4月在围棋TV上的发言整理而成）,报告提纲,什么是本次围棋人机大战的看点？为什么是围棋问题？ AlphaGo是如何解决围棋问题的？如何展望围棋人机大战之后的人工智能？,樊麾，与围棋人机大战的赛前预测,AlphaGo开发过程： 1）项目正式开始于2014年 2）2015年7月已完全超越现有AI 3）2015年10月已5:0战胜了樊麾 4）2016年1月完全超越了普通职业棋手樊麾的提示：说我棋臭的，我承认，确实棋臭,李世石，与围棋人机大战的结果,李世石完败李世石赢的一盘也是因

2、为AlphaGo在大幅领先局势下的失误 AlphaGo在展现强大力量的同时，也暴露潜在的问题和弱点,柯杰，与围棋人机大战的看点,不是普通意义上的挑战比赛，更是公司内部的系统测试 AlphaGo展现了独特的围棋风格优秀的大局观和强大的总体把握能力简明直接的局部定型，虽非最优，但瑕不掩瑜算法仍然存在弱点，还有很大改进空间柯杰：“就算AlphaGo战胜了李世石，但它赢不了我”,为什么是围棋？,最复杂（注：状态复杂度与博弈复杂度）的智力游戏：看似简单，实为复杂，具有10的170次方状态复杂空间。涉及逻辑推理，形象思维，优化选择等多种人类智能（注：国际象棋只有逻辑推理，没有形象思维）公认是人

3、工智能领域长期以来的重大挑战国际学术界曾经普遍认为解决围棋问题需要15-20年时间,AlphaGo的核心方法,由于天文数字的状态空间和搜索空间，蛮力计算无法解决围棋问题（注：解决国际象棋的IBM深蓝是用蛮力方法，就是靠计算，这种方法在围棋这么大的计算与搜索空间是无法进行的）围棋职业棋手的解决方法：棋感直觉+搜索验证 AlphaGo的核心方法完全类似于完全职业棋手的解决方法 AlphaGo的优势：完全以胜率为目标，不受任何其它因素影响,深度神经网络：棋感直觉,棋感直觉，是高水平围棋对弈的要素反应了职业棋手长期学习、训练、对弈的经验积累 AlphaGo通过深度神经网络机器学习，获得围棋棋感直

4、觉，并且训练强度远超出任何棋手的个人能力（注：有的围棋对弈软件如：Zen，没有棋感直觉，每走一步软件是硬写上去的，这个是规则，不是棋感直觉。规则的覆盖面非常小，围棋的变化太多）（训练两个网络，policy network走子网络和value network估值网络）,策略网络：落子棋感,深度神经网络的有监督学习学习职业棋手和业余高段棋手的棋谱（数十万份棋谱，上亿数量级的落子方式）获得在围棋盘面下的落子棋感,价值网络：胜负棋感,深度神经网络的增强型学习（DeepMind独创）通过自我博弈，学习不同盘面下的胜负情况（三千万盘自我对局）获取在围棋盘面的胜负棋感（注：对每一个落子点给一个当

5、时的快速的胜负感（估算），这个胜负估算并不是根据分析计算出来的，而是直觉）（通过AlphaGo几千万盘的训练学习得来的）,蒙特卡洛树搜索：搜索验证,没有棋感直觉不行，完全依赖棋感直觉也不行直觉需要通过严格的数学模型和计算方法，对棋感直觉进行验证 AlphaGo使用蒙特卡洛树搜索，对落子棋感和胜负感进行计算验证。,蒙特卡洛树搜索,蒙特卡洛模拟采样：胜负棋感验证,基于数学期望的胜负评估模型（胜率）基于蒙特卡洛模拟进行胜负结果采样（模拟采样比直觉更可靠）根据模拟采样结果验证盘面胜负的数学期望可靠程度与采样规模相关（采样越大，离真理会更近些）,胜负棋感验证（采用b图）,最大信心上限搜索：落子棋

6、感验证,最大信心上限搜索是在线机器学习的重要方法（不同的选点通过树搜索）平衡机器学习过程中探索与利用之间的矛盾搜索最优的落子点，同时也是搜索次数最多的、信心最大的、胜率最高的落子点（在最优的落子点做大量的搜索）,落子棋感验证（采用e图）,搜索结果：双方最佳的落子序列,落子过程的最终搜索结果是双方最佳的落子序列，反映了对棋局进程的展望（不太靠谱的可能搜索5-6步就停下来，最有可能的就搜索深一些，学习上限自动做的）在一般情况下，28步落子序列展望远远超出围棋职业选手的搜索深度在特殊情况下（一本道），28步的搜索深度仍显不足（例如打劫，由于步数较多搜索深度可能不足，如果机器被引入一个比较复杂

7、的局面，这个局面有可能会超出它的思维搜索深度）注：AlphaGo的底层技术还是蒙特卡洛树搜索，它用了神经网络的棋感直觉进行有效剪枝（树可以分枝不要那么宽，到了某个程度就不需要往下搜索没有意义，是过去技术的升级）,搜索结果：双方最佳的落子序列-28步搜索,围棋人机大战之后的人工智能展望,人工智能的技术基础人工智能的核心方法：直觉获取、搜索验证、优化选择人工智能的应用展望,人工智能的三大技术基础,1、大数据 2、廉价的并行计算 3、深度神经网络（其直觉的东西就是通过深度神经网络利用大数据进行训练）,人工智能的核心方法：直觉获取,直觉：不经过思考过程，很快就能出现的直接想法、感觉、信念或者偏好

8、（这个非常重要，其强大的力量。如：落子的直觉，胜负的直觉、棋盘的直觉、棋形的直觉）英文Intuition来自于拉丁语：intueri，意思是“往里看”、“默观” 通过深度神经网络和大数据的训练而获得,人工智能的核心方法：搜索验证,验证：为直觉建立真实性、准确性和可靠性的检验过程验证是核实直觉不存在偏差的一个充分条件由于廉价并行计算和大数据的支持，直觉可以通过搜索计算来验证,人工智能的核心方法：优化选择,人类生活面临一系列的抉择问题（注：有了直觉和验证就可以找一个最好的） A.手里的股票是持有还是抛售 B.驾驶员到交通灯前是左拐还是右拐直觉获取和搜索验证的结合使用，可以提供优化选择,人工

9、智能的应用展望：优化决策,国防：战略决策与战术决策医疗：诊断决策与治疗决策金融：投资决策与市场决策交通：资源决策与物流决策,刘知青教授的总结1,过去10年计算机围棋一直使用新的技术：蒙特卡洛树搜索蒙特卡洛树搜索底层有一个坚实的数学基础：上层使用并行计算，通过计算进行模拟、采样一系列的数学方法使计算机围棋有明显提高蒙特卡洛树搜索也是AlphaGo的一个基本技术点,刘知青教授的总结2,在此之上又使用了新的技术，就是基于机器学习的神经网络这个神经网络有很大的作用： 1、通过学习高水平棋手的棋谱，获得如何在盘面落子的棋感 2、提高机器的增强型学习，获得形势判断的棋感这两个棋感提供给蒙特卡洛树搜索技术进行验证，从而达到目前的技术突破,刘知青教授的总结3,计算机在这次人机大战中使用了与职业棋手相似的方式，通过棋感（落子棋感、形势判断棋感）再加上逻辑判断进行落子。计算机没有其它因素的干扰，不受情绪影响。这是它在这次人机大战的优势,

展开阅读全文