文档详情

世纪对弈——AlphaGo的胜利?剖析

我**
实名认证
店铺
PPTX
692.57KB
约16页
文档ID:115880465
世纪对弈——AlphaGo的胜利?剖析_第1页
1/16

世纪对弈 ——AlphaGo围棋胜利的深度透视 事件的最初与发展背景 研究者让“阿尔法围棋”和其他的围棋人工 智能机器人进行了较量,在总计495局中只输 了一局,胜率是99.8%它甚至尝试了让4子 对阵CrazyStone、Zen和Pachi三个先进的人 工智能机器人,胜率分别是77%、86%和 99% 事件的最初与发展背景 据国际顶尖期刊《自然》封面文章 报道,谷歌研究者开发的名为“阿尔法 围棋”(Alpha Go)的人工智能机器人 ,在没有任何让子的情况下,以5:0完 胜欧洲围棋冠军、职业二段选手樊麾 在围棋人工智能领域,实现了一次 史无前例的突破计算机程序能在不 让子的情况下,在完整的围棋游戏中 击败专业选手,这是第一次 事件的最初与发展背景 2016年李世石 VSAlpha Go 比赛成绩表 Alpha Go 李世石 3月09日10 3月10日10 3月12日 1 0 3月13日 0 1 3月15日 阿尔法围棋程序的下一个挑战对象是世界 围棋冠军李世石这场人工智能与人类的博弈 于2016年3月9日在首尔举行,奖金是由 Google提供的100万美金[2-5] 2016年3月12日,“AlphaGo”与韩国14冠高 手李世石之间的人机大战第三局中,李世石没 能挽回赛点,执黑中盘再次失利,在五番棋的 较量中总比分0-3落败,错失百万美元奖金。

[7] 2016年3月13日,谷歌人工智能“阿尔法围 棋”(AlphaGo)与韩国棋手李世石继续进行第四 场较量,经过4个多小时的比赛,最终李世石 战胜AlphaGo迎来首胜,终结三连败的同时将 比分扳成以1:3[8] 3月9 第一局李世石认输[9] 3月10 第二局李世石认输[10] 3月12 第三局李世石认输[11] 3月13 第四局李世石胜[12] 经过,选手资料,AlphaGo的诞生  阿尔法围棋(AlphaGo)是一款围棋人工智能程序,由位于英国伦敦的谷歌( Google)旗下DeepMind公司的戴维·西尔弗、艾佳·黄和戴密斯·哈萨比斯与他们 的团队开发,这个程序利用“价值网络”去计算局面,用“策略网络”去选择下 子2015年10月阿尔法围棋以5:0完胜欧洲围棋冠军、职业二段选手樊麾;2016年3 月对战世界围棋冠军、职业九段选手李世石[1] 经过,选手资料,AlphaGo的诞生  【赛前】自信“AI连1%的取胜机会都没有”  去年,AI专家预计电脑 要打败职业围 棋手还需要10年,但去年 10月,AlphaGo就以5:0击败了欧洲围棋冠军樊麾,震惊棋界 但即便如此,当众高手知晓AlphaGo要挑战李世石时,仍不 以为然。

 “只能说李世石运气太好了”,有着强烈自信的95后天才少年柯洁 ,赛前彻底看好人类获胜 ,“计算机战胜李世石的可能性不到百 分之五和李世石交战多年的好友古力则表示:“赢李世石1% 的可能性都没有”  上述两人代表了棋界的普遍观点,其实连AlphaGo的研发团队 ,都摸不准AI能表现出什么水平如果你问一个伟大棋手如何 决定落子位置的,他经常会告诉你‘我觉得那样比较正确’,但这 是计算机不擅长的研发团队 坦言,AI虽然有强大的计算能力 ,但在大的方面仍处劣势 经过,选手资料,AlphaGo的诞生  【赛前】自信“AI连1%的取胜机会都没有”  去年,AI专家预计电脑 要打败职业围 棋手还需要10年,但去年10月, AlphaGo就以5:0击败了欧洲围棋冠军樊麾,震惊棋界但即便如此,当众 高手知晓AlphaGo要挑战李世石时,仍不以为然  “只能说李世石运气太好了”,有着强烈自信的95后天才少年柯洁,赛前彻底 看好人类获胜 ,“计算机战胜李世石的可能性不到百分之五和李世石交战 多年的好友古力则表示:“赢李世石1%的可能性都没有”  上述两人代表了棋界的普遍观点,其实连AlphaGo的研发团队 ,都摸不准AI 能表现出什么水平。

如果你问一个伟大棋手如何决定落子位置的,他经常会 告诉你‘我觉得那样比较正确’,但这是计算机不擅长的研发团队 坦言,AI 虽然有强大的计算能力,但在大的方面仍处劣势 经过,选手资料,AlphaGo的诞生  【第一局赛后】震惊“李世石仍有五成胜率”  3月9日,首战打响,全球瞩目在全球一亿人注视下,四个小时后,李世石执黑投 子认输,让人措手不及人们开始震惊:新的时代真的到来了?  李世石首局本有取胜机会,开局阶段他占据优势,可惜李世石随后的棋路趋于保守 ,并在长时间比赛后出现失误人会疲惫,人会失误,但电脑不会,AlphaGo抓住 机会疯狂反击,李世石最终在局面大好时遭到逆转  正是因为自身失误和情绪波动的原因导致落败,这让包括李世石在内的绝大多数棋 界人士,对接下来的比赛保持乐观后面的棋我胜算还是会很大吧,胜算会是五 成吧李世石表示柯洁也跳出来向AlphaGo宣战:“就算阿法狗战胜了李世石 ,但它赢不了我!” 经过,选手资料,AlphaGo的诞生  【第二局赛后】怀疑“有不能打劫的保密协议?”  第二局,李世石再次落败但人们发现奇怪的一点:AlphaGo为何从不打劫?  除了和李世石的两局,AlphaGo此前5:0零封欧洲围棋冠军樊麾的比赛里,也没有 打劫。

同样,李世石也没有打劫网友提出疑问:是否存在秘密协议,规定不能打 劫?对于这个质疑,AlphaGo的开发团队表示,根本不存在这个所谓的秘密协议 他们也想知道,AlphaGo在对阵李世石这种高手打劫时的表现  两局下来,人们对AI的力量有了更深刻的认识如果说第一局AlphaGo的一些落子 还有待商榷,那么在第二局中,AlphaGo不但几乎没有破绽,而且有了超出人类棋 手理解范围的出招,这让古力都感叹“我们要向它学习了!”柯洁也不像之前那么 高调:“虽有信心,但不能保证稳赢 经过,选手资料,AlphaGo的诞生  【第三局赛后】服气“5个九段一起上或许能赢”  第二局结束后,李世石与几位好友进行了通宵复盘研究,寻找对付AlphaGo的策略 ,最终大家得出共同的结论:要想取胜,必须靠打劫等复杂下法才有机会获胜可 是,AlphaGo也在不停进步,这让它在第三局展现出了更强大的棋力  对弈中,李世石左下角“故意”选择了一个可能留下打劫的变化,而AlphaGo在最 后的较量中,实现了主动打劫和提劫,这也让此前盛传的阴谋论不攻自破可怕的 是,AlphaGo劫争时表现得几乎无懈可击,让李世石招架得十分辛苦。

 三局之后,按照古力的估算,人类若要打败AlphaGo需要组团作战即使柯洁出 场也下不过”,古力认为,如果顶尖棋手组团作战,把失误降到最低,或许有希望 获胜:“至少得5个九段!”(来源:重庆晨报) 经过,选手资料,AlphaGo的诞生  李世石出现“神之一手” 第四局战胜AlphaGo  13日下午,谷歌人工智能“阿尔法围棋”(AlphaGo)与韩国棋手李世石继续在韩国 首尔钟路区四季酒店进行第四场较量,经过4个多小时的比赛,最终李世石战胜 AlphaGo迎来首胜,终结三连败的同时将比分扳成以1:3 细节,舆论,名字由来 Demis Hassabis为DeepMind共同创办人暨执行长,DeepMind作为受神经科学启发的人工智能公司,于2014年1月被Google收购 ,传闻收购金额达4亿美元,成为迄今最庞大的欧洲收购案1 Demis目前担任Google DeepMind的工程部副总,带领Google团队积极投入人工智能的研发Demis小时候是一个国际象棋神童 ,仅仅13岁棋艺已达大师等级当时Demis的棋艺仅次于国际特级大师波尔加•朱迪(Polgár Judit),为世界段位第二高的棋 手。

在提前两年完成A-Level考试之前,17岁的Demis已编写好了销售超过数百万的“主题公园”(Theme Park)模拟游戏 谈到开发AlphaGO的初衷,DeepMind执行长Demis Hassabis提到他小时候很喜欢国际象棋,到了大学时期跟朋友疯狂玩围棋, 那时候用的就是IBM开发的深蓝,那时候就觉得要开发一个可以学习下棋的机器因此这个概念从20年前就有了,但是直到两 年前才开始做 目前AlphaGO的开发团队一共有9个人,3个人是Google内部员工、3个人是DeepMind、另外三位则是业界人士,而之所以会从中 国的围棋出发,Demis Hassabis表示,是因为中国的规则让电脑比较容易懂、容易吸收 而AlphaGO以一套名为“蒙特卡罗”的运算技术为基础,搭配类神经网路,从世界棋手、人类专家的技术细节,进行像是象 棋、围棋等棋局对弈的研究,然后通过两个阶段的机器学习,第一段是人工喂资料给电脑去运算,第二阶段是给予电脑在比赛 过程中去学习的程序,不管是赢还是输,每次比赛过程都会把经验学进去这个第二阶段采用的技术,叫做类神经网络,主要 是通过云端运算的方式,进行深度学习,然后进行“策略网络(Policynetwork)”与“价值网络(Valuenetwork)”的分析,程 序就像人类的大脑一般,会有自己的思考模式,这也是为什么AlphaGO可以持续进化。

AlphaGo的算法秘密  阿尔法围棋(AlphaGo)是一款围棋人工智能程 序这个程序利用“价值网络”去计算局面,用“ 策略网络”去选择下子  深度学习  阿尔法围棋(AlphaGo)的主要工作原理是“深度 学习”深度学习”是指多层的人工神经网络和 训练它的方法一层神经网络会把大量矩阵数字作 为输入,通过非线性激活方法取权重,再产生另一 个数据集合作为输出这就像生物神经大脑的工作 机理一样,通过合适的矩阵数量,多层组织链接一 起,形成神经网络“大脑”进行精准复杂的处理, 就像人们识别物体标注图片一样 AlphaGo的算法秘密  两个大脑  阿尔法围棋(AlphaGo)是通过两个不同神经网络“大脑”合作来改进下棋这些 大脑是多层神经网络跟那些Google图片搜索引擎识别图片在结构上是相似的它 们从多层启发式二维过滤器开始,去处理围棋棋盘的定位,就像图片分类器网络处 理图片一样经过过滤,13 个完全连接的神经网络层产生对它们看到的局面判断 这些层能够做分类和逻辑推理  这些网络通过反复训练来检查结果,再去校对调整参数,去让下次执行更好这个 处理器有大量的随机性元素,所以人们是不可能精确知道网络是如何“思考”的, 但更多的训练后能让它进化到更好。

AlphaGo的算法秘密  第一大脑:落子选择器 (Move Picker)  阿尔法围棋(AlphaGo)的第一个神经网络大脑是“监督学习的策略网络(Policy Network)” ,观察棋盘布局企图找到最佳的下一步事实上,它预测每一个合法 下一步的最佳概率,那么最前面猜测的就是那个概率最高的这可以理解成“落子 选择器” AlphaGo的算法秘密  第二大脑:棋局评估器 (Position Evaluator)  阿尔法围棋(AlphaGo)的第二个大脑相对于落子选择器是回答另一个问题不是 去猜测具体下一步,它预测每一个棋手赢棋的可能,在给定棋子位置情况下这“ 局面评估器”就是“价值网络(Value Network)”,通过整体局面判断来辅助落 子选择器这个判断仅仅是大概的,但对于阅读速度提高很有帮助通过分类潜在 的未来局面的“好”与“坏”,AlphaGo能够决定是否通过特殊变种去深入阅读 如果局面评估器说这个特殊变种不行,那么AI就跳过阅读在这一条线上的任何更多 落子[2-6] 。

下载提示
相似文档
正为您匹配相似的精品文档
相关文档