MathorCup竞赛优秀论文

资源描述

《MathorCup竞赛优秀论文》由会员分享，可在线阅读，更多相关《MathorCup竞赛优秀论文（23页珍藏版）》请在金锄头文库上搜索。

1、评委一评分,签名与备注队号：10302评委三评分,签名与备注评委二评分,签名与备注选题：A:2048评委四评分,签名与备注题目：基于Monte Carlo局面评估和UCT博弈树搜索的2048摘要本文首先提出Random-Max-Trees算法来实现人工智能的2048.此算法是通过静态评估函数来求得最优解.但是在实现的过程中出现冗余的现象,当移动方格步数过多的时候,好的评估函数却很难找到,使Random-Max-Trees算法效率降低.随后本论文采用Alpha-Beta算法,是前者的一种改进,在搜索结点数一样的情况下,可以使搜索深度达到原来的两倍.在实现的过程中发现Alpha-Beta严重依赖于

2、着法的寻找顺序.只有当程序挑最好的子节来当先搜索,才会接近于实际分枝因子的平方根,也是该算法最好的状态.但是在首先搜索最坏的子节时,Beta截断不会发生,此时该算法就如同Random-Max-Trees一样,效率非常低,也失去Alpha-Beta的优势,也无法试图通过面的搜索来弥补策略上的不足.本文采用蒙特卡洛评估对以上模型进行了改进.它通过对当前局面下的每个的可选点进行大量的模拟来得出相应的胜负的统计特性,在简单情况下,胜率较高的点就可以认为是较好的点予以选择.由于UCT算法能不断根据之前的结果调整策略,选择优先评估哪一个可下点.所以在蒙特卡洛德基础上运用UCT算法提高收敛速度.可求得概率为

3、100%.对于第二问,采用归纳法以与概率论量化数值,当方格为时,最大能达到,如果将方格扩展到个,能达到的最大数为.最后对模型进行评价.本论文算法是采用JAVA、C+以与MATLAB实现.关键字：Random-Max-Trees；Alpha-beta；Monte Carlo；UTC；概率论基于Monte Carlo局面评估和UCT博弈树搜索的20481 问题提出2048是最近一款非常火爆的益智游戏,很多网友自称一旦玩上它就根本停不下来.2048游戏的规则很简单：每次控制所有方块向同一个方向运动,两个相同数字的方块撞在一起之后合并成为他们的和,每次操作之后会在空白的方格处随机生成一个2或者4,最终

4、得到一个2048的方块就算胜利了.如果16个格子全部填满并且相邻的格子都不相同也就是无法移动的话,那么游戏就会结束.本文将建立数学模型,解答下列问题：1. 如何才能达到2048,给出一个通用的模型,并采用完成游戏所需移动次数和成功概率两个指标来验证模型的有效性；2. 得到2048之后,游戏还可以继续玩,那么最大能达到多大的数值呢？如果将方格扩展到N*N个,能达到的最大数是多少？2 问题分析本文首先基于Random-Max-Trees和Alpha-beta剪枝算法来实现人工智能AI的2048.本文认为可以把2048游戏看成是一场人类和计算机的博弈,人类控制所有方块向同一个方向移动并合并,计算机则

5、在空白处随机放置一个2或4的方块.但是在AI的环境下,博弈双方都是计算机,双方都不理性,所以在AI的环境下,选用更加保守的Random-Max-Trees博弈策略比选用Mini-Max-Tree的更加适当.如果把当前格局作为博弈树的父节点,把下一步所有可能的走法所造成的格局作为树的一个子节点,如果继续使用Random-Max-Trees算法,则此算法的效率很不理想,会造成许多不必要的步骤.因为每一个子节后面还有子节,可能的情况很多循环往复,直到2048为止,但是并不是所有的节点都必须搜索完毕,有些节点是不必要的.为了解决这一问题,本文可以采用Alpha-beta剪枝算法.对于第一问为实现204

6、8的这种情况,蒙特卡洛评估是一个很好的解决方法,它通过对当前局面下的每个的可选点进行大量的模拟来得出相应的胜负的统计特性,在简单情况下,胜率较高的点就可以认为是较好的点予以选择.UCT在蒙特卡洛评估算法的基础上很大的提高了收敛速度,UCT能不断根据之前的结果调整策略,选择优先评估哪一个可下点,基于此策略从而也可以得到第二问的答案.对于第二问,如何计算出最大值是有条件的,对有随机值的问题,我们需要量化数值,如果考虑随机那么就有不确定性,这会使我们无法接近最大值,所以在最开始就直接规定好,取4来作为加数,因为这是累计的题目,4比2大,所以在有限的范围内,4的总和肯定比2的总和大.规定好数值,开始计

7、算最大值.最大值是2的倍数,通过玩2048已经知道相同的数可以合并形成更大的数,合并一个数需要有两个数的空间,通过这一规律我们可以知道当格子都排满的情况下,还是有可能进行数字的合并的,如果可以进行合并的话,那就又增加一个4,这时又是满格的情况,如果合并过的数再次进行和并又再次产生一个空位,那么以此类推用过可以产生15次空格,那么,这15有同时增加了15次4,通过这些新加入的4,数值会进一步的增加.3 模型的假设1) Alpha-Beta有比Minimax搜索算法更加准确的评估函数才能保证那些优秀的节点不被过早的剪枝；2) 博弈树较小而可以被完全展开,博弈树叶子节点的价值可以通过胜负关系来确定,

8、搜索的结果就是最优解；3) 博弈树很大而不能被完全展开时,博弈树叶子节点的价值可以通过静态评估函数计算出来,当静态评估函数较为准确时,就可以得到相应的近似最优解；4 符号说明D：2048中块数的最大数值N：无数字块数I: minimax的最小值Fi:定义在上的实值函数:第台机器到目前为止的平均收益:第台机器被测试的次数:所有机器目前被测试的总次数5 型建立与求解5.1. 问题一5.1.1 Random-Max-Trees算法 Random-Max-Trees是从Minimax算法改变而来.只是加了一个条件,双方都是非理性的条件下,本质还是Minimax.Minimax的定义 1.1是定义在上的

9、实值函数.它等价于非线性优化问题 1.2 1.3可用求解约束问题的算法求解问题1.2-,从而得到Minimax问题的解.假设在博弈过程中,对方总是选择使得博弈值最小的移动,我方则会选择博弈值最大的移动,对方称为Min,则我方称为Max,且都是非理性的.由于博弈双方是交替移动的,所以博弈树的结点与其父结点分属于我方与对方其中的一个,其种类分属Max和Min.博弈树上的每个结点对应于一个深度,叶结点的深度为0.因此,在任意的结点node,对博弈双方均最优的博弈值为由此,很自然地得出Random-Max-Trees算法,用来求出满足一些条件的二人零和博弈问题的博弈值.5.1.2. Alpha-bet

10、a剪枝算法Alpha-beta算法是对Minimax算法的优化,运行效率比Minimax更高,自然也比Random-Max-Trees快.Random-Max-Trees算法在检查整个博弈树,效率非常低的,当步数越来越多的时候,每次搜索更深一层时,树的大小就呈指数式增长,工作量越来越大,存在着2种明显的冗余现象,自然降低了搜索的效率.第1种现象是极大值冗余.在图1-a中,节点A的值应是节点B和节点C的值中之较大者.现在已知节点B的值大于节点D的值.由于节点C的值应是它的诸子节点的值中之极小者,此极小值一定小于等于节点D的值,因此亦一定小于节点B的值,这表明,继续搜索节点C的其他诸子节点E, F

11、,已没有意义,它们不能做任何贡献,于是把以节点C为根的子树全部剪去.这种优化称为Alpha剪枝.在图1-b是与极大值冗余对偶的现象,称为极小值冗余.节点A的值应是节点B和节点C的值中之较小者.现在已知节点B的值小于节点D的值.由于节点C的值应是它的诸子节点的值中之极大者,此极大值一定大于等于节点D的值,因此也大于节点B的值,这表明,继续搜索节点C的其他诸子节点已没有意义,并可以把以节点C为根的子树全部剪去,这种优化称为Beta剪枝.而Alpha-beta算法是在众多路线里尽可能选择最好的线路.要想通过检查搜索树的前面几层,并且在叶子结点上用启发式的评价,那么做尽可能深的搜索是很重要的.下面通过

12、比较来进一步了解Random-Max-Trees算法与Alpha-beta剪枝算法的关系.A. 对于一个Min节点,若能估计出其倒推值的上确界Beta,并且这个Beta值不大于Min的父节点的估计倒推值的下确界Alpha,即AlphaBeta,则就不必再扩展该Min节点的其余子节点了,因为这些节点的估值对Min父节点的倒推值已无任何影响了,这一过程称为Alpha剪枝.B. 对于一个Max节点,若能估计出其倒推值的下确界Alpha,并且这个Alpha值不小于Max的父节点的估计倒推值的上确界Beta,即AlphaBeta,则就不必再扩展该Max节点的其余子节点了,因为这些节点的估值对Max父节点

13、的倒推值已无任何影响了.这一过程称为Beta剪枝.C. 一个Max节点的Alpha值等于其后继节点当前最大的最终倒推值,一个Min节点的Beta值等于其后继节点当前最小的最终倒推值图1-a 图1-b采用Alpha-beta剪枝,可以在相同时间内加大Random-Max-Trees的搜索深度,因此可以获得更好的效果.5.1.3. 问题一模型的建立与求解1) 本论文对2048游戏进行抽象化表述：我方：即游戏玩家每次可以选择上、下、左、右四个行棋策略中的一种某些格局会少于四种,因为有些方向不可走.行棋后方块按照既定逻辑移动与合并,格局转换完成.对方：计算机在当前任意空格子里放置一个方块,方块的数值

14、可以是2或4.放置新方块后,格局转换完成.胜利条件：出现某个方块的数值为2048.失败条件：格子全满,且无法向四个方向中任何一个方向移动均不能触发合并.这样分析,于是2048游戏就可化成建立一个模型解决信息对称的双人对弈问题.2) 评价当前格局的价值在2048中,除了终局外,中间格局并无非常明显的价值评价指标,因此需要用一些启发式的指标来评价格局.那些分数高的好格局是容易引向胜利的格局,而分低的坏格局是容易引向失败的格局.本文采用了如下几个启发式指标,如下：孤立空格数字平滑性单调性空格数对方选择的剪枝解释：单调性单调性指方块从左到右、从上到下均遵从递增或递减.一般来说,越单调的格局越好.2平滑

15、性是指每个方块与其直接相邻方块数值的差,其中差越小越平滑.例如2旁边是4就比2旁边是128平滑.一般认为越平滑的格局越好.3空格数这个很好理解,因为一般来说,空格子越少对玩家越不利.所以我们认为空格越多的格局越好.4孤立空格数这个指标评价空格被分开的程度,空格越分散则格局越差.5对方选择的剪枝在这个程序中,除了采用Alpha-beta剪枝外,在Min节点还采用了另一种剪枝,即只考虑对方走出让格局最差的那一步而实际2048中计算机的选择是随机的,而不是搜索全部对方可能的走法.这是因为对方所有可能的选择为空格数2,如果全部搜索的话会严重限制搜索深度.3.可以找实验玩家获得数据,再进行因子分析,根据这五种因素对到达2048步数的影响确定权重.5.1.4. 问题一模型的改进5.1.4.1蒙特卡罗算法蒙特卡罗方法也称为随机模拟方法,是一种最优有限的搜索方法.它的基本思想是,为了求解数学

展开阅读全文