论文开题报告提交版

资源描述

《论文开题报告提交版》由会员分享，可在线阅读，更多相关《论文开题报告提交版（7页珍藏版）》请在金锄头文库上搜索。

1、摘要强化学习是机器学习的一个重要分支，它是一种以环境反馈作为输入的，特殊的、适应环境的学习。它将环境抽象成若干状态，通过不断试错强化而产生状态到行为的最优化映射。然而实际环境的状态数无限或连续或状态不完全可知，因此很难以用数学模型精确定义系统。加上强化学习算法的收敛性较慢，因此如何能够优化的建立环境模型，如何提高算法效率就成为强化学习面临的主要问题本次课题首先介绍强化学习的概念、建立系统模型，再介绍几种经典的强化学习算法，接着介绍目前解决若干问题而提出的POMDP模型，PSR模型、HRL模型，最后就PSR模型进行算法改进。关键词：强化学习；蒙特卡诺法；TD算法；Q学习；Sasar

2、学习；POMDP模型;PSR 模型； HRL 模型强化学习技术是从控制理论、统计学、心理学等相关学科发展而来的，在人工智能、机器学习和自动控制等领域中得到广泛的研究和应用，并被认为是设计智能系统的核心技术之一。一强化学习的理论基础：1. 强化学习问题的框架：我们将有智能的学习体称为agent，将系统分成若干个状态，每个状态S可以有不同的动作选择，对应的每个选择也就有一个值函数Q (s,a)。Agent选择一个动作a作用于环境，环境接收该动作后状态发生变化(S),同时产生一个强化信号r (奖赏)给agent， agent根据这个奖赏评价刚才的动作的好坏进而修改该动作值，并选择下一动作a。对

3、于一个强化学习系统来讲，其目标是学习一个行为策略：n：S-A，使系统选择的动作能够获得环境奖赏的累计值工r最大。当一个动作导致环境给正的奖赏时这种动作的趋势就被加强，反之则减弱。强化学习的目的就是要学习从状态到动作的最佳映射，以便使奖励信号最大化。【10， 11】强化学习的框架如图：2. 环境的描述：通常，我们从五个角度对环境进行分析：【4】角度一：离散状态vs连续状态角度二：状态完全可感知vs状态部分可感知角度三：插曲式 vs 非插曲式角度四：确定性 vs 不确定性角度五：静态 vs 动态在强化学习中，我们首先考虑最简单的环境模型随机、离散状态、离散时间对其数学建模。我们通常用马

4、尔科夫模型：马尔科夫状态：一个状态信号保留了所有的相关信息，则就是马儿科夫的。马儿科夫决策过程(MDP)【2】：MDP的本质是：当状态向下一状态转移的概率和奖赏值只取决于当前状态和选择的动作，而与历史状态和动作无关。强化学习主要研究在P和R函数未知的情况下系统如何学习最优的行为策略。用rt+1表示t时刻的即时奖赏【7】，用Rt表示t时刻的累计奖赏，则Rt为t时刻开始到最后的所有奖赏和，而越后续的动作对当前影响要比t时刻奖赏逐渐减小，因此越往后的奖赏加上了一个折扣Y，这样，t时刻的奖赏总和就是Rt=rt+i+Yrt+2+Y2rt+3+=rt+i+ Y Rt+1(1)t时刻状态s的状态值(

5、表示状态s如何优秀)用Vn(s)表示，它用t时刻选择各个动作的奖赏的数学期望来表示。nnV (s)=E Rtlst=sJT=E rt+1+Y V(st+1)lst=sn(s,a)工Pa Ra + YV n (s)ss ss 2)as 注意到这里两式都是一个递推式，称为Bellman等式，写成这种形式非常便于从状态s转换到s时计算状态值。强化学习问题是要寻求一个最优的策略 *，在上面的等式中表现为寻求状态值的最优值，在不断学习强化的过程中对状态s获得一个最优值V* (s),它表示在状态s下选取最优的那个动作而获得的最大的累计奖赏回报。因此在最优策略n*下，状态s的最优值定义为：*V (s

6、) = max E rt+1+Y V(st+1)lst=saeA(s)=maxawA(s)Pa Ra + YV n(s)ss ss 3)s各种算法的最终目的便是计算各状态的最优值，并根据最优值去指导动作。经典的强化学习算法回顾：1. 动态规划算法【1】：动态规划的思想，根据2式去不断由V(s)估计V(s)的值，估计完成后下一次可以继续选择最优的动作，这样迭代到一定程度后算法收敛，每个V(s)都会收敛到一个稳定值，从而学习到一个最优的策略。用公式表示为：nVk+1 (s)=E Rtlst=sJT=E rt+i+Y V(st+i)lst=s(4)=工 n(s,a)工 Pa Ra +YVk (

7、sss ss kas 2. 蒙特卡诺算法：在强化学习中，P和R开始都是未知的，系统无法直接通过(4)式进行值函数的估计, 因此常常是是在完整的学习一次后才将学习中各步的奖赏累计用于计算经过的状态的值函数估计。称为蒙特卡诺方法。如式(5),保持n策略不变，在每次学习循环中重复的使用(5)式，将(5)式逼近于(3)式。V(st)-V(st)+ a 中卸(5)3. TD 算法：【13】结合动态规划和蒙特卡诺算法，Sutton提出基于时间差分的TD算法，它在每一步的学习中利用下式更新状态值：V(st)-V(st)+ a rt+1+Y V(st+1)-V(st)(6)TD法是一类专门用于预测问题的

8、渐进学习过程，传统的学习预测方法是由预测值和实际值之间的误差来修正参数的，而TD法是由相继预测间的误差值来完成的，当随着时间的推移预测有变化时就进行学习。三强化学习面临的主要问题我们上面讨论的强化学习模型是最简单的有限状态、离散状态、离散时间模型，而实际应用中环境比这种模型复杂得多，尤其在状态数增多后经典的强化学习算法便会面临维数灾难【12】，另外马尔科夫模型是假设所有状态都已经知道，而实际上在学习过程中会出现新的未知状态，这时为非马尔科夫模型【6】这些问题用经典的数学模型状态将无法实现。目前强化学习的主要问题就是如何寻找新的数学模型，来实现环境状态的未知和维数爆炸等问题。四当前

9、强化学习研究动态目前强化学习的研究主要集中在解决非马尔科夫模型和解决维数爆炸问题等.本文着重介绍POMDP模型、HRL模型以及由POMDP模型衍生的PSR模型等。1.部分感知状态马尔科夫模型(POMDP)解决非马尔科夫环境问题：在经典马尔科夫模型上增加状态预测，并对每个状态设置一个信度b，用于表示该状态的可信度，在决定动作时使用 b 作为依据，同时根据观察值进行状态预测，这样很好的解决一些非马尔科夫模型。2.分层强化学习模型(HRL)解决维数爆炸问题：目前解决“维数灾难”问题方法大致有四种：状态聚类法【14】、有限策略空间搜索法【15】、值函数近似法【16】、和分层强化学习【12】分层

10、强化学习是通过在强化学习的基础上增加“抽象”机制，把整体任务分解为不同层次上的子任务，使每个子任务在规模较小的子空间中求解，并且求得的子任务策略可以复用，从而加快问题的求解速度。五我的观点无论是传统的马尔科夫模型还是最新的POMDP、HRL理论，并没有哪一个算法可以适用于所有场合，它们都只是在某个特定的环境中有其特长。为此，我们的工作就是分析每个算法的优缺点，通过比较了解各个算法的使用场合。六参考文献：【1】R.S.Sutton and A.G.Barto. Reinforcement LearningM. London:MIT press,1998.【2】Kaelbling L P,L

11、ittman M L,Moore A W. Reinforcement Learning: A survey.Journal of Artificial Intelligence Research,1996,4:237285【3】Sutton R S,Barto A G. Reinforcement Learning, Cambridge,MA:The MITPress,1998【4】Gerhard Weiss. Multiagent Systems: A Modern Approach toDistributed Artificial Intelligence. Cambridge,MA:T

12、he MIT Press,1999【5】Tsitsiklis J N . Asynchronous stochastic approximation and Q-learning .Machine Learning , 1994,16(3):185202【6】Lovejoy W S . A survey of algotithmic methods for partially observed Markov decision processs. Annals of Operations Research, 1991,28:4765 【7】王钰，周志华，周傲英. 机器学习及其应用.北京：清华大学

13、出版社,2006 【8】McCulloch W,Pitts W. A logical calculus of the ideas immanent in nervous activity . Bulletin of Mathematical Biophysics,1943,5【9】洪家荣机器学习一一回顾与展望.计算机科学，1991,(02)： 1-8【10】张汝波. 强化学习理论及应用. 哈尔滨：哈尔滨工程大学出版社，2001【11】高阳，陈世福，陆鑫.强化学习研究综述自动化学报.2004,30(1):86-10012】 Barto A G , Mahadevan S . Recent Adv

14、ances in Hierarchical Reinforcement Learning . Discrete Event Dynamic Systems: Theory and Applications,2003,13(4):41-7713】Klopf A H. A neuronal model of classical conditioning. Psychobiology, 1988,16(2):85-12514】Singh S P, Jaakola T , Jordan M I . Reinforcement Learning with Soft State Aggregation .

15、 Neural Information Processing System 7 ,Cambridge , Massachusetts: MIT Press, 1995:361-36815】Moriarty D , Schultz A , Grefenstette J. Evolutionary Algotithms for Reinforment Learning. Journal of Artificial Intelligence Research, 1999,11(1):241-27616】Bertsekas D P, Tsitsiklis J N . Neuro-dynamic Programming Belmont: Athena Scientific, 1996本课题要研究或解决的问题和拟采用的研究手段（途径）：本课题主要有三大任务：一是学习强化学习的各种经典算法，比较各个算法的特征和使用场合。二是学习POMDP、PSR、HRL几个新的数学模型。三是提出创新，对于PSR模型提出算法创新。对于第一个任务，主要是查阅文献，学习几种经典算法，并编程对算法进行比较。进行算法比较时，主要考虑以下几方面：1. 算

展开阅读全文

论文开题报告提交版

最新文档