强化学习简介解析

上传人:最**** 文档编号:116693499 上传时间:2019-11-17 格式:DOC 页数:15 大小:742.31KB
返回 下载 相关 举报
强化学习简介解析_第1页
第1页 / 共15页
强化学习简介解析_第2页
第2页 / 共15页
强化学习简介解析_第3页
第3页 / 共15页
强化学习简介解析_第4页
第4页 / 共15页
强化学习简介解析_第5页
第5页 / 共15页
点击查看更多>>
资源描述

《强化学习简介解析》由会员分享,可在线阅读,更多相关《强化学习简介解析(15页珍藏版)》请在金锄头文库上搜索。

1、简介Introduction第1章 简介我们在考虑学习的本性时,可能最先想到的是通过与环境的交互来进行学习。例如,一个婴儿在玩耍时的时候,不存在明确的某位老师来教他如何晃动手臂或向四周张望,但是确实通过感觉器官与环境直接联系。运用这种联系能够产生一些关于起因和结果、动作的后果以及为达到目的而采取的措施等有价值的信息。在我们的生活中,这样的交互无疑是我们获得关于环境与自身的知识的主要源泉。无论我们在学习开车或是进行谈话时,我们都能准确地意识到环境对我们所做事情的反应,并且我们也会试着用自己的行为来影响环境。从交互中学习几乎是所有关于学习和智能的理论的最基本思想。在本书中,我们将探讨一种从交互中进

2、行学习的计算型(computational)方法。我们不是直接探索人和动物如何学习的理论,而是研究理想化的学习场景并评价各种学习方法的效果。也就是说,我们采用的是人工智能研究人员者或工程师的视线与角度。我们探讨一种设计方案,该方案能够让机器解决具有科学或经济价值的学习问题的设计方案,随后通过数学分析或计算实验来评估这些设计方案。这种方法称为强化学习(reinforcement learning),与其他机器学习方法不同的是,它着重于从交互中进行以目标为导向的学习。1.1强化学习强化学习就是学习如何将场景(环境状态)映射到动作,以获取最大的、数值的、奖赏信号。与大多数机器学习方法一样,学习者不被

3、告知应该采用哪个动作,而是通过不断地尝试来发现能获得最大奖赏的动作。在最有趣且最具挑战性的例子中,动作不只影响直接奖赏,而且也会影响下一场景,以至于所有的后续奖赏。这样的两个特征:试错搜索和延迟奖赏,是强化学习的最重要特征。强化学习并不是通过描述它的学习方法而定义的,而是通过描述一个学习问题来定义的。任何适合解决这一学习问题的方法,我们都认为是强化学习方法。虽然要到第3章,我们才能根据马尔可夫决策过程的最优控制理论来完整地描述一个强化学习问题,但是,对于通过与环境的交互而达到目标的学习中的agent,一些基本的概念就能够说明真实问题的最重要的基本思想。显然,这样的agent必须能够在一定程度上

4、感知环境的状态,并且必须能够采取动作,所采取的动作,又会影响环境。这个agent还必须有一个或多个与环境状态有关的目标。这样因此,为此而设计的公式当中必须包含三个方面感知能力、动作和目标,这是最简单并缺一不可的可能形式。强化学习不同于监督学习(supervised learning),监督学习是目前在机器学习、统计模式识别和人工神经网络的研究领域中,最为广泛研究的一种学习。监督学习是从样例学习,而样例是由富有知识的外部监督者提供的。这是一种重要的学习方法,但是它不能单独地用于交互学习。在交互式问题中获得期望行为的样例通常是不切实际的,这些样例不仅它们要求既是正确的,还要又能代表agent的所有

5、场景,在这些场景中,agent采取动作。在一些我们希望学习能够带来利益的未知领域,agent必须能够从自身的经验中学习。一个在强化学习中存在,而在其他类型学习中不存在的挑战,是探索和利用之间的平衡。为了得到更大的很多奖赏,强化学习agent必须选择它过去已经尝试过的在产生奖赏方面行之有效的动作(这就是利用)。而为了发现这样的动作,它又必须去尝试以前没有选择过的动作(这就是探索)。因此,为了得到奖赏,agent必须利用它已经知道的信息,同时还必须进行探索,以便将来能选择到更好的动作。令人为难的是,单单采用探索或只有利用都会导致任务失败。agent必须尝试各种动作,并且渐渐趋近于那些表现最好的动作

6、。在一个随机任务中,每个动作都必须被尝试多次才能获得对它的期望奖赏的可靠估计。多年来,数学家们一直在广泛研究探索利用这一两难问题(见第2章)。在这里现在,我们简单地认为,探索和利用的平衡问题在监督学习中,根本就不存在,正如它所定义的那样(样例学习阶段之后,就只有利用了)。强化学习的另一个关键特征,是它明确地提出整个问题是一个以目标为导向的agent与不确定的环境之间交互的问题。这种学习与许多其他方法相比,其他方法只考虑了子任务,而没有解决怎样可以把这些子任务整合到一个更大的框架中。例如,我们以前提过,许多与监督学习有关的机器学习研究都没有明确说明这样的能力最终将如何利用。其他研究者发展了通用的

7、一般目标规划的理论,但没有考虑在实时决策中如何进行规划,也没有考虑规划所必需的预测模型将从哪里来的问题。尽管这些方法已经产生了许多有用成果,但是,它们将重点放在孤立的子问题上的做法是一个严重的局限。强化学习采用相反的方式,它从一个完全的、交互的、目标搜索的agent开始。所有强化学习的agent都有明确的目标,能感知环境中的各个方面,并且能选择动作来影响环境。另外,通常我们从开始就假设:尽管agent面对的是一个它很不了解的环境,但它必须得有所动作。如果强化学习涉及到规划,它必须处理规划和实时动作选择之间的相互影响,同时也要解决怎样获得并改进环境模型的问题。如果强化学习涉及到监督学习,那么,是

8、因为存在着某些特定的原因,这些原因决定了哪些能力(agnet的某些指标)是至关重要的,哪些却不是,这样的区分,需要外界注入(监督)。为了推进关于学习的研究,必须把重要的子问题分割开来并加以研究,尽管不能明晰整个agent中的所有细节,但要明确这些子问题在完全的、交互的、目标搜索的agent中的地位。包括强化学习在内的一个大趋势就是人工智能与工程学科的联系日益紧密。就在不久之前,人工智能还几乎被认为是一个完全独立于控制理论和统计学之外的领域。它必须处理逻辑和符号而非数字。人工智能就是大的LISP程序,而不是线性代数、微分方程或者统计学。经过几十年,这种观点在逐渐减弱。现代人工智能研究者接受了统计

9、和控制的方法,例如,把统计和控制的方法看做相关的竞争方法或者简单地把它们接纳为一种处理工具。以前被忽视的那些介于人工智能和常规工程方法之间的领域现在成为了最活跃的研究领域,包括神经网络、智能控制以及我们现在所谈的话题强化学习。在强化学习中,我们将把最优控制理论和随机逼近的理念,扩展到更广泛的人工智能目标中,并解决更有挑战性的目标。1.2例子理解强化学习的一个好方法,就是考虑一些促使导致它发展的例子和可能的应用。n 一个高明的棋手走棋。抉择取决于两个方面:规划(预计的可能回击和反回击)以及对特定位置和走棋的可取性的直接、直觉的判断。n 一个实时调整石油提炼操作参数的自适应控制器。该控制器在规定的

10、边际成本基础上优化产量/成本/质量之间的平衡,而不严格按照工程师的最初设置来执行。n 小牛羚在出生后几分钟内挣扎着站起来。半小时后它就能每小时跑20英里。n 一个移动机器人决定是进入一个新房间去寻找更多要收集的垃圾,还是寻找一条回去充电的路。它根据以前找到充电器的快慢和难易程度来作决定。n Phil准备早餐。仔细考虑一下,即使是这样一个平常的行为,也揭示了一个条件行为和连锁的目标子目标之间关系的复杂交织:走向食物柜,打开,选择一个谷物箱,然后伸手去拿燕麦,抓住,再放回箱子拿走。要拿到一个碗、勺子和牛奶瓶需要其他一连串复杂、协调、相互影响的行为。每个步骤包括了一连串眼睛的移动,以获取信息并指导伸

11、手和移动。我们要快速做出判断,如怎样抓住物品或者是否先将其中一些物品放到餐桌上然后再去取其他物品会更好一些。每个步骤都是受目标指导的,如抓住一个勺子或者是走向冰箱,并且为其他目标服务,如一旦麦片准备好了就用勺子吃饭并最终获取营养。这些例子共同的特征就是:它们是如此基本以至很容易被忽略掉。它们都涉及一个积极作决策的agent和它所处的环境之间的交互,尽管环境是不确定的,但是agent试着寻找并实现目标。agent的动作允许影响环境的未来状态(如下一个棋子的位置局,提炼厂的储量,机器人的下一位置等),进而影响agent以后可利用的选项和机会。正确的选择要求我们考虑间接的、延迟的动作序列,因此也可能

12、要求有预见性和规划。同时,在所有这些例子中,动作的影响不能完全地被预测到,因此agent必须不断监测它所处的环境并且做出恰当的反应。例如,Phil必须注视着他倒入麦片碗中的牛奶以防止溢出来。所有这些例子都包含agent能感知的明确目标,agent能够直接根据对环境的感知来感觉来判断当前距离到达目标的进度。棋手知道他是否赢了,提炼厂控制器知道生产了多少石油,移动机器人知道电池什么时候消耗尽,Phil知道他是否享受了这顿早餐。所有这些例子中,agent可以随时间推移,利用它获得的经验不断提高自己的性能。棋手能改进他估计位置的直觉;小牛羚不断提高它奔跑的效率;Phil则学着流水线地准备他的早餐。从一

13、开始agent带给任务的知识(不管这些知识来自于相关任务的先验经验,还是通过设计、进化建立起来)就会对那些有用或容易学的东西有影响,但是,若要利用任务中的某些特征来调整系统的行为,与环境的交互才是至关重要的。1.3强化学习的基本要素除了agent和环境之外,我们可以认识一下强化学习系统的四个主要子要素:策略(policy)、奖赏函数(reward function)、值函数(value function)和一个可选的环境模型(model)。策略(policy)定义了学习agent在给定时间内的行为方式。简单地说,一个策略就是从环境感知的状态到在这些状态中可采用动作的一个映射。对应在心理学中被称

14、为刺激反应的规则或联系的一个集合。在某些情况下策略可能是一个简单函数或查找表,而在其他情况下策略可能还涉及到大量计算,如搜索处理。策略在某种意义上说是强化学习agent的核心,单单只有它就可以决定行为了。一般来说,策略可以是随机的。奖赏函数(reward function)定义了在强化学习问题中的目标。简单地说,它把环境中感知到的状态(或状态动作对)映射为单独的一个数值字,即奖赏(reward),表示该状态的内在的可取程度。强化学习agent的唯一目标就是最大化在长期运行过程中收到的总奖赏。奖赏函数定义了对agent来说什么是好和坏的事件。在生物系统中,用愉快和痛苦来定义奖赏似乎有些不合适。而

15、奖赏是agent所面对的问题的直接的和规定性的特征。正因为这样,奖赏函数必须是agent所不能改变的。但是它可以是调整策略的基础。例如,如果一个策略所选择的动作带来的奖赏较小,那么策略就可能在将来选择其他动作。一般来说,奖赏函数可以是随机的。奖赏函数在直接层面上表示一个选择的好坏,而值函数(value function)是在长期运行层面界定什么才是好的选择。简单地说,一个状态的值(value)是一个agent从那个状态开始,到将来能预期的累积奖赏的和。奖赏决定了环境状态的直接、内在的可取性,而值表示的是把可能的后续的状态以及在这些状态中可获得的奖赏考虑在内的状态的长期可取性。例如,一个状态可能

16、会总是得到一个低的直接奖赏但仍有较高的值,因为该状态的后续跟在它后面的状态能获得高的奖赏。或者反过来也是可能的。拿人类做类比,奖赏就象当前的快乐(奖赏高)和痛苦(奖赏低),而值就像是我们在一个特定的环境中用更完善、更长远的目光来看我们有多开心或不开心。我们希望这个说法的基本而熟悉的思想能够有助于理解值函数的概念。从某种意义上说奖赏是主要的,而值是对奖赏的预测,是第二位的。没有奖赏就没有值,而估计值的唯一目的就是获得更多的回报(总奖赏)。然而,我们在做决策和评价决策的时候考虑最多的却是值。动作的选择是根据值来判断的。我们选择带来最高值的动作,而不是带来最高奖赏的动作,因为这些带来最高值的动作在长期运行过程中获得的奖赏总和最多。在决策和规划中,被称为值的衍生量是我们最为关注的事情。遗憾的是,确定值比确定奖赏要难得多。奖赏可以直接由环境给出,但是值却必须从agent整个生命周期所做的观察序列中估计或者重新估计。事实上,几乎所有强化学习算法中最重要的组成部分就是能有效估计

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号