1_强化学习介绍翻译解析

上传人:大米 文档编号:479879554 上传时间:2023-02-19 格式:DOC 页数:15 大小:158KB
返回 下载 相关 举报
1_强化学习介绍翻译解析_第1页
第1页 / 共15页
1_强化学习介绍翻译解析_第2页
第2页 / 共15页
1_强化学习介绍翻译解析_第3页
第3页 / 共15页
1_强化学习介绍翻译解析_第4页
第4页 / 共15页
1_强化学习介绍翻译解析_第5页
第5页 / 共15页
点击查看更多>>
资源描述

《1_强化学习介绍翻译解析》由会员分享,可在线阅读,更多相关《1_强化学习介绍翻译解析(15页珍藏版)》请在金锄头文库上搜索。

1、简介 Introduction第1章简介我们在考虑学习时, 可能最先想到的是通过与环境的交互来进行学习。一个婴儿在玩耍的时候,不存在明确的某位老师来教他如何晃动手臂或向四周张望,但是确实通过感觉器官与环境直接联系。运用这种联系能够产生一些关于起因和结果、动作的后果以及为达到目的而采取的措施等有价值的信息。在我们的生活中,这样的交互无疑是我们获得关于环境与自身的知识的主要源泉。无论我们在学习开车或是进行谈话时,我们都能准确地意识到环境对我们所做事情的反应,并且我们也会试着用自己的行为来影响环境。从交互中学习几乎是所有关于学习和智能的理论的最基本思想。在本书,我们探讨一种从交互中进行学习的计算型(

2、computational)方法。我们不是直接探索人和动物如何学习的理论,而是研究理想化的学习场景并评价各种学习方法的效果。也就是说,我们采用的是人工智能研究者或工程师的视线与角度。我们探讨一种能够让机器解决具有科学或经济价值的学习问题的设计方案,通过数学分析或计算实验来评估这些设计方案。这种方法称为强化学习(reinforcement learning),与其他机器学习方法不同的是,它 着重于从交互中进行以目标为导向的学习。1.1强化学习强化学习就是学习如何将场景(环境状态)映射到动作,以获取最大的、数值的、奖赏 信号。与大多数机器学习方法一样,学习者不被告知应该采用哪个动作,而是通过不断地

3、尝试来发现能获得最大奖赏的动作。在最有趣且最具挑战性的例子中,动作不只影响直接奖赏,而且也会影响下一场景,以至于所有的后续奖赏。这样的两个特征:试错搜索和延迟奖赏, 是强化学习的最重要特征。强化学习并不是通过描述它的学习方法而定义的,而是通过描述一个学习问题来定义的。任何适合解决这一学习问题的方法,我们都认为是强化学习方法。虽然要到第3章,我们才能根据马尔可夫决策过程的最优控制理论来完整地描述一个强化学习问题,但是,对于通过与环境的交互而达到目标的学习中的age nt, 些基本的概念就能够说明真实问题的最重要的基本思想。显然,这样的age nt必须能够在一定程度上感知环境的状态,并且必须能够采

4、取动作,所采取的动作,又会影响环境。这个age nt还必须有一个或多个与环境状态有关的目标。这样,为此而设计的公式当中必须包含三个方面一一感知能力、动作和目标,这是最简单并缺一不可的可能形式。强化学习不同于监督学习(supervised learning),监督学习是目前在机器学习、统计模式识别和人工神经网络的研究领域中,最为广泛研究的一种学习。监督学习是从样例学习, 而样例是由富有知识的外部监督者提供的。这是一种重要的学习方法,但是它不能单独地用于交互学习。在交互式问题中获得期望行为的样例通常是不切实际的,它们要求既是正确的,又能代表age nt的所有场景,在这些场景中,age nt采取动作

5、。在一些我们希望学习能够带来利益的未知领域,age nt必须能够从自身的经验中学习。一个在强化学习中存在,而在其他类型学习中不存在的挑战,是探索和利用之间的平衡。为了得到很多奖赏,强化学习age nt必须选择它过去已经尝试过的在产生奖赏方面行之有效 的动作。而为了发现这样的动作,它又必须去尝试以前没有选择过的动作。为了得到奖赏, agent必须利用它已经知道的信息,同时还必须进行探索,以便将来能选择到更好的动作。 令人为难的是,单单采用探索或只有利用都会导致任务失败。age nt必须尝试各种动作,并且渐渐趋近于那些表现最好的动作。在一个随机任务中,每个动作都必须被尝试多次才能获得对它的期望奖赏

6、的可靠估计。多年来,数学家们一直在广泛研究探索一利用这一两难问题(见第2章)。现在,我们简单地认为,探索和利用的平衡问题在监督学习中,根本就不存 在,正如它所定义的那样(样例学习阶段之后,就只有利用了)。强化学习的另一个关键特征,是它明确地提出整个问题是一个以目标为导向的age nt与不确定的环境之间交互的问题。这种学习与许多其他方法相比,其他方法只考虑了子任务, 而没有解决怎样可以把这些子任务整合到一个更大的框架中。例如,我们以前提过,许多与监督学习有关的机器学习研究都没有明确说明这样的能力最终将如何利用。其他研究者发展了一般目标规划的理论,但没有考虑在实时决策中如何进行规划,也没有考虑规划

7、所必需的预测模型将从哪里来的问题。尽管这些方法已经产生了许多有用成果,但是,它们将重点放在孤立的子问题上的做法是一个严重的局限。强化学习采用相反的方式,它从一个完全的、交互的、目标搜索的age nt开始。所有强化学习的age nt都有明确的目标,能感知环境中的各个方面,并且能选择动作来影响环境。 另外,通常我们从开始就假设:尽管age nt面对的是一个它很不了解的环境,但它必须得有所动作。如果强化学习涉及到规划,它必须处理规划和实时动作选择之间的相互影响,同时也要解决怎样获得并改进环境模型的问题。如果强化学习涉及到监督学习,那么,是因为存在着某些特定的原因,这些原因决定了哪些能力(agnet的

8、某些指标)是至关重要的,哪些却不是,这样的区分,需要外界注入(监督)。为了推进关于学习的研究,必须把重要的子问题分割开来并加以研究,尽管不能明晰整个age nt中的所有细节,但要明确这些子问题在完全的、交互的、目标搜索的age nt中的地位。包括强化学习在内的一个大趋势就是人工智能与工程学科的联系日益紧密。就在不久之前,人工智能还几乎被认为是一个完全独立于控制理论和统计学之外的领域。它必须处理逻辑和符号而非数字。人工智能就是大的 LISP程序,而不是线性代数、微分方程或者统计学。 经过几十年,这种观点在逐渐减弱。现代人工智能研究者接受了统计和控制的方法,例如,把统计和控制的方法看做相关的竞争方

9、法或者简单地把它们接纳为一种处理工具。以前被忽视的那些介于人工智能和常规工程方法之间的领域现在成为了最活跃的研究领域,包括神经网络、智能控制以及我们现在所谈的话题一一强化学习。在强化学习中,我们将把最优控制理论和随机逼近的理念,扩展到更广泛的人工智能目标中,并解决更有挑战性的目标。1.2例子理解强化学习的一个好方法,就是考虑一些导致它发展的例子和可能的应用。一个高明的棋手走棋。抉择取决于两个方面:规划(预计的可能回击和反回击)以及对特定位置和走棋的可取性的直接、直觉的判断。一个实时调整石油提炼操作参数的自适应控制器。该控制器在规定的边际成本基础上优化产量/成本/质量之间的平衡,而不严格按照工程

10、师的最初设置来执行。小牛羚在出生后几分钟内挣扎着站起来。半小时后它就能每小时跑20英里。一个移动机器人决定是进入一个新房间去寻找更多要收集的垃圾,还是寻找一条回去充电的路。它根据以前找到充电器的快慢和难易程度来作决定。Phil准备早餐。仔细考虑一下,即使是这样一个平常的行为,也揭示了一个条件行为和连锁的目标一子目标之间关系的复杂交织:走向食物柜,打开,选择一个谷物箱, 然后伸手去拿燕麦,抓住,拿走。要拿到一个碗、勺子和牛奶瓶需要其他一连串复杂、 协调、 相互影响的行为。每个步骤包括了一连串眼睛的移动,以获取信息并指导伸手和移动。我们要快速做出判断,如怎样抓住物品或者是否先将其中一些物品放到餐桌

11、上然后再去取其他物品会更好一些。每个步骤都是受目标指导的,如抓住一个勺子或者是走向冰箱,并且为其他目标服务,如一旦麦片准备好了就用勺子吃饭并最终获取营养。这些例子共同的特征就是:它们是如此基本以至很容易被忽略掉。它们都涉及一个积极作决策的age nt和它所处的环境之间的交互,尽管环境是不确定的,但是age nt试着寻找并实现目标。age nt的动作允许影响环境的未来状态(如下一个棋局,提炼厂的储量,机器人 的下一位置等),进而影响age nt以后可利用的选项和机会。正确的选择要求我们考虑间接 的、延迟的动作序列,因此也可能要求有预见性和规划。同时,在所有这些例子中,动作的影响不能完全地被预测到

12、,因此age nt必须不断监测它所处的环境并且做出恰当的反应。例如,Phil必须注视着他倒入麦片碗中的牛奶以防止溢出来。所有这些例子都包含age nt能感知的明确目标,直接根据感觉来判断距离到达目标的进度。棋手知道他是否赢了,提炼厂控制器知道生产了多少石油,移动机器人知道电池什么时候消耗尽,Phil知道他是否享受了这顿早餐。所有这些例子中,age nt可以随时间推移,禾U用它获得的经验不断提高自己的性能。棋 手能改进他估计位置的直觉;小牛羚不断提高它奔跑的效率;Phil则学着流水线地准备他的早餐。从一开始 age nt带给任务的知识(不管来自于相关任务的先验经验,还是通过设计、 进化建立起来)

13、就会对那些有用或容易学的东西有影响,但是,若要利用任务中的某些特征来调整系统的行为,与环境的交互才是至关重要的。1.3强化学习的基本要素除了 age nt和环境之外,我们可以认识一下强化学习系统的四个主要子要素:策略、奖 赏函数、值函数和一个可选的环境模型( model)。策略(policy )定义了学习 age nt在给定时间内的行为方式。简单地说,一个策略就是 从环境感知的状态到在这些状态中可采用动作的一个映射。对应在心理学中被称为刺激一反应的规则或联系的一个集合。在某些情况下策略可能是一个简单函数或查找表,而在其他情况下策略可能还涉及到大量计算,如搜索处理。策略在某种意义上说是强化学习a

14、ge nt的核心,单单只有它就可以决定行为了。一般来说,策略可以是随机的。奖赏函数(reward function)定义了在强化学习问题中的目标。简单地说,它把环境中 感知到的状态(或状态-动作对)映射为单独的一个数字,即奖赏(reward),表示该状态的内在的可取程度。强化学习age nt的唯一目标就是最大化在长期运行过程中收到的总奖赏。 奖赏函数定义了对 age nt来说什么是好和坏的事件。在生物系统中,用愉快和痛苦来定义奖 赏似乎有些不合适。而奖赏是age nt所面对的问题的直接的和规定性的特征。正因为这样,奖赏函数必须是 age nt所不能改变的。但是它可以是调整策略的基础。例如,如果

15、一个策略 所选择的动作带来的奖赏较小,那么策略就可能在将来选择其他动作。一般来说,奖赏函数可以是随机的。奖赏函数在直接层面上表示一个选择的好坏,而值函数(value function )在长期运行层面界定什么才是好的选择。简单地说,一个状态的值(value)是一个age nt从那个状态开始,到将来能预期的累积奖赏的和。奖赏决定了环境状态的直接、内在的可取性,而值表示的是把可能的后续的状态以及在这些状态中可获得的奖赏考虑在内的状态的长期可取性。例如, 一个状态可能会总是得到一个低的直接奖赏但仍有较高的值,因为跟在它后面的状态能获得高的奖赏。或者反过来也是可能的。拿人类做类比,奖赏就象快乐(奖赏高)和痛苦(奖赏 低),而值就像是我们在一个特定的环境中用更完善、更长远的目光来看我们有多开心或不 开心。我们希望这个说法的基本而熟悉的思想能够有助于理解值函数的概念。从某种意义上说奖赏是主要的,而值是对奖赏的预测,是第二位的。没有奖赏就没有值,而估计值的唯一目的就是获得更多的回报(总奖赏)。然而,我们在做决策和评价决策的时候考虑最多的却是值。动作的选择是根据值来判断的。我们选择带来最高值的动作,而不是 带来最高奖赏的动作,因为这些动作在

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 商业计划书

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号