机器人的学习控制

上传人:工**** 文档编号:564673197 上传时间:2022-11-24 格式:DOCX 页数:14 大小:215.77KB
返回 下载 相关 举报
机器人的学习控制_第1页
第1页 / 共14页
机器人的学习控制_第2页
第2页 / 共14页
机器人的学习控制_第3页
第3页 / 共14页
机器人的学习控制_第4页
第4页 / 共14页
机器人的学习控制_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《机器人的学习控制》由会员分享,可在线阅读,更多相关《机器人的学习控制(14页珍藏版)》请在金锄头文库上搜索。

1、机器人的学习控制基于轨迹的最佳控制技术 在一个不太遥远的将来,机器人将会成为人类社会日常生活中自然的一部分,在许多领域都 提供了援助,从临床应用,教育和护理,到普通家庭环境。【1】很难想象所有可能的任务都 可以在这样的机器人里被编译成程序。机器人需要具有学习的能力,要么靠自己,要么在人 类监督的帮助下。此外,在日常的使用中机器人磨损和损耗需要自动补偿,所以这就需要一 种连续自标定,这是另一种形式的学习。最后,机器人需要对随机和动态的环境作出反应, 例如,他们需要学习如何最佳适应不确定的和不可预见的变化。机器人学习将会是未来的自 主机器人的关键成分。然而机器人学习包括一个相当大的领域,从学习到感

2、知、到计划、到做决定等等,我们将这个 回顾集中于学习控制这个主题,尤其是学习控制所涉及的有关模拟或实际控制机器人。一般 来说,学习控制的过程,是指通过反复试验,不断摸索,为一个特定的控制系统和一项特定的 任务获得控制策略。通常学习控制是区别于自适应控制的。【2】因为学习系统可以拥有的 不仅仅是一般优化目标,例如:最小跟踪误差。而且在学习的过程中允许失败。而自适应控 制强调快速收敛而没有失败。因此,学习控制类似于人类和动物获得新运动策略的方式,而 自适应控制是一种需满足严格性能限制的特殊学习控制。例如,像飞机需要生命判别系统。 学习控制已经成为一个活跃的研究主题至少三十年。然而,考虑到工作机器人

3、缺乏实际使用 的学习组成成分,在机器人在实验环境之外能够做到之前还需要进一步的工作。本文将通过 一些正在进行的和过去的机器人学习方面的活动评估目前站得住脚的领域和未来发展的方 向。我们将集中讲述无滚轮机器人,在【3】【6】中用更少的主题进行典型的滚轮机器人 的探讨,然后我们在【7】,【8】中将强调学习在连续的状态活动空间而不是离散的状态活动 空间我们将举例说明不同主题的机器人学习榜样来自于我们自己的实例研究的拟人和类人 机器人。基本的学习控制 在学习控制中的关键问题是什么是应该学习的。为解决这种问题,【9】,【10】从最普遍的 学习控制框架开始是有帮助的,由于学习控制最初是在20 世纪中叶在该

4、领域的最优化理论、 最优控制,特别是动态规划发展起来的。这里,学习型控制的目标是需要获得一个正式的任 务依赖控制策略兀绘出一个连续的价值状态向量x的一个控制系统及其环境,可能依赖于一 个时刻t,构成一个连续的价值控制向量U :u 二兀(x, t, 0 )(1)参数向量0包含的这个特殊问题参数的策略兀需要通过学习系统被调整,这个控制系统一般 可以用一个非线性动力学函数所表示x = f(x,u,t, )(2)x通过观测方程y = h( x, u, t, 丫)(3)描述了观测系统y的公式如何从全状态向量x和的关系表示噪音的关系。因此,学x Y习控制意味着找到一个(通常是非线性变化)函数兀使其适合一个

5、给定的期望行为与运动系 统。一个完整的运动技能通常由很多策略组成,通过排序和累加实现复杂的运动技能。 然而控制策略如何得以学习,可以通过很多不同的方式进行。假设这个模型方程(2)和(3)都是未知的,一种经典的方法是学习这些模型函数近似的使用方法,然后根据估计模型计算 出一个控制器,这是一种在自适应控制科学领域经常被讨论的确定性等价原则【2】。这种技 术在基于模型学习的名义下被概括为间接学习或内在模式的学习。另外,自由模式的学习策 略可能带来最优化或者奖励标准,通常使用方法来自于最优控制或者加强学习。这种自由式 学习模型也被称作直接学习,因为这种策略是直接学习,没有通过模型识别这一弯路。 能区分

6、几种不同普通类的电机任务是很有用的,而这可能是学习的目标。调节的任务是保证 系统在某一特定的点上运行一一典型的例子就是使一杆在指尖或两条腿上保持平衡。跟踪任 务需要控制系统遵循在期望轨迹控制系统的能力。离散运动的任务,也称为一次性的任务, 被定义为在运动技能终止时实现一个特定的目标。篮球罚球或抓握一杯咖啡是代表性的例 子。定期运动任务在运动领域是很典型的。最后,复合运动任务是由顺序和叠加更简单的运 动技能而组成的,例如,像洗碗机或组装一个书架均能导致复合操作技能。从机器学习的角度看,机器人的学习可归为监督式学习,增强式学习,模块式学习或学习特 色表现为促进作用的学习。所有的学习方法可以从学习系

7、统的已有知识有关如何完成机动任 务中受益和模仿学习,或从示范这种很流行的介绍这种偏见中得到学习。总之,机器人学习的目标是找到一个合适的控制策略,以完成给定动作的任务,假设没有传 统的计算控制策略的方法。机器人学习的途径可分为并讨论了使用的三个方面:直接和间接 控制,使用的学习方法,任务的分类问题。(图1)Direct Versus Indirect ControlLearnirg MethodLearning .earning R&presentstions ng ModuJarity ent Learning 伽g图i机器人学习的分类沿着三个层面。主题往前的箭头上可以考虑出比主题更复杂且更接

8、 近该中心的主题。机器人学习的途径在接下来的段落里我们将使用图1分类介绍当前和以往在机器人学习方面的调查。由于篇幅 所限,这个调查并不意味着要全面,而是目前该项目在各个领域应用的说明。学习内部模型以进行控制当分析模型过于复杂而不易推导和/或当预期模型随着时间发生变化例如,由于磨损和撕裂。 使用学习获得内部控制模型是有益的。机器人使用了各种内部模型。最著名的是运动学和动 态学模型。例如,一个机器人的直接运动学模型跟变量q和实验变量y有关,也就是y g(q) 11。动态模型包括像力或力矩,如(2)以前的模型都是前瞻性的模型,也就 是,他们模仿输入与输出变量之间的因果关系,并且他们有合适的功能。然而

9、通常情况下所 需要的控制模型是相反的。例如,逆向运动学q = g_1(y)或者逆向动态学u = f 一l(q,q,t)。正如在【2】中所讨论,逆模型通常都不起作用,作为逆关系可能是一幅一对多的映射。即: 仅仅相关联。这种情况给学习问题造成一个问题,这个问题可以用特殊技术处理并将予以陈 述【13】-【16】。在学习内在模型时需要用到非线性函数逼近。值得注意的是,函数逼近对于机器人学习问题 也是必需的,这个将在以后解释,例如,代表价值功能,奖励功能,或在增强式学习中的策 略因此,函数逼近在机器人学习中具有广泛的适用性。然而在函数逼近工作领域的大多 数机器学习问题是通过在离线状态处理一个给定数据,机

10、器人的学习有需要专门的算法的几 个特点:数据大量存在,通常速率从每秒60到1000个数据点 鉴于这种连续的数据流,学习应永不止步,而是随着时间的推移永远继续而没有不会有 退化。例如,如果学习系统重复的使用相同的数据点,那么退化将发生在很多算法中。 例如,当机器人站在原地不动 鉴于最有趣的机器人系统的高维,复杂功能的学习往往不能提前预知的,而且函数逼近 系统需要能够添加新的学习资源作为学习收益 学习应能做到及时,是高效的数据(压缩最重要的信息为几个数据点)并且计算效率高 (实现实时学习和查找) 学习需要对转移输入分布有很大的韧性,例如,当作为典型一天练习书法另一天练习网 球,一个在灾难性的干扰情

11、况下讨论的话题【17】 学习需要能够从成百上千的输入规模中理想地检测出相关特性,而且它需要能够自动排 除无关紧要的和多余的输入。这些要求减小学习算法,这些算法适用于为机器人学习设置的函数逼近。一种方法是使用分 段线性且具有非参数回归技术的模型,使其具有良好的性能【17】-【22】。从本质上讲,这种技术发现是本着在一阶泰勒级数展开,输入点的线性化功能及在该部分也 称为内核)一定的误差范围内线性化保持不变的假设。学习这个部分是学习这些技术中最复 杂的部分和使用贝叶斯统计【23】及降维【22】的最新发展项目。一个新的发展是高斯过程回归(GPR)之应用于机器人的函数逼近【24】一【26】,这主要是 由

12、于越来越快的计算机硬件。GPR是一种强大的函数逼近工具,它之所以广受青睐,是因为 它具有扎实的理论基础、较高的拟合精度和相对容易应用于公共领域的软件库。由于它需要 一个翻转大小为NxN的矩阵迭代优化,其中N是校正数据点的个数,GPR能够用许多中 等数据点快速使计算资源饱和。因此,连续的可扩展性和实时学习在复杂机器人中需要进一 步的研究发展,一些研究将沿着这些路线在【25】和【27】中给出。应用程序示例 如前所述,因为逆模型的问题通常是一种关系,而不是由一个一对多的映射关系所组成的功 能,所以学习逆模型是具有挑战性的。应用任意的非线性函数逼近方法对逆模型所产生的问 题可能会导致不可预测的性能,因

13、为,校正数据可以形成不合适的取平均值非凸解空间【12】。 在控制中一个特别有趣的方法包含学习一个前向模型(这是一个合适的函数)的局部线性化 和在前向模型的局部领域学习一个逆映射。见于【15】和【28】。Ting等人【23】展示了这种前向逆转模型学习方法,它利用贝叶斯局部加权回归法BLWR) 为一项航空跟踪任务的触觉机器人手臂(图2)获得了逆转运动学模型。校正数据由手臂的关 节角度q,关节速度q,终端效应在笛卡尔空间y的位置及终端效应速度y。从这个数据,学习到了差分前向运动学模型y = J(q)q,其中J是雅克比矩阵。q到y的转变可以看做 是在一个机器人手臂的特定配置q的局部线性。BLWR过去常

14、常用线性分段方式学习前向模型。机器人任务的目标是只在特定的x, z笛卡尔位置和速度中跟踪期望轨迹(y,y),即, 运动应该看做是在机器人前面的一个垂直面上,但是这个垂直面的确切位置没有给出。因此, 这项任务有一个冗余度。要了解一个逆向运动模型,要从来自于可重复使用的线性分段前向 模型中获得局部区域,因为在这些区域中任何局部逆向也是局部线性。此外,对于局部线性 模型,所有的逆向解空间都是局部凸的,这样的逆向在学习中不会出现问题。通过根据奖励 功能对每个数据点采用额外的加权可以解决冗余问题,结果会导致奖励加权局部地加权回(图2) (a)虚拟机器人(b)逆转运动学的解决方案;吏得实际轨迹与期望轨迹之

15、间相差很小。 归【15】。图2展示了学习型逆向模型(Learned IK)在一个8字型跟踪任务的性能,学习型模型及解析 型逆向运动学解决方案在均方根跟踪位置误差和速度误差方面都非常接近于分析解决方案。 这种性能被认为取决于五分钟的实时校正数据。基于模型的学习在考虑基于模型的学习时,开始通常假设这个模型是完美的。然后,我们会讨论如何设计一 个控制器,能够很好的抑制学习型模型中的缺陷问题。传统的动态规划线性模型的控制器设计是很好理解的。强化学习工作的重点是使用动态规划衍生的设计模型 为非线性模型设计控制器。我们自己的很大一部分工作重点在于强调推回程序的维数作为记 忆和动态设计的计算成本随着状态活动

16、空间的维数呈指数式增长。当控制系统的模型已知时,动态设计提供了一种找到全局最优控制策略的方法。本节着重于 连续状态和行为的控制问题中的非线性控制的离散设计,确定时不变离线时间动态,X = f(x ,u ),和一个时不变单步损失或补偿函数L(x,u)连续时间系统的等效公式 k+1k k【29】-【31】。我们正在解决稳态策略,例如,没有时间的策略,并具有无限的时间范围。动态设计的方法之一是近似于损失函数V(x)(最优总结果损失取决于每一个状态V (x) = minu k L (x ,kU k )通过重复的解Bellman方程L(X,U) + V(f(X,U)。在采样状态直到损失函数的估计收敛到全局的最优值。典型地,对比函数和控制率有规律地表现出 应该指出的是更有效的自适应网格方法【3

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号