基于伪逆的反复学习控制（翻译一）

资源描述

《基于伪逆的反复学习控制（翻译一）》由会员分享，可在线阅读，更多相关《基于伪逆的反复学习控制（翻译一）（13页珍藏版）》请在金锄头文库上搜索。

1、基于伪逆的反复学习控制学习控制是用于一固定时间间隔内重复作用的跟踪控制的有效方法。本文给出一种反复学习控制算法，适用于一些具有扰动和初始误差的非线性非最小相位对象。该算法要求对一线性对象的近似转换而非精确转换。这种方法的一个优点是不需区分对象的输出。渐进轨迹误差的范围通过一精确的试验列出，并且可以看到其随着扰动范围持续的增大。该控制器的结构是这样的，其低频部分的轨迹汇合要比高频部分快。索引术语反复学习控制，非线性跟踪，伪逆。I. 绪论反复学习控制用到了一类自调整控制器，其某一特定任务的系统性能在同一任务先前性能的基础上逐渐改善和完美。学习控制的最常见应用是在工业生产的机器人控制领域，这里要求机

2、器人执行一个单一的任务，比方说反复在一给定轨迹下取放物体。单独一个反馈控制器时，相同的轨迹误差会一直在反复的试验中存在。相反，学习控制器可以利用前一次执行信息来改进下一次轨迹执行的性能。而在一些应用中，多次重复一个轨迹的要求不利于学习，所以我们将注意力集中在别的一些场合，那里来说学习控制是自然的解决方案。本文中我们在1提出一种反复学习控制算法的修正以使其适用于带有输入扰动和输出传感噪声的非线性非最小相位对象。在章节出一个在起始位置描述一伪逆线性装置的学习控制器。在章节出仿真例子以展示所提学习控制器的性能。最后，章节全文总结。有扰动的非线性非最小相位对象本节中，我们为非线性系统提出一个鲁棒

3、迭代学习算法。我们仅考虑方（相同的输入和输出）时不变非线性系统。A 系统描述来考察一个在 x = 0 时起始近似稳定（也就是说线性对象的所有特征根都在复平面的左半部分）而且输入稳定的非线性系统这里 i 为迭代系数，是输入顺序集合，及，。方程表示系统反复随机的有界扰动；它可以是持续的，非可再生摩擦力，和状态独立的模型误差等等。代表传感器噪声。所期待的轨迹维持在有限的时间域。学习的目的是构建一个输入轨迹的顺序如，这样使系统在0,T 间“尽可能近的”跟踪轨迹。我们做以下假设：(程是连续可微的，而是连续的。(，这里的是间的封闭子集。(统是第一渐进稳定和输入状态稳定。(备注

4、：如果系统不稳定，可以运用我们的方法使其稳定)。(动和分别由制（也就是说，且）。(期待的轨迹非常接近于轨迹，其满足以下方程：针对该系统，在图给出一个反复学习控制。 1 所示的学习控制器的一个好的候选者可以这样获得，首先对对象进行线性化，然后用一个伪逆的线性装置作为学习控制器。现代的反复学习控制法则由因式 P，线性对象，其伴随矩阵和时域 t0,T组成，也就是：注意到对所有的 i 如果（注意在图 1 中，减因子放置在汇合点之前）。定义：由于非线性系统（1）是输入状态稳定（且是连续的（，因此这样定义一个因果关系的非线性输入到输出的映射P：。因为 P 是第一状态

5、渐近稳定的（，我们定义一稳定时不变的输入到输出线性因式，需要对系统（1）在内线性化：图 1，非线性学习控制系统 P：非线性对象，学习控制器，：负因子这里，因此，。由于且 A 为赫兹【在（ 4）中】，我们可以用代替而不必改变（ 4）中定义的输入输出（映射，因此得到的唯一映射是 11。定义：考察伴随系统的 IO 映射由于 A 是赫兹，双曲线的（也就是，所有的特征值都没有零实

6、部），从而（ 5）式定义了唯一的无关联映射，如给出的（参见附录）。伴随系统满足忽略较高阶限制，我们可以在方程（1）的解附近获得一个线性对象：这里。因为（ 4）是稳定的，可以根据李亚普诺夫方法证明，如果有界那么（ 6）也是有界输入输出稳定的。注意，这里我们也可以用代替（如（ 4）中）而且没有改变输入输出映射。定义。线性稳定系统（ 6）有解并且

7、定义了一个线性输入输出映射：。定义：由伪逆【 4】的观念启发，我们通过下面的线性因子来定义学习控制器：因为，我们把 “近似反转 ”称为的伪逆。为简单起见，下文把伪逆称为简单伪逆。在时域下用（ 4）和（ 5）：因为是稳定的，（ 8）是具有特征根的双曲线，因此，【 2】中且是无关联的。在（ 8）中解，我们可以看到反向算子为：上面系统

8、的特征根的连续函数。在极限为双曲线的（因为 A 为赫兹）。从而我们通常对双曲线选择一个。系统（ 9）可以根据等人的稳定无关解方法解决。因此，学习控制器是伪逆且在时域中给出 : 对角块，因此特征根是（ 9）和的特征根。由于是双曲线的，因此双曲线。从而，及 (10)所描述的线性控制器的解可以利用稳定无关解 2求得。（使用时而不是时

9、的初始条件可以通过控制）。因此跟踪性能可以根据假设和得到改善。C 集中分析定义 1：我们为方程定义标准：注意意味着和是等价的标准。集中结果可以用任一标准证实。导致的标准：定义的傅立叶变换。条件 1：（也就是说，轴上没有确定或者非确定的零点），遵循。法则 1：如果假设（和条件 1 满足，没有扰动（即且）和初始误差（），那么算则

10、（ 3）导出了一个输入顺序，输入汇合于。如果，及初始状态误差是有界的（），随着，汇合于。球的半径 r 连续的取决于扰动，和初始误差界限。如果存在一个具有的，那么将汇合于期望的输入解。验证：验证依赖于对输入顺序应用不同的收缩映射定理5。验证的主要想法是在时展现出。这表明了极限，这儿为扰动和初始误差界限的连续因子。通过以下定义构造序列：为简单起见下文

11、用表示。现在，维持页尾所示的从（ 3）到关断器（ 12）的线性。在 6后，我们用表示 P 的分叉，也即满足在式（ 13）中，这样定义：。从（ 13）式，我们可以发现 s 就是，为表示，我们重写（ 12）如下：因为是，这表明，如限制和：由假设：，从而。由（6），我们列写：因此，利用三角不等式，及的限制，我们得到。利用等式（见）。用乘式（ 15），定义且假设，我们得到：注意到对一常数，

12、在上较大值，我们有：和（4）相似，可以证明：这里为式（4）的输入。定义：定义一线性因子，所以：根据式（6），因子的输出为：，且由式（4）因子的输出为。这表明因此，利用式（16），（17），及的范围，我们可以得到：列出压缩映射：由式（12），我们可以得到下文页底所示的方程。定义。从以下可看到，如果满足条件 1，当，那么。当选择足够小，可以使得任意小。令且，（傅立叶变换）如果条件 1 满足，那么，这里 0。重新考虑式（19），令，因此。注意到：因此，我们可以写为，（利用式（19）），当。随着的选择，可以使得任意小。如果相应

13、于的传递函数确实恰当，那么在时，条件 1 无法满足。那么随着1，而且，直观地，输入序列的高频部分会缓慢的汇合。在那种情况下，学习控制器得以以下方式加以修正：不是把当作学习因子，而是把当作修正后的学习控制器，这里可以通过对加入一个前馈期获得。因此，可以根据修正式（4）给出如下：这里。修正后的因子满足条件 1 并且集总分析可以在足够小时以相同的方式进行。从式（19）代人限制条件，且将式（19）乘以我们可以在上取大列写式（19）的型如下：这里为初始状态误差的标准范围。和分别为输入及输出扰动的标准范围。由于，当足够小，我们可以发现，这使得。因此，得到：。这里包括

14、了控制器的初始状态误差和扰动的标准范围。因此，极限，即，如，这里为收缩映射的固定点，且为半径，球心为的开球体。如果没有扰动和初始误差，，从而汇合于。如果如，收缩映射的固定点表示为没有和初始误差的。如果且。这表明学习控制器的输出为 0。因此，收缩一旦得以证实，可以看出（如前定义）也是从空间（）的封闭子空间到其自身的映射。因此，为收缩映射。为说明这个，来考察一期望轨迹。从式（2），因，。在式（12）中，如果考虑那么，由于（这里），是从附近一封闭球到其自身的收缩映射。注意，附近球的尺寸必须足够小这样式（14）也得到满足。因此，如果初始轨迹位

15、于附近，对所有的从其附近到其本身构成映射。不失一般性，我们考虑另一对及（如（2）所给）。从连续性来说，尽管充分接近，也从其附近到其本身构成映射。这便是的动机。仿真结果具有输入扰动的仿真结果本节中，我们展示一个单输入单输出非线性非最小相位对象 P 的仿真研究，其起始渐进稳定，输入状态稳定，具有以下描述的输入扰动：首先，我们考虑没有输出扰动。这样给出参考输出轨迹：0，其他。通过线性化系统（21）这样定义：由于线性控制器是非稳定的，我们应用稳定无关解方式2。我们引入作为有界的输入扰动。通常为限制于间的随机数。仿真图 2（a）和（b）展示了两个反复后期望输出的近似完美的跟踪。注意高频部分缓慢汇合所引起的余差。具有输入输出扰动的仿真结果现在，我们引入作为（21）所给的相同非线性系统的随机有界输出扰动。同时存在先前引入的输入扰动。仿真图图 3展示了三次反复后期望输出轨迹的良好跟踪。A 讨论这里的案比1中给出的多了一些优点。在1中，线性对象的逆被当做学习因子。这使得用输出的分叉颠倒系统成为必要。实际上，在具有输出传感噪声时分叉无法可靠的计算。进一步说，对象本

展开阅读全文

基于伪逆的反复学习控制（翻译一）

最新文档