第六章动态规划与离散系统最优控制

资源描述

《第六章动态规划与离散系统最优控制》由会员分享，可在线阅读，更多相关《第六章动态规划与离散系统最优控制（71页珍藏版）》请在金锄头文库上搜索。

1、动态规划与离散系统最优控制 1 3 第6章动态规划与离散系统最优控制前面讨论了连续系统最优控制问题的基于经典变分法和庞特里亚金的极大值原理的两种求解方法所谓连续系统即系统方程是用线性或非线性微分方程描述的动态系统该类系统的控制问题是与传统的控制系统和控制元件的模拟形式实现相对应如模拟运算放大器件模拟自动化运算仪表模拟液压放大元件等随着计算机技术及其计算机控制技术的发展离散系统的最优控制问题也必然成为最优控制中需深入探讨的控制问题而且成为现代控制技术更为关注的问题动态规划与离散系统最优控制 2 3 离散系统的控制问题为人们所重视的原因有二 1 连续系统在实现控制时在应用计算

2、机控制技术数字控制技术时须经采样后成为离散化系统再加以控制如许多现代工业控制领域的实际计算机控制问题 2 有些实际控制问题本身即为离散系统如某些经济计划系统人口系统的时间坐标只能以小时天或月等标记再如机床加工中心的时间坐标是以一个事件如零件加工活动的发生或结束为标志的动态规划与离散系统最优控制 3 3 本节将介绍解决离散系统最优控制的有效工具贝尔曼动态规划以及线性离散系统的二次最优控制问题内容为最优性原理与离散系统的动态规划法线性离散系统的二次型最优控制最优性原理与离散系统的动态规划法 1 3 6 1最优性原理与离散系统的动态规划法基于对多阶段决策过程的研究结果贝

3、尔曼在20世纪50年代首先提出了求解离散多阶段决策优化问题的动态规划法多阶段决策优化问题方法在许多领域得到应用和发展如在生产计划资源配置信息处理模式识别等方面都有成功的应用本节介绍将动态规划优化方法应用于动态系统的最优控制问题构成最优控制的两种主要求解方法之一的最优控制动态规划法最优性原理与离散系统的动态规划法 2 3 动态规划的核心是贝尔曼最优性原理这个原理归结为一个基本的递推公式求解多阶段决策问题时要从末端开始逆向递推直至始端动态规划的离散基本形式受到问题的维数的限制应用有一定的局限性但对于求解决线性离散系统的二次型性能指标的最优控制问题特别有效至于连续系统

4、的最优控制问题的动态规划法不仅是一种可供选择的有充分性的最优控制求解法它还揭示了动态规划与变分法极大值原理之间的关系具有重要的理论价值最优性原理与离散系统的动态规划法 3 3 下面分别介绍多阶段决策问题最优性原理一般问题的问题描述离散系统的动态规划法多阶段决策问题 1 12 1 多阶段决策问题在讨论动态规划法之前先考察一个简单的最短时间行车问题简称行车问题例如图10所示某交通工具从S站出发终点为F站全程可分为4段中间可能经过的各站及站间的行车时间均已标记在图上图10某行车路线图试求最短行车时间的行车路线多阶段决策问题 2 12 由S站出发至终点F站可有多种不同的

5、行车路线沿各种行车路线所耗费的时间不同为使总的行车时间最短司机在路程的前3段要作出3次决策首先一开始司机要在经过x1 1 站还是x2 1 站两种情况中作出决策到x1 1 站或x2 1 后又面临下一站是经过x1 2 站还是x2 2 站的第2次决策同样在后续的每个阶段都要作出类似的决策多阶段决策问题 3 12 因此计算8种不同的行车路线所耗费的总行车时间取最小者即可求出最短时间行车路线若行车问题需作决策的阶段数n较大每次决策中可供选择的方案较多时用上述的穷枚举法来解决最短行车时间问题计算量非常大一般说来用穷举法计算时间与作决策的阶段数n和每次决策中可供选择的方

6、案数成指数关系即通常所称的指数爆炸维数灾难多阶段决策问题 4 12 通过分析发现另一种求最短时间行车路线方法的是从最后一阶段开始先分别算出x1 3 站和x2 3 站到终点F的最短时间成本并分别记为J x1 3 和J x2 3 实际上最后一阶段没有选择的余地因此由图10可求得J x1 3 4 J x2 3 3 多阶段决策问题 5 12 为便于今后求解过程的应用可将从x1 3 站和x2 3 站到终点的最短时间J x1 3 和J x2 3 的数值标记于代表该站的小圆圈内如图11所示其他站的情况依此类推图11最优行车路线图多阶段决策问题 6 12 由此向后倒推继续考察

7、倒数第2段计算x1 2 站和x2 2 站到终点F的最短时间并分别记为J x1 2 和J x2 2 由图10可知从x1 2 站到达终点F的路线中下一站只能是x1 3 站和x2 3 站中之一由于从x1 3 站和x2 3 站分别前往终点的最短时间已经计算出因此从x1 2 站和x2 2 到终点的最短时间分别为 J x1 2 min 1 J x1 3 1 J x2 3 4J x2 2 min 2 J x1 3 2 J x2 3 5其相应的最短时间行车路线 x1 2 x2 3 F 和 x2 2 x2 3 F 多阶段决策问题 7 12 类似于前面过程其他各站到终点的最短时间和相应的行车路线如图

8、11所示从图11得到各站到终点站F的最短时间行车路线和所耗费的行车时间从起点站S到终点站F的最短时间行车路线和所耗费的行车时间多阶段决策问题 8 12 上述最短行车时间路线问题及其求解方法可以推广为多阶段决策优化问题如建筑安装工期计划经济发展计划资源合理配置等其相应的最优性指标可以为所耗费的时间最短也可以为所耗费的能源最小所得到的效益最好等因此前面介绍逆向递推求解最优化问题的方法是一种具有普遍性意义的多阶段决策优化方法称为动态规划法从上述解题的叙述过程可以看出动态规划法具有如下特点多阶段决策问题 9 12 1 与穷举法相比动态规划法可使计算量大为减少事实上用

9、动态规划法解多阶段决策问题只需作一些简单的非常有限的加法运算和求极大运算如对一个有n个阶段除最后一段外每一个状态下一步有m种可能决策方案的多阶段决策问题共需作 n 2 m2 m mn 2m 1 m次加法运算以及 mn 2m 1 m 1 次从二取一的极大运算而对穷举法则需作m mn 2 n 1 mn 1 n 1 次加法运算和mn 1 1次的从二取一的极大运算如对前面的n 4 m 2的最短时间行车问题用动态规划法求解共需作10次加法运算和5次从二取一的极大运算而用穷举法求解则分别为24次和8次多阶段决策问题 10 12 因此动态规划法在减少计算量上的效果是显著的阶段数n

10、越大决策方案m越多则动态规划法的优点更为突出如对n 10 m 4的多阶段决策问题用动态规划法求解共需作132次加法运算和33次从二取一的极大运算而用穷举法求解分别为2359296次和262143次因此动态规划法的效果是非常显著的多阶段决策问题 11 12 2 用动态规划法求解多阶段决策问题的思路是为了最后确定由起点S至终点F的最优路线首先逆向递推求出各状态至终点F的最优路线在求取当前状态到终点的极值时只需知道当前状态值和上一次的最优集合值就可以得到当前的最优值并以此作为下一次优化的初始数据贝尔曼的最优性原理就是运用这个原理给出递推方法的多阶段决策问题 12 12

11、 3 由图11可知与从起点S至终点F的最优路线 S x2 1 x1 2 x2 3 F 相对应的该最优路线的从x2 1 站至终点F部分的路线 x2 1 x1 2 x2 3 F 是从x2 1 站至终点F的最优路线类似地从x1 2 站至终点F的最优路线 x1 2 x2 3 F 是从起点S至终点F的最优路线 S x2 1 x1 2 x2 3 F 的一部分也是从x2 1 至终点F的最优路线 x2 1 x1 2 x2 3 F 的一部分对于多阶段决策问题最优路线和最优决策具有这种性质不是偶然的而反映了该问题的一种规律性即所谓的贝尔曼的最优性原理它是动态规划法的核心最优性原理一般问题的问题描述

12、 1 22 2 最优性原理一般问题的问题描述动态规划的基本原理介绍一些专有名词介绍多阶段决策问题介绍最优性原理应用最优性原理求解多阶段决策过程并推广至离散系统最优控制下面将在函数空间中描述N个阶段的决策过程为此先引进下述概念与定义状态向量x k 表示过程在k时刻的状态对控制问题相当于状态变量向量最优性原理一般问题的问题描述 2 22 2 决策向量u k 表示过程在k时刻的从某一状态转变为另一状态的动因激励对控制问题则相当于控制输入向量 3 策略 u 0 u 1 u N 1 是各个阶段的决策所组成的决策集合对控制问题则相当于控制输入向量的序列 4 成本 cost J 由于状

13、态发生转移所耗费的成本对最优控制问题相当于其性能指标最优性原理一般问题的问题描述 3 22 设在决策u k 的作用下发生了状态从x k 到x k 1 的转移显然新的状态x k 1 完全取决于原来的状态x k 和所采取的决策u k 也可以把这种转移看成是在决策u k 作用下的状态从x k 到x k 1 的一种变换且这种变换关系是唯一的即x k 1 f x k u k k 在每一阶段通常有若干个决策可供选择我们用 k 代表第k个阶段可供选择的决策集合一般说来阶段不同其决策集合 k 也不同用代表全部可供选择的决策的集合即 0 1 N 1 最优性原理一般问题的问题描述 4

14、 22 多阶段的决策问题描述如下设系统由决策u k 经变换式 182 把状态从x k 转移到x k 1 其相应耗费的成本为F x k u k k k 0 1 N 1 现需通过一变换序列f x 0 u 0 0 f x 1 u 1 1 f x N 1 u N 1 N 1 将初始状态x 0 经x 1 x N 1 转移到终态x N 这N次转移相对应的所耗费的总成本为试求出一个决策序列 u 0 u 1 u N 1 使N阶段决策问题的总成本最小 x k 1 f x k u k k 182 最优性原理一般问题的问题描述 6 22 问题 183 的描述形式和最短路径问题有所不同如果把 182 看作约束条件

15、最短路径问题是一个无约束的动态规划问题而问题 183 是一个具有约束的动态规划问题因为在每一级优化决策的时候都要考虑状态与控制之间的变换关系动态规划法是求解多阶段决策问题的一种最优化方法这一问题的核心是最优性原理最优性原理可以表述如下一个最优性决策具有这样的性质即不论初始状态和初始决策如何对于前面决策所形成的状态来说其余诸决策序列必须构成一个最优决策为了证实最优性原理有下面的定理最优性原理一般问题的问题描述 7 22 定理7 17 定理17若用u 0 N 1 表示N阶段决策过程中的一个策略 u 0 k 1 和u k N 1 分别为前k个阶段和后N k个阶段的子策

16、略并用J x 0 u 0 N 1 表示N阶段决策过程的总成本 J x 0 u 0 k 1 和J x k u k N 1 分别为前k个阶段和后N k个阶段的总成本即存在如下两个等式u 0 N 1 u 0 k 1 u k N 1 J x 0 u 0 N 1 J x 0 u 0 k 1 J x k u k N 1 则策略u 0 N 1 u 0 u 1 u N 1 为最优性决策的充分必要条件为对任意k 0 k N 1 下列关系成立式中x k f x k 1 u k 1 k 1 是后N k个阶段的初始状态最优性原理一般问题的问题描述 8 22 证明 1 必要性证明由最优策略的定义并应用式 184 和式 185 有由于上式右边括弧中第一项与子策略u k N 1 无关因此有 u 0 N 1 u 0 k 1 u k N 1 184 J x 0 u 0 N 1 J x 0 u 0 k 1 J x k u k N 1 185 最优性原理一般问题的问题描述 9 22 2 充分性证明设为任意一个策略且是后N k个阶段的初始状态则于是最优性原理一般问题的问题描述 10 22 因此若式 1

展开阅读全文

第六章动态规划与离散系统最优控制

最新文档