第六章动态规划与离散系统最优控制

上传人:共*** 文档编号:133573151 上传时间:2020-05-28 格式:PPT 页数:71 大小:3.37MB
返回 下载 相关 举报
第六章动态规划与离散系统最优控制_第1页
第1页 / 共71页
第六章动态规划与离散系统最优控制_第2页
第2页 / 共71页
第六章动态规划与离散系统最优控制_第3页
第3页 / 共71页
第六章动态规划与离散系统最优控制_第4页
第4页 / 共71页
第六章动态规划与离散系统最优控制_第5页
第5页 / 共71页
点击查看更多>>
资源描述

《第六章动态规划与离散系统最优控制》由会员分享,可在线阅读,更多相关《第六章动态规划与离散系统最优控制(71页珍藏版)》请在金锄头文库上搜索。

1、动态规划与离散系统最优控制 1 3 第6章动态规划与离散系统最优控制前面讨论了连续系统最优控制问题的基于经典变分法和庞特里亚金的极大值原理的两种求解方法 所谓连续系统 即系统方程是用线性或非线性微分方程描述的动态系统 该类系统的控制问题是与传统的控制系统和控制元件的模拟形式实现相对应 如模拟运算放大器件 模拟自动化运算仪表 模拟液压放大元件等 随着计算机技术及其计算机控制技术的发展 离散系统的最优控制问题也必然成为最优控制中需深入探讨的控制问题 而且成为现代控制技术更为关注的问题 动态规划与离散系统最优控制 2 3 离散系统的控制问题为人们所重视的原因有二 1 连续系统在实现控制时 在应用计算

2、机控制技术 数字控制技术时 须经采样后成为离散化系统 再加以控制如许多现代工业控制领域的实际计算机控制问题 2 有些实际控制问题本身即为离散系统 如某些经济计划系统 人口系统的时间坐标只能以小时 天或月等标记 再如机床加工中心的时间坐标是以一个事件 如零件加工活动 的发生或结束为标志的 动态规划与离散系统最优控制 3 3 本节将介绍解决离散系统最优控制的有效工具 贝尔曼动态规划 以及线性离散系统的二次最优控制问题 内容为最优性原理与离散系统的动态规划法线性离散系统的二次型最优控制 最优性原理与离散系统的动态规划法 1 3 6 1最优性原理与离散系统的动态规划法基于对多阶段决策过程的研究结果 贝

3、尔曼在20世纪50年代首先提出了求解离散多阶段决策优化问题的动态规划法 多阶段决策优化问题方法在许多领域得到应用和发展 如在生产计划 资源配置 信息处理 模式识别等方面都有成功的应用 本节介绍将动态规划优化方法应用于动态系统的最优控制问题 构成最优控制的两种主要求解方法之一的最优控制动态规划法 最优性原理与离散系统的动态规划法 2 3 动态规划的核心是贝尔曼最优性原理这个原理归结为一个基本的递推公式 求解多阶段决策问题时 要从末端开始 逆向递推 直至始端 动态规划的离散基本形式受到问题的维数的限制 应用有一定的局限性 但对于求解决线性离散系统的二次型性能指标的最优控制问题特别有效 至于连续系统

4、的最优控制问题的动态规划法 不仅是一种可供选择的有充分性的最优控制求解法 它还揭示了动态规划与变分法 极大值原理之间的关系 具有重要的理论价值 最优性原理与离散系统的动态规划法 3 3 下面分别介绍多阶段决策问题最优性原理一般问题的问题描述离散系统的动态规划法 多阶段决策问题 1 12 1 多阶段决策问题在讨论动态规划法之前 先考察一个简单的最短时间行车问题 简称行车问题 例如图10所示 某交通工具从S站出发 终点为F站 全程可分为4段 中间可能经过的各站及站间的行车时间均已标记在图上 图10某行车路线图 试求最短行车时间的行车路线 多阶段决策问题 2 12 由S站出发至终点F站可有多种不同的

5、行车路线 沿各种行车路线所耗费的时间不同 为使总的行车时间最短 司机在路程的前3段要作出3次决策 首先 一开始司机要在经过x1 1 站还是x2 1 站两种情况中作出决策 到x1 1 站或x2 1 后 又面临下一站是经过x1 2 站还是x2 2 站的第2次决策 同样 在后续的每个阶段都要作出类似的决策 多阶段决策问题 3 12 因此 计算8种不同的行车路线所耗费的总行车时间 取最小者即可求出最短时间行车路线 若行车问题需作决策的阶段数n较大 每次决策中可供选择的方案较多时 用上述的穷 枚 举法来解决最短行车时间问题计算量非常大 一般说来 用穷举法计算时间与作决策的阶段数n和每次决策中可供选择的方

6、案数成指数关系 即通常所称的指数爆炸 维数灾难 多阶段决策问题 4 12 通过分析发现 另一种求最短时间行车路线方法的是 从最后一阶段开始 先分别算出x1 3 站和x2 3 站到终点F的最短时间 成本 并分别记为J x1 3 和J x2 3 实际上 最后一阶段没有选择的余地 因此 由图10可求得J x1 3 4 J x2 3 3 多阶段决策问题 5 12 为便于今后求解过程的应用 可将从x1 3 站和x2 3 站到终点的最短时间J x1 3 和J x2 3 的数值标记于代表该站的小圆圈内 如图11所示 其他站的情况依此类推 图11最优行车路线图 多阶段决策问题 6 12 由此向后倒推 继续考察

7、倒数第2段 计算x1 2 站和x2 2 站到终点F的最短时间 并分别记为J x1 2 和J x2 2 由图10可知 从x1 2 站到达终点F的路线中下一站只能是x1 3 站和x2 3 站中之一 由于从x1 3 站和x2 3 站分别前往终点的最短时间已经计算出 因此 从x1 2 站和x2 2 到终点的最短时间分别为 J x1 2 min 1 J x1 3 1 J x2 3 4J x2 2 min 2 J x1 3 2 J x2 3 5其相应的最短时间行车路线 x1 2 x2 3 F 和 x2 2 x2 3 F 多阶段决策问题 7 12 类似于前面过程 其他各站到终点的最短时间和相应的行车路线如图

8、11所示 从图11得到各站到终点站F的最短时间行车路线和所耗费的行车时间 从起点站S到终点站F的最短时间行车路线和所耗费的行车时间 多阶段决策问题 8 12 上述最短行车时间路线问题及其求解方法可以推广为多阶段决策优化问题 如建筑安装工期计划 经济发展计划 资源合理配置等 其相应的最优性指标可以为所耗费的时间最短 也可以为所耗费的能源最小 所得到的效益最好等 因此 前面介绍逆向递推求解最优化问题的方法是一种具有普遍性意义的多阶段决策优化方法 称为动态规划法 从上述解题的叙述过程可以看出 动态规划法具有如下特点 多阶段决策问题 9 12 1 与穷举法相比 动态规划法可使计算量大为减少 事实上 用

9、动态规划法解多阶段决策问题 只需作一些简单的 非常有限的加法运算和求极大运算 如对一个有n个阶段 除最后一段外每一个状态下一步有m种可能决策方案的多阶段决策问题 共需作 n 2 m2 m mn 2m 1 m次加法运算 以及 mn 2m 1 m 1 次从二取一的极大运算而对穷举法 则需作m mn 2 n 1 mn 1 n 1 次加法运算和mn 1 1次的从二取一的极大运算 如对前面的n 4 m 2的最短时间行车问题 用动态规划法求解共需作10次加法运算和5次从二取一的极大运算 而用穷举法求解 则分别为24次和8次 多阶段决策问题 10 12 因此 动态规划法在减少计算量上的效果是显著的 阶段数n

10、越大 决策方案m越多 则动态规划法的优点更为突出 如对n 10 m 4的多阶段决策问题 用动态规划法求解共需作132次加法运算和33次从二取一的极大运算 而用穷举法求解分别为2359296次和262143次 因此 动态规划法的效果是非常显著的 多阶段决策问题 11 12 2 用动态规划法求解多阶段决策问题的思路是 为了最后确定由起点S至终点F的最优路线 首先逆向递推求出各状态至终点F的最优路线在求取当前状态到终点的极值时 只需知道当前状态值和上一次的最优 集合 值 就可以得到当前的最优值 并以此作为下一次优化的初始数据贝尔曼的最优性原理就是运用这个原理给出递推方法的 多阶段决策问题 12 12

11、 3 由图11可知 与从起点S至终点F的最优路线 S x2 1 x1 2 x2 3 F 相对应的 该最优路线的从x2 1 站至终点F部分的路线 x2 1 x1 2 x2 3 F 是从x2 1 站至终点F的最优路线类似地 从x1 2 站至终点F的最优路线 x1 2 x2 3 F 是从起点S至终点F的最优路线 S x2 1 x1 2 x2 3 F 的一部分 也是从x2 1 至终点F的最优路线 x2 1 x1 2 x2 3 F 的一部分对于多阶段决策问题 最优路线和最优决策具有这种性质不是偶然的 而反映了该问题的一种规律性 即所谓的贝尔曼的最优性原理它是动态规划法的核心 最优性原理一般问题的问题描述

12、 1 22 2 最优性原理一般问题的问题描述动态规划的基本原理介绍一些专有名词介绍多阶段决策问题介绍最优性原理应用最优性原理求解多阶段决策过程 并推广至离散系统最优控制下面将在函数空间中描述N个阶段的决策过程 为此先引进下述概念与定义 状态向量x k 表示过程在k时刻的状态 对控制问题 相当于状态变量向量 最优性原理一般问题的问题描述 2 22 2 决策向量u k 表示过程在k时刻的从某一状态转变为另一状态的动因 激励 对控制问题 则相当于控制输入向量 3 策略 u 0 u 1 u N 1 是各个阶段的决策所组成的决策集合 对控制问题 则相当于控制输入向量的序列 4 成本 cost J 由于状

13、态发生转移所耗费的成本 对最优控制问题 相当于其性能指标 最优性原理一般问题的问题描述 3 22 设在决策u k 的作用下 发生了状态从x k 到x k 1 的转移 显然新的状态x k 1 完全取决于原来的状态x k 和所采取的决策u k 也可以把这种转移看成是在决策u k 作用下的状态从x k 到x k 1 的一种变换 且这种变换关系是唯一的 即x k 1 f x k u k k 在每一阶段 通常有若干个决策可供选择 我们用 k 代表第k个阶段可供选择的决策集合 一般说来 阶段不同 其决策集合 k 也不同 用 代表全部可供选择的决策的集合 即 0 1 N 1 最优性原理一般问题的问题描述 4

14、 22 多阶段的决策问题描述如下 设系统由决策u k 经变换式 182 把状态从x k 转移到x k 1 其相应耗费的成本为F x k u k k k 0 1 N 1 现需通过一变换序列f x 0 u 0 0 f x 1 u 1 1 f x N 1 u N 1 N 1 将初始状态x 0 经x 1 x N 1 转移到终态x N 这N次转移相对应的所耗费的总成本为试求出一个决策序列 u 0 u 1 u N 1 使N阶段决策问题的总成本最小 x k 1 f x k u k k 182 最优性原理一般问题的问题描述 6 22 问题 183 的描述形式和最短路径问题有所不同 如果把 182 看作约束条件

15、 最短路径问题是一个无约束的动态规划问题 而问题 183 是一个具有约束的动态规划问题 因为在每一级优化 决策 的时候 都要考虑状态与控制之间的变换关系 动态规划法是求解多阶段决策问题的一种最优化方法 这一问题的核心是最优性原理 最优性原理可以表述如下 一个最优性决策具有这样的性质 即不论初始状态和初始决策如何 对于前面决策所形成的状态来说 其余诸决策序列必须构成一个最优决策 为了证实最优性原理 有下面的定理 最优性原理一般问题的问题描述 7 22 定理7 17 定理17若用u 0 N 1 表示N阶段决策过程中的一个策略 u 0 k 1 和u k N 1 分别为前k个阶段和后N k个阶段的子策

16、略 并用J x 0 u 0 N 1 表示N阶段决策过程的总成本 J x 0 u 0 k 1 和J x k u k N 1 分别为前k个阶段和后N k个阶段的总成本 即存在如下两个等式u 0 N 1 u 0 k 1 u k N 1 J x 0 u 0 N 1 J x 0 u 0 k 1 J x k u k N 1 则策略u 0 N 1 u 0 u 1 u N 1 为最优性决策的充分必要条件为 对任意k 0 k N 1 下列关系成立式中x k f x k 1 u k 1 k 1 是后N k个阶段的初始状态 最优性原理一般问题的问题描述 8 22 证明 1 必要性证明 由最优策略的定义 并应用式 184 和式 185 有由于上式右边括弧中第一项与子策略u k N 1 无关 因此有 u 0 N 1 u 0 k 1 u k N 1 184 J x 0 u 0 N 1 J x 0 u 0 k 1 J x k u k N 1 185 最优性原理一般问题的问题描述 9 22 2 充分性证明 设为任意一个策略 且是后N k个阶段的初始状态 则于是 最优性原理一般问题的问题描述 10 22 因此 若式 1

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号