《精编》动态规划问题

上传人:tang****xu1 文档编号:134242813 上传时间:2020-06-03 格式:PPT 页数:40 大小:555KB
返回 下载 相关 举报
《精编》动态规划问题_第1页
第1页 / 共40页
《精编》动态规划问题_第2页
第2页 / 共40页
《精编》动态规划问题_第3页
第3页 / 共40页
《精编》动态规划问题_第4页
第4页 / 共40页
《精编》动态规划问题_第5页
第5页 / 共40页
点击查看更多>>
资源描述

《《精编》动态规划问题》由会员分享,可在线阅读,更多相关《《精编》动态规划问题(40页珍藏版)》请在金锄头文库上搜索。

1、第四章 动态规划问题 动态规划的概念与模型 静态决策一次性决策 动态决策多阶段决策 多段决策过程 n个决策子问题K称为阶段变量xk描述k阶段初的状态 称为状态变量一般把输入状态称为该阶段的阶段状态 uk的取值代表k阶段对第k子问题所进行的决策 称为k阶段的决策变量rk为k阶段从状况xk出发 做决策uk之后的后果 称为k阶段的阶段效应 具有无后效性的多段决策过程 Xk 1 Tk xk uk 系统从k阶段往后的决策只与k阶段系统的状态xk有关 而与系统以前的决策无关 则称为具有无后效性的多段决策过程 K后部子过程 多段决策过程中从第k阶段到最终阶段的过程称为k 后部子过程 简称k 子过程 动态规划

2、模型 Opt表示求优Xk是一个集合 表示k阶段状态可能取值的范围 称为状态可能集合 Uk是一个集合 表示k阶段决策可能取值的范围 称为决策允许集合 一般来说对于不同状态 可以作的决策的范围是不同的 因此决策允许集合一般写为Uk xk 动态规划的建模 动态规划建模 确定阶段与阶段变量 明确状态变量和状态可能集合 确定决策变量和决策允许集合 确定状态转移方程 明确阶段效应和目标 动态规划的建模 确定阶段与阶段变量阶段的划分一般是按照决策进行的时间或空间上的先后顺序划分的 阶段数等于多段决策过程中从开始到结束所需要作出决策的数目 阶段变量用k表示 明确状态变量和状态可能集合 状态变量必须包含在给定的

3、阶段上确定全部允许决策所需要的信息 状态变量的确定决定了整个决策过程是不是具有无后效性 因而也决定着能不能用动态规划方法来求解 状态可能集是关于状态的约束条件 因此为了求解必须正确地确定状态可能集 动态规划的建模 确定决策变量和决策允许集合 与静态问题相同 决策变量应能够反映对问题所作的决策 决策变量也应有其相应的约束条件 在建模时应明确决策允许集合Uk xk 确定状态转移方程 系统k阶段从状态xk出发作了决策uk xk 之后的结果之一是系统状态的转移 这一结果直接影响系统往后的决策过程 因此必须明确状态的转移过程 即根据问题的内在关系 明确xk 1 Tk xk uk 中的函数Tk 动态规划的

4、建模 明确阶段效应和目标 阶段效应rk xk uk 是在阶段k以xk出发作了决策uk之后所产生的后果 必须明确rk与xk uk的关系 才能构成目标函数 目标函数是由阶段效应经过某种集结而得到的 如何集结视具体问题而定 同时还应根据问题确定目标是求最大还是最小 由于在经济系统中的大多数情况下 目标的集结方法都是求和 因此 在不作说明的情况下 往后的讨论都针对目标为和的形式进行 动态规划解的概念 多段决策过程中所要求解的是 从起始状态x1开始 进行一系列的决策 使目标R达到最优最优目标值R 最优策略使得目标达到最优的决策序列 最优路线在采取最优策略时 系统从x1开始所经过的状态序列 求解动态规划模

5、型找到最优策略 最优路线和最优目标值 动态规划最优性原理 多段决策过程的特点每个阶段都要进行决策相继进行的阶段决策构成的决策序列前一阶段的终止状态又是后一阶段的初始状态阶段最优决策不能只从本阶段的效应出发 必须通盘考虑 整体规划 阶段k的最优决策不应该只是本阶段效应的最优 而必须是本阶段及其所有后续阶段的总体最优 即关于整个k后部子过程的最优决策 动态规划最优性原理 最优性原理 最优策略具有的基本性质是 无论初始状态和初始决策如何 对于前面决策所造成的某一状态而言 下余的决策序列必构成最优策略 动态规划最优性原理 最优性原理的含意最优策略的任何一部分子策略 也是相应初始状态的最优策略 每个最优

6、策略只能由最优子策略构成 显然 对于具有无后效性的多段决策过程而言 如果按照k后部子过程最优的原则来求各阶段状态的最优决策 那么这样构成的最优决策序列或策略一定具有最优性原理所提示的性质 贝尔曼函数 贝尔曼函数fk xk 在阶段k从初始状态xk出发 执行最优决策序列或策略 到达过程终点时 整个k 子过程中的目标函数取值 称为条件最优目标函数 亦称贝尔曼函数 条件最优策略多段决策过程的任一阶段状态xk的最优策略处于条件xk时的最优策略 条件最优决策构成条件最优策略的决策 贝尔曼函数 条件最优目标函数值fk xk 执行条件最优策略时的目标函数值 条件最优路线执行条件最优策略时的阶段状态序列 贝尔曼

7、函数 条件最优k 子策略系统从xk出发 在k 后部子过程中的最优策略k 子过程条件最优目标函数fk xk 是从xk出发系统在k 后部子过程中的最优目标值 多段决策问题所求解的最优目标函数值R f1 x1 动态规划基本方程fk xk 与fk 1 xk 1 之间的递推关系动态规划方法的依据是最优性原理 动态规划基本方程 设在阶段k的状态xk执行了任意选定决策uk后的状态是xk 1 Tk xk uk 这时k 后部子过程就缩小为k 1后部子过程 根据最优性原理 对k 1后部子过程应采取最优策略 由于无后效性 k后部子过程的目标函数值为 动态规划基本方程 动态规划基本方程 动态规划方法基本原理 动态规划

8、方法基本原理 rk xk uk 和xk 1 Tk xk uk 都是已知的函数求fk xk 需要首先求关于xk的所有k 1段状态xk 1的fk 1 xk 1 逆序地求出条件最优目标函数值集合和条件最优决策集合状态xk 1是由前面阶段的状态决定的用问题给定的初始条件 即可顺序地求出整个多段决策问题的最优目标函数值 最优策略和最优路线 动态规划问题求解的一般步骤 逆序地求出条件最优目标函数值集合和条件最优决策集合k n时 动态规划基本方程是 边界条件 k n时的动态规划基本方程成为 动态规划问题求解的一般步骤 逆序地求出条件最优目标函数值集合和条件最优决策集合k n 1时 动态规划的基本方程是 所有

9、的fn xn 都已经求出 因此可以根据xn Tn 1 xn 1 un 1 就阶段n 1每个可能状态xn 1 Xn 1求条件最优决策及相应的条件最优目标函数值fn 1 xn 1 动态规划问题求解的一般步骤 逆序地求出条件最优目标函数值集合和条件最优决策集合k 1时 动态规划的基本方程是 所有的f2 x2 都已经求出 因此可以根据x2 T1 x1 u1 就阶段1每个可能状态x1 X1求条件最优决策及相应的条件最优目标函数值f1 x1 动态规划问题求解的一般步骤 逆序地求出条件最优目标函数值集合和条件最优决策集合 动态规划问题求解的一般步骤 顺序地求出最优目标值 最优策略和最优路线若x1已知 则 阶

10、段1的条件最优决策就是阶段1的关于整个过程的最优决策若x1未知 动态规划问题求解的一般步骤 顺序地求出最优目标值 最优策略和最优路线 动态规划四大要素 一个方程 五个关键因素四大要素 一个方程 状态变量及其可能集合 决策变量及其允许集合 状态转移方程 阶段效应 动态规划基本方程 动态规划应用举例 最短路问题 例某旅行者希望从s地起到t地 其间的道路系统如图4 1所示 图上圆圈表示途径的地方 称为节点 连结两地的箭线表示道路 其上的数字表示该段道路长度 箭头表示通行的方向 试求s到t的最短路 动态规划应用举例 最短路问题 第一阶段第二阶段第三阶段划分阶段k 1 2 3代表三个阶段 动态规划应用举

11、例 最短路问题 状态变量xk取为k阶段所在地 则有 动态规划应用举例 最短路问题 k阶段决策是决定下一步走到哪里 uk xk 取为下一步的所在点 动态规划应用举例 最短路问题 逆序求条件最优目标函数集和条件最优决策集由于第3阶段末已到达t 往后的距离自然是零 因此f4 t 0对3阶段所有可能的状态X3 d e f 计算f3 如下 动态规划应用举例 最短路问题 逆序求条件最优目标函数集和条件最优决策集也可以用表格方法计算如下 动态规划应用举例 最短路问题 逆序求条件最优目标函数集和条件最优决策集对2阶段所有可能的状态X2 a b c 计算f2 如下 动态规划应用举例 最短路问题 逆序求条件最优目标函数集和条件最优决策集对2阶段所有可能的状态X2 a b c 计算f2 如下 动态规划应用举例 最短路问题 逆序求条件最优目标函数集和条件最优决策集也可以用表格方法计算如下 动态规划应用举例 最短短问题 逆序求条件最优目标函数集和条件最优决策集对1阶段所有可能的状态X1 s 计算f1 如下 动态规划应用举例 最短路问题 顺序求最优策略 最优路线和最优目标函数值 动态规划应用举例 最短路问题

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号