《精编》动态规划问题

资源描述

《《精编》动态规划问题》由会员分享，可在线阅读，更多相关《《精编》动态规划问题（40页珍藏版）》请在金锄头文库上搜索。

1、第四章动态规划问题动态规划的概念与模型静态决策一次性决策动态决策多阶段决策多段决策过程 n个决策子问题K称为阶段变量xk描述k阶段初的状态称为状态变量一般把输入状态称为该阶段的阶段状态 uk的取值代表k阶段对第k子问题所进行的决策称为k阶段的决策变量rk为k阶段从状况xk出发做决策uk之后的后果称为k阶段的阶段效应具有无后效性的多段决策过程 Xk 1 Tk xk uk 系统从k阶段往后的决策只与k阶段系统的状态xk有关而与系统以前的决策无关则称为具有无后效性的多段决策过程 K后部子过程多段决策过程中从第k阶段到最终阶段的过程称为k 后部子过程简称k 子过程动态规划

2、模型 Opt表示求优Xk是一个集合表示k阶段状态可能取值的范围称为状态可能集合 Uk是一个集合表示k阶段决策可能取值的范围称为决策允许集合一般来说对于不同状态可以作的决策的范围是不同的因此决策允许集合一般写为Uk xk 动态规划的建模动态规划建模确定阶段与阶段变量明确状态变量和状态可能集合确定决策变量和决策允许集合确定状态转移方程明确阶段效应和目标动态规划的建模确定阶段与阶段变量阶段的划分一般是按照决策进行的时间或空间上的先后顺序划分的阶段数等于多段决策过程中从开始到结束所需要作出决策的数目阶段变量用k表示明确状态变量和状态可能集合状态变量必须包含在给定的

3、阶段上确定全部允许决策所需要的信息状态变量的确定决定了整个决策过程是不是具有无后效性因而也决定着能不能用动态规划方法来求解状态可能集是关于状态的约束条件因此为了求解必须正确地确定状态可能集动态规划的建模确定决策变量和决策允许集合与静态问题相同决策变量应能够反映对问题所作的决策决策变量也应有其相应的约束条件在建模时应明确决策允许集合Uk xk 确定状态转移方程系统k阶段从状态xk出发作了决策uk xk 之后的结果之一是系统状态的转移这一结果直接影响系统往后的决策过程因此必须明确状态的转移过程即根据问题的内在关系明确xk 1 Tk xk uk 中的函数Tk 动态规划的

4、建模明确阶段效应和目标阶段效应rk xk uk 是在阶段k以xk出发作了决策uk之后所产生的后果必须明确rk与xk uk的关系才能构成目标函数目标函数是由阶段效应经过某种集结而得到的如何集结视具体问题而定同时还应根据问题确定目标是求最大还是最小由于在经济系统中的大多数情况下目标的集结方法都是求和因此在不作说明的情况下往后的讨论都针对目标为和的形式进行动态规划解的概念多段决策过程中所要求解的是从起始状态x1开始进行一系列的决策使目标R达到最优最优目标值R 最优策略使得目标达到最优的决策序列最优路线在采取最优策略时系统从x1开始所经过的状态序列求解动态规划模

5、型找到最优策略最优路线和最优目标值动态规划最优性原理多段决策过程的特点每个阶段都要进行决策相继进行的阶段决策构成的决策序列前一阶段的终止状态又是后一阶段的初始状态阶段最优决策不能只从本阶段的效应出发必须通盘考虑整体规划阶段k的最优决策不应该只是本阶段效应的最优而必须是本阶段及其所有后续阶段的总体最优即关于整个k后部子过程的最优决策动态规划最优性原理最优性原理最优策略具有的基本性质是无论初始状态和初始决策如何对于前面决策所造成的某一状态而言下余的决策序列必构成最优策略动态规划最优性原理最优性原理的含意最优策略的任何一部分子策略也是相应初始状态的最优策略每个最优

6、策略只能由最优子策略构成显然对于具有无后效性的多段决策过程而言如果按照k后部子过程最优的原则来求各阶段状态的最优决策那么这样构成的最优决策序列或策略一定具有最优性原理所提示的性质贝尔曼函数贝尔曼函数fk xk 在阶段k从初始状态xk出发执行最优决策序列或策略到达过程终点时整个k 子过程中的目标函数取值称为条件最优目标函数亦称贝尔曼函数条件最优策略多段决策过程的任一阶段状态xk的最优策略处于条件xk时的最优策略条件最优决策构成条件最优策略的决策贝尔曼函数条件最优目标函数值fk xk 执行条件最优策略时的目标函数值条件最优路线执行条件最优策略时的阶段状态序列贝尔曼

7、函数条件最优k 子策略系统从xk出发在k 后部子过程中的最优策略k 子过程条件最优目标函数fk xk 是从xk出发系统在k 后部子过程中的最优目标值多段决策问题所求解的最优目标函数值R f1 x1 动态规划基本方程fk xk 与fk 1 xk 1 之间的递推关系动态规划方法的依据是最优性原理动态规划基本方程设在阶段k的状态xk执行了任意选定决策uk后的状态是xk 1 Tk xk uk 这时k 后部子过程就缩小为k 1后部子过程根据最优性原理对k 1后部子过程应采取最优策略由于无后效性 k后部子过程的目标函数值为动态规划基本方程动态规划基本方程动态规划方法基本原理动态规划

8、方法基本原理 rk xk uk 和xk 1 Tk xk uk 都是已知的函数求fk xk 需要首先求关于xk的所有k 1段状态xk 1的fk 1 xk 1 逆序地求出条件最优目标函数值集合和条件最优决策集合状态xk 1是由前面阶段的状态决定的用问题给定的初始条件即可顺序地求出整个多段决策问题的最优目标函数值最优策略和最优路线动态规划问题求解的一般步骤逆序地求出条件最优目标函数值集合和条件最优决策集合k n时动态规划基本方程是边界条件 k n时的动态规划基本方程成为动态规划问题求解的一般步骤逆序地求出条件最优目标函数值集合和条件最优决策集合k n 1时动态规划的基本方程是所有

9、的fn xn 都已经求出因此可以根据xn Tn 1 xn 1 un 1 就阶段n 1每个可能状态xn 1 Xn 1求条件最优决策及相应的条件最优目标函数值fn 1 xn 1 动态规划问题求解的一般步骤逆序地求出条件最优目标函数值集合和条件最优决策集合k 1时动态规划的基本方程是所有的f2 x2 都已经求出因此可以根据x2 T1 x1 u1 就阶段1每个可能状态x1 X1求条件最优决策及相应的条件最优目标函数值f1 x1 动态规划问题求解的一般步骤逆序地求出条件最优目标函数值集合和条件最优决策集合动态规划问题求解的一般步骤顺序地求出最优目标值最优策略和最优路线若x1已知则阶

10、段1的条件最优决策就是阶段1的关于整个过程的最优决策若x1未知动态规划问题求解的一般步骤顺序地求出最优目标值最优策略和最优路线动态规划四大要素一个方程五个关键因素四大要素一个方程状态变量及其可能集合决策变量及其允许集合状态转移方程阶段效应动态规划基本方程动态规划应用举例最短路问题例某旅行者希望从s地起到t地其间的道路系统如图4 1所示图上圆圈表示途径的地方称为节点连结两地的箭线表示道路其上的数字表示该段道路长度箭头表示通行的方向试求s到t的最短路动态规划应用举例最短路问题第一阶段第二阶段第三阶段划分阶段k 1 2 3代表三个阶段动态规划应用举

11、例最短路问题状态变量xk取为k阶段所在地则有动态规划应用举例最短路问题 k阶段决策是决定下一步走到哪里 uk xk 取为下一步的所在点动态规划应用举例最短路问题逆序求条件最优目标函数集和条件最优决策集由于第3阶段末已到达t 往后的距离自然是零因此f4 t 0对3阶段所有可能的状态X3 d e f 计算f3 如下动态规划应用举例最短路问题逆序求条件最优目标函数集和条件最优决策集也可以用表格方法计算如下动态规划应用举例最短路问题逆序求条件最优目标函数集和条件最优决策集对2阶段所有可能的状态X2 a b c 计算f2 如下动态规划应用举例最短路问题逆序求条件最优目标函数集和条件最优决策集对2阶段所有可能的状态X2 a b c 计算f2 如下动态规划应用举例最短路问题逆序求条件最优目标函数集和条件最优决策集也可以用表格方法计算如下动态规划应用举例最短短问题逆序求条件最优目标函数集和条件最优决策集对1阶段所有可能的状态X1 s 计算f1 如下动态规划应用举例最短路问题顺序求最优策略最优路线和最优目标函数值动态规划应用举例最短路问题

展开阅读全文

《精编》动态规划问题

最新文档