第四章动态规划整理.ppt

资源描述

《第四章动态规划整理.ppt》由会员分享，可在线阅读，更多相关《第四章动态规划整理.ppt（105页珍藏版）》请在金锄头文库上搜索。

1、2020 5 23 第5章动态规划 2020 5 23 1 多阶段决策问题多阶段决策过程问题的活动过程分为若干相互联系的阶段任一阶段i以后的行为仅依赖于i阶段的过程状态而与i阶段之前的过程如何达到这种状态的方式无关在每一个阶段都要做出决策这一系列的决策称为多阶段决策过程 multistepdecisionprocess 最优化问题问题的每一阶段可能有多种可供选择的决策必须从中选择一种决策各阶段的决策构成一个决策序列决策序列不同所导致的问题的结果可能不同多阶段决策的最优化问题就是求能够获得问题最优解的决策序列最优决策序列 5 1一般方法 2020 5 23 2 多阶段决

2、策过程的求解策略1 枚举法穷举可能的决策序列从中选取可以获得最优解的决策序列2 动态规划20世纪50年代初美国数学家R E Bellman等人在研究多阶段决策过程的优化问题时提出了著名的最优化原理 principleofoptimality 把多阶段过程转化为一系列单阶段问题创立了解决这类过程优化问题的新方法动态规划动态规划 dynamicprogramming 是运筹学的一个分支是求解决策过程 decisionprocess 最优化的数学方法应用领域动态规划问世以来在经济管理生产调度工程技术和最优控制等方面得到了广泛的应用例如最短路线库存管理资源分配设备更新

3、排序装载等问题用动态规划方法比用其它方法求解更为方便 2020 5 23 3 最优性原理 PrincipleofOptimality 过程的最优决策序列具有如下性质无论过程的初始状态和初始决策是什么其余的决策都必须相对于初始决策所产生的状态构成一个最优决策序列利用动态规划求解问题的前提1 证明问题满足最优性原理如果对所求解问题证明满足最优性原理则说明用动态规划方法有可能解决该问题2 获得问题状态的递推关系式获得各阶段间的递推关系式是解决问题的关键 2020 5 23 例5 1 多段图问题多段图G V E 是一个有向图且具有特性结点结点集V被分成k 2个不相交的集合Vi 1

4、i k 其中V1和Vk分别只有一个结点s 源点和t 汇点每一集合Vi定义图中的一段边所有的边 u v 均具有如下性质若 E 则该边将是从某段i指向i 1段即若u Vi 则v Vi 1 1 i k 1 每条边 u v 均附有成本c u v s到t的路径从第1段开始至第2段第3段最后在第k段终止路径的成本是这条路径上边的成本和多段图问题求由s到t的最小成本路径 2020 5 23 2020 5 23 多段图问题的多阶段决策过程生成从s到t的最小成本路径是在k 2个阶段除s和t外进行某种决策的过程从s开始第i次决策决定Vi 1 1 i k 2 中的哪个结点在从s到

5、t的最短路径上最优性原理对多段图问题成立假设s v2 v3 vk 1 t是一条由s到t的最短路径初始状态 s 初始决策 s v2 v2 V2 初始决策产生的状态 v2则其余的决策 v3 vk 1相对于v2将构成一个最优决策序列最优性原理成立反证若不然设v2 q3 qk 1 t是一条由v2到t的更短的路径则s v2 q3 qk 1 t将是比s v2 v3 vk 1 t更短的从s到t的路径与假设矛盾故最优性原理成立 2020 5 23 例5 2 0 1背包问题 KNAP l j X 目标函数约束条件 0 1背包问题 KNAP 1 n M 2020 5 23 最优性原理对0

6、1背包问题成立设y1 y2 yn是x1 x2 xn的0 1值最优序列若y1 0 KNAP 2 n M 是初始决策产生的状态则y2 yn相对于KNAP 2 n M 将构成一个最优序列否则 y1 y2 yn将不是KNAP 1 n M 的最优解若y1 1 KNAP 2 n M w1 是初始决策产生的状态则y2 yn相对于KNAP 2 n M w1 将构成一个最优序列否则设存在另一0 1序列z1 z2 zn 使得且则序列y1 z2 zn将是一个对于KNAP 1 n M 具有更大效益值的序列与假设矛盾故最优性原理成立 2020 5 23 4 动态规划模型的基本要素一个多阶段决策过程最优

7、化问题的动态规划模型通常包含以下要素 1 阶段阶段 step 是对整个过程的自然划分通常根据时间顺序或空间特征来划分阶段以便按阶段的次序解优化问题阶段变量一般用k 1 2 n表示 2020 5 23 2 状态状态 state 表示每个阶段开始时过程所处的自然状况它应该能够描述过程的特征并且具有无后向性即当某阶段的状态给定时这个阶段以后过程的演变与该阶段以前各阶段的状态无关即每个状态都是过去历史的一个完整总结通常还要求状态是直接或间接可以观测的描述状态的变量称状态变量 statevariable 变量允许取值的范围称允许状态集合 setofadmissiblestates 用x

8、k表示第k阶段的状态变量它可以是一个数或一个向量用Xk表示第k阶段的允许状态集合状态变量简称为状态 2020 5 23 3 决策当一个阶段的状态确定后可以作出各种选择从而演变到下一阶段的某个状态这种选择手段称为决策 decision 描述决策的变量称决策变量 decisionvariable 变量允许取值的范围称允许决策集合 setofadmissibledecisions 用uk xk 表示第k阶段处于状态xk时的决策变量它是xk的函数用Uk xk 表示了xk的允许决策集合决策变量简称决策 2020 5 23 4 策略决策组成的序列称为策略 policy 由初始状态x1开始的

9、全过程的策略记作p1 n x1 即p1 n x1 u1 x1 u2 x2 un xn 由第k阶段的状态xk开始到终止状态的后部子过程的策略记作pk n xk 即pk n xk uk xk uk 1 xk 1 un xn 类似地由第k到第j阶段的子过程的策略记作pk j xk uk xk uk 1 xk 1 uj xj 对于每一个阶段k的某一给定的状态xk 可供选择的策略pk j xk 有一定的范围称为允许策略集合 setofadmissiblepolicies 2020 5 23 5 状态转移方程在确定性过程中一旦某阶段的状态和决策为已知下阶段的状态便完全确定用状态转移方程 equa

10、tionofstate 表示这种演变规律写作 2020 5 23 6 指标函数和最优值函数指标函数 objectivefunction 是衡量过程优劣的数量指标它是关于策略的数量函数从阶段k到阶段n的指标函数用Vk n xk pk n xk 表示 k 1 2 n 能够用动态规划解决的问题的指标函数应具有可分离性即Vk n可表为xk uk Vk 1 n的函数记为 2020 5 23 7 最优策略和最优轨线使指标函数Vk n达到最优值的策略是从k开始的后部子过程的最优策略记作pk n uk un p1 n 又是全过程的最优策略简称最优策略 optimalpolicy 从初始状态x1

11、x1 出发过程按照p1 n 和状态转移方程演变所经历的状态序列 x1 x2 xn 1 称最优轨线 optimaltrajectory 2020 5 23 5 递推策略1 向前处理法列出根据xi 1 xn的最优决策序列求取xi决策值的关系式从最后一个阶段逐步向前递推求出各阶段的决策值决策序列x1 x2 xn就是问题的最优解 xn 1 1 xn 1 pn 1 xn 2020 5 23 例5 3利用向前处理法求解0 1背包问题设gi x 是KNAP i 1 n X 的最优解 g0 M KNAP 1 n M 的最优解由于x1的取值等于1或0 可得 g0 M max g1 M g1 M w1

12、p1 对于某个xi xi等于1或0 则有 gi X max gi 1 X gi 1 X wi 1 pi 1 初始值 0X 0gn X X 0 2020 5 23 例5 4利用向前处理法求解k段图问题设 V2 1 j2 p2 V2 p2 是由到t的最短路径则s到t的最短路径是 s V2 1 j2 p2 中最短的那条路径若s v2 v3 vi vk 1 t是s到t的一条最短路径 vi是其中的一个中间点则s v2 v3 vi和vi vk 1 t分别是由s到vi和vi到t的最短路径最优性原理从Vi中的结点ji到t的最短路径将是 min Vi 1 1 ji 1 pi 1 2020 5 23 2

13、向后处理法列出根据x1 xi 1的最优决策序列求取xi决策值的关系式从第一个阶段逐步向后递推求出各阶段的决策值决策序列x1 x2 xn就是问题的最优解 2020 5 23 例5 50 1背包问题向后处理策略设fi x 是KNAP 1 i X 的最优解则 fn M KNAP 1 n M 向后递推关系式 fi X max fi 1 X fi 1 X wi pi 初始值 0X 0f0 X X 0 2020 5 23 例5 6k段图问题向后处理策略设 Vk 1 1 jk 1 pk 1 Vk 1 pk 1 是由s到的最短路径则s到t的最短路径是 t Vk 1 1 jk 1 pk 1

14、中最短的那条路径若s v2 v3 vi vk 1 t是s到t的一条最短路径 vi是其中的一个中间点则s v2 v3 vi和vi vk 1 t分别是由s到vi和vi到t的最短路径最优性原理从s到Vi中的结点ji的最短路径将是 min Vi 1 ji pi 2020 5 23 动态规划的基本思想 1 动态规划方法的关键在于正确写出基本的递推关系式和恰当的边界条件要做到这一点必须将问题的过程分成几个相互联系的阶段恰当选择状态变量决策变量和定义最优值函数从而把一个大问题化成一簇同类型的子问题然后逐个求解即从边界条件开始逐段递推寻优在每一个子问题的求解中均利用了它前面的子问题

15、的最优化结果依次进行最后一个子问题的最优解就是整个问题的最优解 2 在多阶段决策过程中动态规划方法是既把当前一段和未来各段分开又把当前的效益和未来效益综合起来考虑的一种最优化方法因此每段决策的选取是从全局来考虑的与该段的最优选择答案一般是不同的 3 在求整个问题的最优策略时由于初始状态是已知的而每段的决策都是该段状态的函数故最优策略所经的各段状态便可逐次变换得到从而确定最优路线 2020 5 23 关于动态规划求解策略的进一步说明采用枚举法若问题的决策序列由n次决策构成而每次决策有p种选择则可能的决策序列将有pn个利用动态规划策略的求解过程中保存了所有子问题的最

16、优解而舍去了所有不能导致问题最优解的次优决策序列动态规划可能有多项式的计算复杂度 2020 5 23 与非线性规划相比动态规划的优点 1 易于确定全局最优解动态规划方法是一种逐步改善法它把原问题化为一系列结构相似的最优化子问题而每个子问题的变量个数比原问题少的多约束集合也要简单得多 2 能得到一簇解有利于分析结果 3 能利用经验提高求解的效率动态规划方法反映了过程逐段演变的前后联系较之非线性规划与实际过程联系得更紧密不足之处 1 没有一个统一的标准模型可供应用 2 应用的局限性要求状态变量满足无后效性条件不少实际问题在取其自然特征作为状态变量往往不能满足这条件 3 在数值求解中存在维数障碍在计算机中每递推一段必须把前一段的最优值函数在相应的状态集合上的全部值存入内存中当维数增大时所需的内存量成指数倍增长 2020 5 23 5 2多段图问题 1 问题的描述在多段图中求从s到t的一条最小成本的路径可以看作是在k 2个段作出某种决策的结果第i次决策决定Vi 1中的哪个结点在这条路径上这里1 i k 2 最优性原理对多段图问题成立 202

展开阅读全文