第8章动态规划－金锄头文库

资源描述

《第8章动态规划》由会员分享，可在线阅读，更多相关《第8章动态规划（104页珍藏版）》请在金锄头文库上搜索。

1、主要内容:7.1多阶段决策问题7.2 动态规划的基本概念和基本原理7.3 动态规划应用举例,例求解最短路问题,分阶段的最短路径, ： C1T 3 - : B1C1T 4- ：A2B1C1T 7- -： QA2B1C1T 11 Q-A3B1C1T 11 Q-A3B2C2T 11,最短路径,3,4,4,7,6,11,7,8,11,最短路径解的特点,1、可以将全过程求解分为若干阶段求解；-多阶段决策问题2、在全过程最短路径中，将会出现阶段的最优路径；-递推性3、前面的终点确定，后面的路径也就确定了，且与前面的路径（如何找到的这个终点）无关；-无后效性3、逐段地求解最优路径，势必会找到一个全过程最优

2、路径。-动态规划,7.1多阶段决策问题,动态规划是解决多阶段最优决策的方法, 由美国数学家贝尔曼(R. Bellman) 于 1951年首先提出;1957年贝尔曼发表动态规划方面的第一部专著“动态规划”, 标志着运筹学的一个新分支的创立。,动态规划将复杂的多阶段决策问题分解为一系列简单的、离散的单阶段决策问题, 采用顺序求解方法, 通过解一系列小问题达到求解整个问题目的;动态规划的各个决策阶段不但要考虑本阶段的决策目标, 还要兼顾整个决策过程的整体目标, 从而实现整体最优决策.,动态规划的分类:,离散确定型离散随机型连续确定型连续随机型,动态规划的特点:,动态规划没有准确的数学表达式和定义精

3、确的算法, 它强调具体问题具体分析, 依赖分析者的经验和技巧。与运筹学其他方法有很好的互补关系, 尤其在处理非线性、离散性问题时有其独到的特点。,通常多阶段决策过程的发展是通过状态的一系列变换来实现的。一般情况下，系统在某个阶段的状态转移除与本阶段的状态和决策有关外，还可能与系统过去经历的状态和决策有关。因此，问题的求解就比较困难复杂。而适合于用动态规划方法求解的只是一类特殊的多阶段决策问题，即具有“无后效性”的多阶段决策过程。所谓无后效性，又称马尔柯夫性，是指系统从某个阶段往后的发展，仅由本阶段所处的状态及其往后的决策所决定，与系统以前经历的状态和决策(历史)无关。具有无后效性的多阶段决策过

4、程的特点是系统过去的历史，只能通过现阶段的状态去影响系统的未来，当前的状态就是后过程发展的初始条件。,动态规划的应用,动态规划在工程技术, 企业管理, 军事部门有广泛的应用; 可解决资源分配, 生产调度, 库存管理, 路径优化, 设备更新, 投资规划, 排序问题和生产过程的最优控制等问题;,使用动态规划方法求解决策问题首先要将问题改造成符合动态规划求解要求的形式,要涉及以下概念:(1)阶段 (2)状态(3)决策与策略 (4)状态转移方程 (5)指标函数 (6)基本方程,7.2 动态规划的基本概念和基本思想,一、基本概念,(1) 划分阶段把一个复杂决策问题按时间或空间特征分解为若干(n)个相互

5、联系的阶段(stage), 以便按顺序求解; 阶段变量描述当前所处的阶段位置，一般用下标 k 表示;,每阶段有若干状态(state), 表示某一阶段决策面临的条件或所处位置及运动特征的量,称为状态。反映状态变化的量叫作状态变量。 k 阶段的状态特征可用状态变量 sk 描述; 每一阶段的全部状态构成该阶段的状态集合Sk，并有skSk。每个阶段的状态可分为初始状态和终止状态，或称输入状态和输出状态，阶段的初始状态记作sk ，终止状态记为sk+1 ，也是下个阶段的初始状态。,(2) 确定状态,(3) 决策、决策变量,所谓决策就是确定系统过程发展的方案，决策的实质是关于状态的选择，是决策者从给定阶段状

6、态出发对下一阶段状态作出的选择。,用以描述决策变化的量称之决策变量，和状态变量一样，决策变量可以用一个数，一组数或一向量来描述也可以是状态变量的函数，记以，表示于 k 阶段状态 sk 时的决策变量,决策变量的取值往往也有一定的容许范围，称之允许决策集合决策变量 xk(sk)的允许决策集用 XK(SK)表示， xk(sk) XK(SK) , 允许决策集合实际是决策的约束条件。,(4)策略和允许策略集合,策略(Policy)也叫决策序列策略有全过程策略和 k 部子策略之分，全过程策略是指具有n 个阶段的全部过程，由依次进行的 n 个阶段决策构成的决策序列，简称策略，表示为。从 k 阶段到第 n

7、阶段，依次进行的阶段决策构成的决策序列称为 k 部子策略,表示为，显然当 k=1时的 k 部子策略就是全过程策略。,(5) 状态转移方程,状态转移确定从一个状态到另一个状态的转移过程, 由状态转移方程描述: sk+1 = T (sk, xk); 状态转移方程在大多数情况下可以由数学公式表达, 如: sk+1 = sk + xk；,(6) 指标函数,用来衡量策略或子策略或决策的效果的某种数量指标，就称为指标函数。它是定义在全过程或各子过程或各阶段上的确定数量函数。对不同问题，指标函数可以是诸如费用、成本、产值、利润、产量、耗量、距离、时间、效用，等等。,用vk(sk , xk)表示第 k 段

8、处于状态 sk且所作决策为 xk 时的指标，则它就是第 k 段指标函数，简记为vk 。,用f(sk , xk)表示第k子过程的指标函数。表示处于第 k 段 sk 状态且所作决策为xk时，从 sk 点到终点的距离。由此可见， f(sk , xk)不仅跟当前状态 sk 有关，,（2）过程指标函数（也称目标函数）,（1）阶段指标函数（也称阶段效应）,还跟该子过程策略 pk(sk) 有关,严格说来，应表示为 fk(sk , pk(sk) 。它是由各阶段的阶段指标函数 vk(sk , xk)累积形成的，对于 k 部子过程的指标函数可以表示为：,式中，表示某种运算，可以是加、减、乘、除、开方等,多阶段决策

9、问题中，常见的目标函数形式之一是取各阶段效应之和的形式，即:,有些问题，如系统可靠性问题，其目标函数是取各阶段效应的连乘积形式，,(7) 最优解,用 fk* (sk) 表示第 k 子过程指标函数Fk(sk , pk(sk)在状态 sk 下的最优值，即:,称 fk(sk) 为第 k 子过程上的最优指标函数；与它相应的子策略 pk(sk) 称为状态 sk 下的最优子策略，记为 pk*(sk),例用动态规划求解最短路问题,最短路的求解: 阶段: 可分为4个阶段, k = 1, ., 4。状态: 可用城市编号, S1=Q, S2=A1,A2,A3, S3=B1,B2,B3, S4=C1,C2, S

10、5=T 决策: 决策变量也可用城市编号; 状态转移方程: sk+1= xk; 阶段指标函数：过程指标（阶段递推）函数:,k = 4f4 (C1) = 3, f4 (C2) = 4 k = 3f3(B1)=min1+f4(C1)=4*, 4+f4(C2)=8=4 f3(B2)=min6+f4(C1)=9, 3+f4(C2)=7*=7 f3(B3)=min3+f4(C1)=6*, 3+f4(C2)=7=6 k = 2 f2(A1) = min7+ f3(B1), 4+ f3(B2), 6+ f3(B3) = min11*, 11*, 12 = 11f2(A2) = min3+ f3(B1), 2

11、+ f3(B2), 4+ f3(B3) = min7*, 9, 10 = 7 f2(A3) = min4+ f3(B1), 1+ f3(B2), 5+ f3(B3) = = min8*, 8*, 11 = 8 k = 1 f1(Q) = min2+f2(A1), 4+f2(A2), 3+f2(A3) = min13, 11*, 11* = 11 最短路是：Q A2 B1 C1 T，p=A2,B1,C1,T Q A3 B1 C1 T ，p=A3,B1,C1,T Q A3 B2 C2 T ，p=A3,B2,C2,T,整个过程的最优策略应具有这样的性质: 无论过去的状态和决策如何, 对前面的决策所形

12、成的状态而言, 后续的诸决策必须构成最优策略；上一条成立的条件是阶段递推函数严格单调。,二、动态规划的最优性原理,在例题中，求解最短路线的计算公式可以概括写成：,其中，vk 在这里表示从状态 sk 到由决策 xk 所决定的状态 sk+1 之间的距离。f5(s5)=0 是边界条件，表示全过程到第四阶段终点结束。,一般地，对于 n 个阶段的决策过程，假设只考虑指标函数是“和”与“积”的形式，第 k 阶段和第 k+1 阶段间的递推公式可表示如下：,当过程指标函数为下列“和”的形式时,相应的函数基本方程为 :,当过程指标函数为下列“积”的形式时,相应的函数基本方程为 :,动态规划的优缺点,动态规划的优

13、点可以解决线性, 非线性, 整数规划无法有效求解的复杂问题;容易找到全局最优解;可以得到一组解;,动态规划的缺点：没有标准的模型可供应用, 构模依赖于个人的经验和技巧;状态变量需满足无后效性, 有较大的局限性;,7.3 动态规划方法应用,动态规划的步骤：1. 将问题按时间或空间划分为满足递推关系的若干阶段, 对非时序问题可人为地引入“时段”概念;2. 正确选择状态变量 sk, 满足:可知性: 正确描述动态过程演变, 可直接或间接确定状态变量的值;无后效性: 后面的决策与前面的决策无关;,3.确定决策变量 xk以及允许决策集合Xk;4. 写出状态转移方程 sk+1 = T (sk , xk);5

14、. 决策变量的取值范围 6.写出过程指标函数（阶段函数）的递推关系, 应满足:a) 是定义在所有阶段上的数量函数；b) 具有可分离性，并满足递推关系；c) 阶段函数应严格单调。,动态规划应用举例：,1. 最优路径问题2. 资源配置问题3. 生产与库存问题4. 机器负荷分配问题5. 复合系统工作可靠性问题6. 二维背包问题7. 设备更新问题货郎担问题非线性规划的求解,1.最优路径问题,某厂要确定一种新产品在今后五年内的价格，并已拟定只在5、6、7、8元这四种单价中进行选择。据预测，今后五年不同价格下每年盈利（万元）见下表，但是各相邻年度价格增减不得超过1元。问今后五年内每年定价各为多少，可逾七五年总利润最大。,13,14,11,8,4,3,4,10,18,22,23,17,24,28,28,30,37,35,36,38,解：1、建立动态规划模型：阶段：以年划分阶段，k=5,4,3,2,1；状态变量sk为每个阶段初的价格，则Sk=5,6,7,8；决策变量xk为每年所确定的价格，则Xk=5,6,7,8；状态转移方程：阶段指标函数vk(sk ,xk)为每个阶段选择xk所取得的盈利；例如v(sk ,)过程指标函数为第k阶段状态为sk时到最后一个阶段的总利润。基本函数方程为：,、逆序求解：,

展开阅读全文

第8章 动态规划

第8章动态规划