第三章最优控制上传.doc

上传人:大米 文档编号:563732434 上传时间:2023-01-07 格式:DOC 页数:21 大小:936.50KB
返回 下载 相关 举报
第三章最优控制上传.doc_第1页
第1页 / 共21页
第三章最优控制上传.doc_第2页
第2页 / 共21页
第三章最优控制上传.doc_第3页
第3页 / 共21页
第三章最优控制上传.doc_第4页
第4页 / 共21页
第三章最优控制上传.doc_第5页
第5页 / 共21页
点击查看更多>>
资源描述

《第三章最优控制上传.doc》由会员分享,可在线阅读,更多相关《第三章最优控制上传.doc(21页珍藏版)》请在金锄头文库上搜索。

1、第三章 最优控制第一节 最大值原理概述在变分法中,首要关注的是最优状态路径,由它确定最优值;在最优控制中,寻求一个控制变量的最优控制时间路径;而动态规划关注的是最优值函数,通过它寻求一个最优策略函数,即控制对状态的反应。后者在离散与不确定性问题中更重要。一、最优控制的最简单问题最优控制的最简单问题是:,自由,、给定 (1)有时也指定的变化区域:。与变分法不同,最简单的最优控制问题中的是自由的,因为推导过程中,我们是使(而不是)任意变化来找到最优值。从直观上讲,如果限定了,不能真正任意变化。此外,与变分法不同,不要求全局可微,只要求分片(piecewise)可微即可;的要求是分片连续。在最优控制

2、问题中,选择的变量是,可直接处理的约束问题,并且容许角点解。二、共态变量(或协态变量,costate variable)和汉密尔顿函数问题的求解中我们要用到一个关键的表达即汉密尔顿函数: (2)是一个动态的乘子函数,它实质上就是动态的拉格朗日乘子,所以具有与拉格朗日乘子同样的含义。在后面的表述中,在不引起歧义的情况下,我们将省略、与中的隐含自变量。三、最大值原理我们先给出最大值原理的结果,熟悉了以后再来推导与解释。最大值原理为,问题(1)的解满足下列式子:, (3) (4) (5) (6)(3)式为最优性条件;(4)式为可行性条件,它实际上就是已知的约束;(4)式是关于乘子的运动方程(也有人称

3、之为欧拉方程);(6)式为横截性条件。(3)式实质上是下式的一般化: (7)大部分情况下(7)式与(3)是等价的。但是当不可微(如在边界上)、关于线性等情况时,(7)式是不适用的。四、例题【例1-1】求下面的动态优化问题,自由,、给定解:第一步建立汉密尔顿函数 关于非线性且未指定控制域,所以肯定是内点解,适用。首先,由(7)式有: (8)其次由(5)式常数 (9)由TVC条件(6)式得到: (10)结合(9)、(10)式得到:, (11)由(8)与(11)式得到: (12)由条件(4)式(即已知的动态约束)得到:常数最后由初始点确定该常数:。【例2-2】本例说明不能用的情况,自由,首先建立汉密

4、尔顿函数:关于线性,。若,则最大()时最大;反之,若,最小()时,最大。即:2由是减函数,从递减到。在前后发生转变,由转变为。令该时刻的,求出该时刻:以时刻为分界线,最优控制变量分成两段:在时间段:,且在 ,初始值。由初始值确定积分常数。【例2-3】政治商业周期模型本例中我们说明威廉诺德豪斯(Nordhause,1975)的政治商业周期模型(转引自蒋中一,2003)。执政党控制政府,为了继续执掌政权,执行吸引选民的政策。选民关注两个变量:失业率和通货膨胀率,以下面的选举函数(总量的)表达选民的关注: (13)其中度量执政党的得票能力,。(13)式中的选举函数表明,对执政党来说,存在失业率与通货

5、膨胀之间的权衡。如果能实现失业率与通货膨胀率都低的又快又好的发展,则得票能力最大,但是经济系统的运行规律告诉我们,两个变量之间存在权衡关系: (14)其中为通货膨胀预期,(14)式为预期增进的菲利普斯曲线,而预期为适应性的: (15)由此我们得到如下的最优控制问题: 受约束于 (16)以及边界条件 ,自由,和给定。 表示记忆的衰退率。要解这一问题,先建立汉密尔顿函数:由此我们解出最优控制路径为:其中,失业率对时间求导:由此可知在刚开始赢得大选时,政府将失业率设置较高,而随着大选临近,会逐渐降低失业率。最优通货膨胀率的时间路径与失业率相反,所以在刚开始赢得大选时较低,而随着大选临近会逐渐升高。课

6、堂练习: ,五、变分与最优控制的比较变分法与最优控制实际上是一致的。下面以一个特定的例子来说明这一点。变分法 最优控制 它们的解分别为:变分法 最优控制 在这个特定的例子中,我们可以从最优控制的条件推导得变分法的条件。由(17)和(18)可得:由上式可得到:由(19)得到:此即变分法中的欧拉方程。两个问题中的横截性条件以及二阶必要条件也很容易说明是一致的。第二节 推导 我们下面给出的是最大值原理的探索性的变分法说明,而不是严格、详细的证明。为清楚起见,我们重述最优控制的最简单问题如下:,、自由,给定 (1) 下面分四步得到(4)到(7)式的结果。【第一步】将运动方程结合入目标泛函中对所有的成立

7、,即:,。由此 (22)注意这里的顺序,颠倒这个顺序对求解没有什么影响,但是对乘子的解释有影响。将(22)式加入到原来的目标泛函中得到新的目标泛函 (23)只要,则。也就是说,在动态约束满足的条件下,(23)式的优化条件与原问题的优化条件是相同的。这种做法实际上是拉格朗日法,所以这里的乘子本质上就是拉格朗日乘子,具有与拉格朗日乘子同样的解释,即影子价格。定义 (24)对上式后一部分分部积分得到:将这一结果代入(24)式新的目标泛函得到: (25)【第二步】:条件的说明只要成立,则拉格朗日乘子对新的泛函值不产生影响。这个条件实际上是作为约束的运动方程的重述,没有什么新的内容。【第三步】:变分假设

8、最优控制路径为,现有扰动路径,。所以,对于固定的,每一值就会有一个。同样由最优状态路径产生一个任意的路径,即。若和可变,有: (26) (27)由(26)与(27)式得到: (28) (29)这实质上就是变分的思想,即给已知的最优路径一个扰动。和推导变分法的一阶条件一样,这里也要求一阶条件: (30) 我们将(30)式中的新的目标泛函重述如下: (31)【第四步】:由得到所有的必要条件。(31)式中积分式对的导数为: (32)上面用到了:对的导数为: (33)上式中用到了(28)与(29)的结果。最后一项对的导数为0。所以,(32)+ (33) (34)一阶条件即上式为0。由于、是任意的,这要

9、求上式三个部分分别为0。进一步地:1、(34)式中被积部分为0要求它的两个相加部分分别为0,从而得到:和这就是一阶条件中的(7)和(5)式。2、(34)式中最后一部分为0即为:,也就是。这就是一阶条件中的(6)式。3、在我们的最简单的最优控制问题中,固定自动为0。所以第二部分自动为0,而无须其他条件。而在其他情况下,我们需要分析(34)式中的第二部分。在下一节中我们会有这方面的应用。 第三节 其它终结条件一、TVC我们从(34)式得到其他终结条件的TVC。其他终结条件只会影响到横截性条件,对(5)式和(7)是没有影响。1、固定终结点(T和给定)没有横截性条件,以代替2、水平终结线(时间自由而状

10、态固定)由(34)式可知,即汉密尔顿函数必须在最优终结时间达到0,对于时的无限制。3、终结曲线(34)式中的后两部分为:由此得到横截性条件为:4、截断垂直终结线(固定,自由但)这时的横截性条件为:,上面的TVC条件中,最后部分的互补松弛关系常被提及。如果,则它为。在宏观经济学中,有时遇到的约束为,横截性条件仍是。此外,若,则我们用到的横截性条件是。5、截断水平终结曲线(固定,自由,)横截性条件为:,【例3-1】:求解如下最优控制问题,解:由初始条件和课堂练习:如果上例中终结状态条件改为与,这成了截断垂直终结线。求解相应的TVC。 第四节 经济解释最大值原理的每一必要条件都可得到经济解释,富有经

11、济含义。考虑这样一个问题:企业在时间上最大化利润。状态变量为资本存量,控制变量代表可能作出的决策(如广告、存货等)初始为,未定,每一时刻利润依赖于当期和。最优控制问题为:,自由,、给定。一、共态变量作为影子价格在前面的推导过程中,我们已经说明,实质上是拉格朗乘子,而拉格朗乘子都可解释为影子价格,所以这里表示每一时刻单位资本的影子价格。我们得到类似于(25)式的结果: (35)上式对资本存量求导得到(推导见Kamien and Schwartz):,这样,在时,如果增加一单位,则利润增加。在终结时(时),如果多持有一单位资本,则利润损失。对于中间的任一时刻,都有同样的解释,即影子价格。 二、汉密尔顿函数和利润前景实际上,某一时点上资产总价值的变化可以分为三个部分,瞬时利润、未来利润以及资产价格本身的变动。例如,你拥有一片具有生产性的土地,一年内它给你产生利润增加了土地的价值,同时如果土地的面积和价格也在变,这也会增加土地的价值。我们继续前面的企业利润最大化的例子。是在既定下的当前利润,而是既定下的资本变化(投资数量),是投资的(影子)价格,所以是既定下资产数量变化导致的资产价值变化,它来源于资产的未来获利能力。汉密尔顿函数是总利润前景,即瞬时利润加上未来利润。我们先考虑除了当期利润外的另外两部分,即已有资产的价值

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号