第4章动态决策分析－金锄头文库

资源描述

《第4章动态决策分析》由会员分享，可在线阅读，更多相关《第4章动态决策分析（30页珍藏版）》请在金锄头文库上搜索。

1、决策理论与方法（Decision Making Theory and Methods）,第四章动态决策分析,学习目的,了解多阶段决策、序贯决策的概念及特点；掌握动态规划与决策树方法及其在多阶段决策、序贯决策中的应用。,本讲内容,4.1动态决策的基本原理 4.1.1动态规划 4.1.2决策树 4.2多阶段决策 4.2.1多阶段决策过程的基本概念 4.2.2多阶段决策问题的决策方法 4.3序贯决策 4.3.1序贯决策的基本概念 4.3.2序贯决策的决策方法,4.1 动态决策的基本原理,4.1.1 动态规划动态规划（dynamic Programming，DP）是解决多阶段决策过程最优化的一

2、种方法，其基本思路是将多阶段决策过程转化为一系列相互关联的单阶段问题，并依次求解。 DP是离散系统最优化的一种有效工具，目前动态规划已广泛用于工业、农业、工程技术、资源、环境、经济、社会等领域。,4.1 动态决策的基本原理,4.1.1 动态规划例4-1-1 最优线路问题。由水源地向城市的输水线路需通过3个控制点，每个控制点均有两个可选方案，每段线路的输水费用如下图所示。选出一条输水线路，使得总输水费用最小。,4.1 动态决策的基本原理,4.1.1 动态规划最优性原理（the principle of optimality）也称为Bellman原理，是R. Bellman提出的DP的基本原理

3、，其表述为：“一个过程的最优策略具有这样的性质，即无论初始状态和初始决策如何，对于由前面的决策所形成的状态来说，其后各阶段的决策序列必定构成相应子过程的最优策略”。,4.1 动态决策的基本原理,4.1.2 决策树决策树(decision tree)就是将决策过程各个阶段之间的结构绘制成一张箭线图，每个决策或事件（即自然状态）都可能引出两个或多个事件，导致不同的结果。决策树的构成有四个要素：1)决策结点；2)方案枝；3)状态结点；4)概率枝。,4.1 动态决策的基本原理,4.1.2 决策树,4.1 动态决策的基本原理,4.1.2 决策树决策树法的决策程序如下： 1)绘制树状图，根据已知条件

4、排列出各个方案和每一方案的各种自然状态。 2)将各状态概率及损益值标于概率枝上。 3)计算各方案期望值并将其标于该方案对应的状态结点上。 4)进行剪枝，比较各个方案的期望值，并标于方案枝上，将期望值小的(即劣等方案剪掉)所剩的最后方案为最佳方案。,4.2 多阶段决策,多阶段决策有以下三个特点，第一，决策者需要做出时间上有先后之别的多个决策；第二，前一次决策的选择将直接影响到后一次决策，后一次决策的状态取决于前一次决策的结果；第三，决策者关心的是多次决策的总结果，而不是各次决策的即时后果。,4.2 多阶段决策,4.2.1 多阶段决策过程的基本概念（1）阶段-表示研究对象在发展过程中所处的

5、时段或步骤。（2）状态-系统在发展过程中某个阶段所有可能发生的情况，称为该阶段的状态。（3）决策与策略-某阶段状态给定以后，从该状态演变到下一阶段某个状态的选择称为决策；策略是一个决策序列。（4）指标函数与目标函数-对于多阶段决策过程的某一阶段，从初始状态做出决策而转移到下一状态时所产生的效应的衡量指标，称为该阶段的指标函数；目标函数是全过程指标函数的最优值。（5）多阶段决策过程-对整个过程进行分阶段决策，得到一个最优策略，使系统总体指标函数达到最优值。,4.2 多阶段决策,4.2.2 多阶段决策问题的决策方法主要方法是决策树法和动态规划法。分析步骤 1、根据具体问题适当划分阶段

6、 2、确定各阶段的状态变量，寻找各阶段间的联系 3、由后到前用逆序归纳法进行决策分析,4.2 多阶段决策,4.2.2 多阶段决策问题的决策方法多阶段决策问题包括确定型与随机型两大类，在确定型多阶段决策中，目标值都是确定值，在风险型多阶段决策中，目标值用期望值作为评价的标准。下面分别以两个例子说明其决策方法。,4.2 多阶段决策,4.2.2 多阶段决策问题的决策方法例4-2-1决策图,4.2 多阶段决策,4.2.2 多阶段决策问题的决策方法例4-2-1 某公司考虑为某新产品定价，该产品的单价拟从每件5元、6元、7元、8元这四个价格中选取其中之一，每年年初允许变动价格，但幅度不能超过1元。

7、该公司预计该产品畅销只有五年，五年后将被淘汰，另据销售情况的预测，在价格不同的情况下各年的预计利润额见右表。,4.2 多阶段决策,4.2.2 多阶段决策问题的决策方法例4-2-2 某公司考虑是否花10000元从某科研机关购买某项技术，然后产销新产品。如果卖技术，可以进行大批生产，可能出现的市场情况也分为畅销、一般或滞销三种，其收益矩阵见下表左。为了更准确地了解市场情况，正式投产前可进行产品试销，但需是消费500元。试销状态可分为受欢迎、一般或不受欢迎三种，其条件概率分别见下表右。如不买此项技术，把这笔经费应用在其他地方，在同样的时期内，可获利15000元，那么公司应如何决策？公司

8、要确定：1）是否卖技术？2）如果买技术，是否采取试销方式？3）如果不试销，应大批、中批还是小批生产？如果试销又如何根据试销状态决定其行动。,4.2 多阶段决策,4.2.2 多阶段决策问题的决策方法例4-2-2的表格,4.2 多阶段决策,4.2.2 多阶段决策问题的决策方法例4-2-的决策树,4.3 序贯决策,4.3.1 序贯决策的基本概念上面的多阶段决策，阶段数是确定的。除这种决策外，还有一些决策的阶段数不是事先确定的，它依赖于执行决策过程中出现的情况。这种决策问题称为序贯决策（sequential decision problem）。序列决策在进行决策后又产生一些新的情况，需要进行

9、新的决策，接着又有一些新的情况，又需要进行新的决策。这样决策、情况、决策，这就构成一个序列。,4.3 序贯决策,4.3.1 序贯决策的基本概念序贯决策是用于随机性或不确态定性动态系统最优化的决策方法。它的特点是： 1）所研究的系统是动态的，即系统所处的状态与时间有关，可周期（或连续）地对它观察； 2）决策是序贯地进行的，即每个时刻根据所观察到的状态和以前状态的记录，从一组可行方案中选用一个最优方案（即作最优决策），使取决于状态的某个目标函数取最优值（极大或极小值）； 3）系统下一步(或未来)可能出现的状态是随机的或不确定的。,4.3 序贯决策,4.3.1 序贯决策的基本概念系统在每次作出决

10、策后下一步可能出现的状态是不能确切预知的，存在两种情况： 1）系统下一步可能出现的状态的概率分布是已知的，可用客观概率的条件分布来描述。对于这类系统的序贯决策研究得较完满的是状态转移律具有无后效性的系统，相应的序贯决策称为马尔可夫决策过程，它是将马尔可夫过程理论与决定性动态规划相结合的产物。 2）系统下一步可能出现的状态的概率分布不知道，只能用主观概率的条件分布来描述。用于这类系统的序贯决策属于决策分析的内容。,4.3 序贯决策,4.3.2 序贯决策的决策方法序贯决策的过程是：从初始状态开始，每个时刻做出最优决策后，接着观察下一步实际出现的状态，即收集新的信息，然后再做出新的最优决策，反复进

11、行直至最后。解决序贯决策问题的有效办法仍然是决策树，解决序贯决策的关键是确定一个决策序列终止的原则。在下例中，这个原则就是：不管到决策的哪个阶段，只要有一个非经抽样的后悔期望值小于进行一次抽样的费用，决策序列便可终止。,4.3 序贯决策,4.3.2 序贯决策的决策方法例4-3-1 某工厂的产品每1000件装成一箱出售。每箱中产品的次品率有0.01，0.40，0.90三种可能，其概率分别为0.2，0.6，0.2。现在的问题是：出厂前是否要对产品进行严格检验，将次品挑出。可以选择的行动有两个：整箱检验，检验费为每箱100元；整箱不检验，但如果顾客在使用中发现次品，每件次品除条换为合格品外还

12、要赔偿0.25元损失费。为了更好地做出决定可以先从一箱中随机抽取1件作为样本检验它，然后根据这件产品是都次品再决定该箱是否要检验，抽样成本为4.2元。进行第一次抽样后，除选择检验还是不检验外，还可以根据前面抽样的结果，考虑再进行一次抽样检验如此形成一个决策序列。该厂应该如何决策。,4.3 序贯决策,4.3.2 序贯决策的决策方法解（1）假设为整箱检验；为整箱不检验；而表示次品率分别0.01，0.40，0.90的三种自然状态；表示抽取一件样品的行动，表示抽取第二件样品的行动；，为抽样时次品和合格品的两个结果。,4.3 序贯决策,4.3.2 序贯决策的决策方法（2）计算益

13、损值和后悔值矩阵。产品检验问题的收益矩阵见表4-3-1。由表4-3-1的收益矩阵可得到各行动方案的后悔值矩阵，见表4-3-2。表4-3-1 ：收益矩阵表表4-3-2：后悔矩阵表,4.3 序贯决策,4.3.2 序贯决策的决策方法（3）抽取一件样品的抽样分布见表4-3-3。计算各有关概率。表4-3-3 ：抽样结果条件概率分布表矩阵表,4.3 序贯决策,4.3.2 序贯决策的决策方法（4）画出决策树图4-3-1，图中表示决策阶段，表示第一次抽样、第二次抽样图4-3-1：决策树,本章小结,本章介绍了动态决策的基本概念与基本方法，重点是：多阶段决策、序贯决策、决策树等概念，动态规划、决策树方法及其在多阶段决策、序贯决策中的应用。多阶段决策分为确定型与风险型两类，风险型问题要借助于概率以期望值最优为目标；序贯决策的关键是确定一个决策序列终止的原则。,Thank you!,

展开阅读全文