第4章--动态决策分析

资源描述

《第4章--动态决策分析》由会员分享，可在线阅读，更多相关《第4章--动态决策分析（31页珍藏版）》请在金锄头文库上搜索。

1、决策理论与方法决策理论与方法（Decision Making Theory and Methods）决策理论与方法决策理论与方法第 2 页第 2 页第四章动态决策分析决策理论与方法决策理论与方法第 3 页第 3 页学习目的学习目的了解多阶段决策、序贯决策的概念及特点；了解多阶段决策、序贯决策的概念及特点；掌握动态规划与决策树方法及其在多阶段决策、掌握动态规划与决策树方法及其在多阶段决策、序贯决策中的应用。序贯决策中的应用。决策理论与方法决策理论与方法第 4 页第 4 页本讲内容本讲内容4.1动态决策的基本原理动态决策的基本原理 4.1.1动态规划动态规划 4.1.2决策树决策树4.2多阶段

2、决策多阶段决策 4.2.1多阶段决策过程的基本概念多阶段决策过程的基本概念 4.2.2多阶段决策问题的决策方法多阶段决策问题的决策方法4.3序贯决策序贯决策 4.3.1序贯决策的基本概念序贯决策的基本概念 4.3.2序贯决策的决策方法序贯决策的决策方法决策理论与方法决策理论与方法第 5 页第 5 页4.1 动态决策的基本原理动态决策的基本原理4.1.1 动态规划动态规划动态规划（动态规划（dynamic Programming，DP）是解）是解决多阶段决策过程最优化的一种方法，其基本思路是决多阶段决策过程最优化的一种方法，其基本思路是将多阶段决策过程转化为一系列相互关联的单阶段问将多阶段决策

3、过程转化为一系列相互关联的单阶段问题，并依次求解。题，并依次求解。 DP是离散系统最优化的一种有效工具，目前动是离散系统最优化的一种有效工具，目前动态规划已广泛用于工业、农业、工程技术、资源、环态规划已广泛用于工业、农业、工程技术、资源、环境、经济、社会等领域。境、经济、社会等领域。决策理论与方法决策理论与方法第 6 页第 6 页4.1 动态决策的基本原理动态决策的基本原理4.1.1 动态规划动态规划例例4-1-1 最最优优线线路路问问题题。由由水水源源地地向向城城市市的的输输水水线线路路需需通通过过3个个控控制制点点，每每个个控控制制点点均均有有两两个个可可选选方方案案，每每段段线线路路

4、的的输输水水费费用用如如下下图图所所示示。选选出出一一条条输输水水线路，使得总输水费用最小。线路，使得总输水费用最小。决策理论与方法决策理论与方法第 7 页第 7 页4.1 动态决策的基本原理动态决策的基本原理4.1.1 动态规划动态规划最优性原理（最优性原理（the principle of optimality）也称为）也称为Bellman原理，是原理，是R. Bellman提出的提出的DP的基本原理，的基本原理，其表述为：其表述为：“一个过程的最优策略具有这样的性质，一个过程的最优策略具有这样的性质，即无论初始状态和初始决策如何，对于由前面的决策即无论初始状态和初始决策如何，对于由前面

5、的决策所形成的状态来说，其后各阶段的决策序列必定构成所形成的状态来说，其后各阶段的决策序列必定构成相应子过程的最优策略相应子过程的最优策略”。决策理论与方法决策理论与方法第 8 页第 8 页4.1 动态决策的基本原理动态决策的基本原理4.1.2 决策树决策树决策树决策树(decision tree)就是将决策过程各个阶段之就是将决策过程各个阶段之间的结构绘制成一张箭线图，每个决策或事件（即自间的结构绘制成一张箭线图，每个决策或事件（即自然状态）都可能引出两个或多个事件，导致不同的结然状态）都可能引出两个或多个事件，导致不同的结果。果。决策树的构成有四个要素：决策树的构成有四个要素：1)决策

6、结点；决策结点；2)方案方案枝；枝；3)状态结点；状态结点；4)概率枝。概率枝。决策理论与方法决策理论与方法第 9 页第 9 页4.1 动态决策的基本原理动态决策的基本原理4.1.2 决策树决策树方案枝方案枝决策结点概率枝概率枝状态结点概率枝概率枝概率枝状态结点概率枝决策理论与方法决策理论与方法第 10 页第 10 页4.1 动态决策的基本原理动态决策的基本原理4.1.2 决策树决策树决策树法的决策程序如下：决策树法的决策程序如下： 1)绘制树状图，根据已知条件排列出各个方案和绘制树状图，根据已知条件排列出各个方案和每一方案的各种自然状态。每一方案的各种自然状态。 2)将各状态概率及损

7、益值标于概率枝上。将各状态概率及损益值标于概率枝上。 3)计算各方案期望值并将其标于该方案对应的状计算各方案期望值并将其标于该方案对应的状态结点上。态结点上。 4)进行剪枝，比较各个方案的期望值，并标于方进行剪枝，比较各个方案的期望值，并标于方案枝上，将期望值小的案枝上，将期望值小的(即劣等方案剪掉即劣等方案剪掉)所剩的最后所剩的最后方案为最佳方案。方案为最佳方案。决策理论与方法决策理论与方法第 11 页第 11 页4.2 多阶段决策多阶段决策多阶段决策有以下三个特点，多阶段决策有以下三个特点，第一，决策者需要做出时间上有先后之别的多个第一，决策者需要做出时间上有先后之别的多个决策；决策

8、；第二，前一次决策的选择将直接影响到后一次决第二，前一次决策的选择将直接影响到后一次决策，后一次决策的状态取决于前一次决策的结果；策，后一次决策的状态取决于前一次决策的结果；第三，决策者关心的是多次决策的总结果，而不第三，决策者关心的是多次决策的总结果，而不是各次决策的即时后果。是各次决策的即时后果。决策理论与方法决策理论与方法第 12 页第 12 页4.2 多阶段决策多阶段决策4.2.1 多阶段决策过程的基本概念多阶段决策过程的基本概念（1）阶段）阶段-表示研究对象在发展过程中所处的时段或步骤。表示研究对象在发展过程中所处的时段或步骤。（2）状态）状态-系统在发展过程中某个阶段所有

9、可能发生的情况，系统在发展过程中某个阶段所有可能发生的情况，称为该阶段的状态。称为该阶段的状态。（3）决策与策略）决策与策略-某阶段状态给定以后，从该状态演变到下某阶段状态给定以后，从该状态演变到下一阶段某个状态的选择称为决策；策略是一个决策序列。一阶段某个状态的选择称为决策；策略是一个决策序列。（4）指标函数与目标函数）指标函数与目标函数-对于多阶段决策过程的某一阶段，对于多阶段决策过程的某一阶段，从初始状态做出决策而转移到下一状态时所产生的效应的衡从初始状态做出决策而转移到下一状态时所产生的效应的衡量指标，称为该阶段的指标函数；目标函数是全过程指标函量指标，称为该阶段的指标函数；目标函

10、数是全过程指标函数的最优值。数的最优值。（5）多阶段决策过程多阶段决策过程-对整个过程进行分阶段决策，得到对整个过程进行分阶段决策，得到一个最优策略，使系统总体指标函数达到最优值。一个最优策略，使系统总体指标函数达到最优值。决策理论与方法决策理论与方法第 13 页第 13 页4.2 多阶段决策多阶段决策4.2.2 多阶段决策问题的决策方法多阶段决策问题的决策方法主要方法是决策树法和动态规划法。主要方法是决策树法和动态规划法。分析步骤分析步骤 1、根据具体问题适当划分阶段、根据具体问题适当划分阶段 2、确确定定各各阶阶段段的的状状态态变变量量，寻寻找找各各阶阶段段间的联系间的联系 3、由

11、后到前用逆序归纳法进行决策分析、由后到前用逆序归纳法进行决策分析决策理论与方法决策理论与方法第 14 页第 14 页4.2 多阶段决策多阶段决策4.2.2 多阶段决策问题的决策方法多阶段决策问题的决策方法多多阶阶段段决决策策问问题题包包括括确确定定型型与与随随机机型型两两大大类类，在在确确定定型型多多阶阶段段决决策策中中，目目标标值值都都是是确确定定值值，在在风风险险型型多阶段决策中，目标值用期望值作为评价的标准。多阶段决策中，目标值用期望值作为评价的标准。下面分别以两个例子说明其决策方法。下面分别以两个例子说明其决策方法。决策理论与方法决策理论与方法第 15 页第 15 页4.2 多阶段

12、决策多阶段决策4.2.2 多阶段决策问题的决策方法多阶段决策问题的决策方法例例4-2-1决策图决策图 736045845元1012152025736045846元1213162024736045847元1414161818736045848元1615151414决策理论与方法决策理论与方法第 16 页第 16 页4.2 多阶段决策多阶段决策4.2.2 多阶段决策问题的决策多阶段决策问题的决策方法方法例例4-2-1 某公司考虑为某新产品定某公司考虑为某新产品定价，该产品的单价拟从每件价，该产品的单价拟从每件5元、元、6元、元、7元、元、8元这四个价格中选元这四个价格中选取其中之一，每年年初允许

13、变动取其中之一，每年年初允许变动价格，但幅度不能超过价格，但幅度不能超过1元。该元。该公司预计该产品畅销只有五年，公司预计该产品畅销只有五年，五年后将被淘汰，另据销售情况五年后将被淘汰，另据销售情况的预测，在价格不同的情况下各的预测，在价格不同的情况下各年的预计利润额见右表。年的预计利润额见右表。决策理论与方法决策理论与方法第 17 页第 17 页4.2 多阶段决策多阶段决策4.2.2 多阶段决策问题的决策方法多阶段决策问题的决策方法例例4-2-2 某某公公司司考考虑虑是是否否花花10000元元从从某某科科研研机机关关购购买买某某项项技技术术，然然后后产产销销新新产产品品。如如果果卖卖技技术

14、术，可可以以进进行行大大批批生生产产，可可能能出出现现的的市市场场情情况况也也分分为为畅畅销销、一一般般或或滞滞销销三三种种，其其收收益益矩矩阵阵见见下下表表左左。为为了了更更准准确确地地了了解解市市场场情情况况，正正式式投投产产前前可可进进行行产产品品试试销销，但但需需是是消消费费500元元。试试销销状状态态可可分分为为受受欢欢迎迎、一一般般或或不不受受欢欢迎迎三三种种，其其条条件件概概率率分分别别见见下下表表右右。如如不不买买此此项项技技术术，把把这这笔笔经经费费应应用用在在其其他他地地方方，在在同同样样的的时时期期内内，可可获获利利15000元元，那那么么公公司司应应如如何何

15、决决策策？公公司司要要确确定定：1）是是否否卖卖技技术术？2）如如果果买买技技术术，是是否否采采取取试试销销方方式式？3）如如果果不不试试销销，应应大大批批、中中批批还还是是小小批生产？如果试销又如何根据试销状态决定其行动批生产？如果试销又如何根据试销状态决定其行动。决策理论与方法决策理论与方法第 18 页第 18 页4.2 多阶段决策多阶段决策4.2.2 多阶段决策问题的决策方法多阶段决策问题的决策方法例例4-2-2的表格的表格决策理论与方法决策理论与方法第 19 页第 19 页4.2 多阶段决策多阶段决策4.2.2 多阶段决策问题的决策方法多阶段决策问题的决策方法例例4-2-的决

16、策树的决策树买不试试不买849356721决策理论与方法决策理论与方法第 20 页第 20 页4.3 序贯决策序贯决策4.3.1 序贯决策的基本概念序贯决策的基本概念上面的多阶段决策，阶段数是确定的。除这种决上面的多阶段决策，阶段数是确定的。除这种决策外，还有一些决策的阶段数不是事先确定的，它依策外，还有一些决策的阶段数不是事先确定的，它依赖于执行决策过程中出现的情况。这种决策问题称为赖于执行决策过程中出现的情况。这种决策问题称为序贯决策（序贯决策（sequential decision problem）。）。序列决策在进行决策后又产生一些新的情况，需序列决策在进行决策后又产生一些新的情况

17、，需要进行新的决策，接着又有一些新的情况，又需要进要进行新的决策，接着又有一些新的情况，又需要进行新的决策。这样决策、情况、决策行新的决策。这样决策、情况、决策，这就构成，这就构成一个序列。一个序列。决策理论与方法决策理论与方法第 21 页第 21 页4.3 序贯决策序贯决策4.3.1 序贯决策的基本概念序贯决策的基本概念序贯决策是用于随机性或不确态定性动态系统最序贯决策是用于随机性或不确态定性动态系统最优化的决策方法。它的特点是：优化的决策方法。它的特点是： 1）所研究的系统是动态的，即系统所处的状态）所研究的系统是动态的，即系统所处的状态与时间有关，可周期（或连续）地对它观察；与时间有

18、关，可周期（或连续）地对它观察； 2）决策是序贯地进行的，即每个时刻根据所观）决策是序贯地进行的，即每个时刻根据所观察到的状态和以前状态的记录，从一组可行方案中选察到的状态和以前状态的记录，从一组可行方案中选用一个最优方案（即作最优决策），使取决于状态的用一个最优方案（即作最优决策），使取决于状态的某个目标函数取最优值（极大或极小值）；某个目标函数取最优值（极大或极小值）； 3）系统下一步）系统下一步(或未来或未来)可能出现的状态是随机的可能出现的状态是随机的或不确定的。或不确定的。决策理论与方法决策理论与方法第 22 页第 22 页4.3 序贯决策序贯决策4.3.1 序贯决策的基本概念序贯决

19、策的基本概念系统在每次作出决策后下一步可能出现的状态是不系统在每次作出决策后下一步可能出现的状态是不能确切预知的，存在两种情况：能确切预知的，存在两种情况： 1）系统下一步可能出现的状态的概率分布是已知的，）系统下一步可能出现的状态的概率分布是已知的，可用客观概率的条件分布来描述。对于这类系统的序贯决可用客观概率的条件分布来描述。对于这类系统的序贯决策研究得较完满的是状态转移律具有无后效性的系统，相策研究得较完满的是状态转移律具有无后效性的系统，相应的序贯决策称为马尔可夫决策过程，它是将马尔可夫过应的序贯决策称为马尔可夫决策过程，它是将马尔可夫过程理论与决定性动态规划相结合的产物。程理论与决

20、定性动态规划相结合的产物。 2）系统下一步可能出现的状态的概率分布不知道，）系统下一步可能出现的状态的概率分布不知道，只能用主观概率的条件分布来描述。用于这类系统的序贯只能用主观概率的条件分布来描述。用于这类系统的序贯决策属于决策分析的内容。决策属于决策分析的内容。决策理论与方法决策理论与方法第 23 页第 23 页4.3 序贯决策序贯决策4.3.2 序贯决策的决策方法序贯决策的决策方法序贯决策的过程是：从初始状态开始，每个时刻序贯决策的过程是：从初始状态开始，每个时刻做出最优决策后，接着观察下一步实际出现的状态，做出最优决策后，接着观察下一步实际出现的状态，即收集新的信息，然后再做出新的最

21、优决策，反复进即收集新的信息，然后再做出新的最优决策，反复进行直至最后。行直至最后。解决序贯决策问题的有效办法仍然是决策树，解解决序贯决策问题的有效办法仍然是决策树，解决序贯决策的关键是确定一个决策序列终止的原则。决序贯决策的关键是确定一个决策序列终止的原则。在下例中，这个原则就是：不管到决策的哪个阶段，在下例中，这个原则就是：不管到决策的哪个阶段，只要有一个非经抽样的后悔期望值小于进行一次抽样只要有一个非经抽样的后悔期望值小于进行一次抽样的费用，决策序列便可终止。的费用，决策序列便可终止。决策理论与方法决策理论与方法第 24 页第 24 页4.3 序贯决策序贯决策4.3.2 序贯决策的决策

22、方法序贯决策的决策方法例例4-3-1 某工厂的产品每某工厂的产品每1000件装成一箱出售。每箱件装成一箱出售。每箱中产品的次品率有中产品的次品率有0.01，0.40，0.90三种可能，其概率分三种可能，其概率分别为别为0.2，0.6，0.2。现在的问题是：出厂前是否要对产品。现在的问题是：出厂前是否要对产品进行严格检验，将次品挑出。可以选择的行动有两个：进行严格检验，将次品挑出。可以选择的行动有两个：整箱检验，检验费整箱检验，检验费为每箱为每箱100元；元；整箱不检验，但如果整箱不检验，但如果顾客在使用中发现次品，每件次品除条换为合格品外还要顾客在使用中发现次品，每件次品除条换为合格品外

23、还要赔偿赔偿0.25元损失费。为了更好地做出决定可以先从一箱中元损失费。为了更好地做出决定可以先从一箱中随机抽取随机抽取1件作为样本检验它，然后根据这件产品是都次件作为样本检验它，然后根据这件产品是都次品再决定该箱是否要检验，抽样成本为品再决定该箱是否要检验，抽样成本为4.2元。进行第一元。进行第一次抽样后，除选择检验还是不检验外，还可以根据前面抽次抽样后，除选择检验还是不检验外，还可以根据前面抽样的结果，考虑再进行一次抽样检验如此形成一个决策序样的结果，考虑再进行一次抽样检验如此形成一个决策序列。该厂应该如何决策。列。该厂应该如何决策。决策理论与方法决策理论与方法第 25 页第 25 页4.

24、3 序贯决策序贯决策4.3.2 序贯决策的决策方法序贯决策的决策方法解解（1）假设假设为整箱检验；为整箱检验；为整箱不检验；为整箱不检验；而而表示次品率分别表示次品率分别0.01，0.40，0.90的三种的三种自然状态；自然状态；表示抽取一件样品的行动，表示抽取一件样品的行动，表示抽取表示抽取第二件样品的行动第二件样品的行动；，为抽样时次品为抽样时次品和合格品的两个结果。和合格品的两个结果。决策理论与方法决策理论与方法第 26 页第 26 页4.3 序贯决策序贯决策4.3.2 序贯决策的决策方法序贯决策的决策方法（2）计算益损值和后悔值矩阵。）计算益损值和后悔值矩阵

25、。产品检验问题的收益矩阵见表产品检验问题的收益矩阵见表4-3-1。由表。由表4-3-1的收益的收益矩阵可得到各行动方案的后悔值矩阵，见表矩阵可得到各行动方案的后悔值矩阵，见表4-3-2。表表4-3-1 ：收益矩阵表：收益矩阵表表表4-3-2：后悔矩阵表：后悔矩阵表决策理论与方法决策理论与方法第 27 页第 27 页4.3 序贯决策序贯决策4.3.2 序贯决策的决策方法序贯决策的决策方法（3）抽取一件样品的抽样分布见表）抽取一件样品的抽样分布见表4-3-3。计算各有关。计算各有关概率。概率。表表4-3-3 ：抽样结果条件概率分布表矩阵表：抽样结果条件概率分布表矩阵表决策理论与方法决

26、策理论与方法第 28 页第 28 页4.3 序贯决策序贯决策4.3.2 序贯决策的决策方法序贯决策的决策方法（4）画出决策树图）画出决策树图4-3-1，图中，图中表示决策阶表示决策阶段，段，表示第一次抽样、第二次抽样表示第一次抽样、第二次抽样图图4-3-1：决策树：决策树 4.3250.283733.300.71630.4220.5782519.503.731.177846.174.1091.9092.9660.7660.60382.21.17782.20.46212.22.20.462153.312.2决策理论与方法决策理论与方法第 29 页第 29 页本章小结本章小结本本章章介介

27、绍绍了了动动态态决决策策的的基基本本概概念念与与基基本本方方法法，重重点点是是：多多阶阶段段决决策策、序序贯贯决决策策、决决策策树树等等概概念念，动动态态规规划划、决决策策树树方方法法及及其其在在多多阶阶段段决决策策、序序贯贯决决策策中中的的应应用用。多多阶阶段段决决策策分分为为确确定定型型与与风风险险型型两两类类，风风险险型型问问题题要要借借助助于于概概率率以以期期望望值值最最优优为为目目标标；序序贯贯决决策策的的关关键是确定一个决策序列终止的原则。键是确定一个决策序列终止的原则。决策理论与方法决策理论与方法第 30 页第 30 页 Thank you!决策理论与方法决策理论与方法第 31 页第 31 页部分资料从网络收集整理而来，供大家参考，感谢您的关注！

展开阅读全文

第4章--动态决策分析

最新文档