一类改进的马氏决策过程及其相关问题研究

资源描述

《一类改进的马氏决策过程及其相关问题研究》由会员分享，可在线阅读，更多相关《一类改进的马氏决策过程及其相关问题研究（53页珍藏版）》请在金锄头文库上搜索。

1、 (申请理学硕士学位论文申请理学硕士学位论文) 一类改进的马氏决策过程及其相关问题研究培养单位：理学院学科专业：应用数学研究生：刘瑞玲指导老师：余旌胡教授 2014 年 12 月一类改进的马氏决策过程及其相关问题研究刘瑞玲武汉理工大学分类号密级 UDC 学校代码 10497 学位论文题目一类改进的马氏决策过程及其相关问题研究英文题目 An improved Markov decision processes and related research 研究生姓名刘瑞玲指导教师姓名余旌胡职称教授学

2、位博士单位名称理学院邮编 430070 申请学位级别硕士学科专业名称应用数学论文提交日期 2014 年 10 月论文答辩日期 2014 年 12 月学位授予单位武汉理工大学学位授予日期答辩委员会主席评阅人 2014 年 12 月独创性声明本人声明，所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。据我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得武汉理工大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中明确的说明并表示了谢意。研究

3、生签名：日期：关于论文使用授权的说明本人完全了解武汉理工大学有关保留、使用学位论文的规定，即：学校有权保留送交论文的复印件，允许论文被查阅和借阅；学校可以公布论文的全部内容，可以采用影印、缩印或其他复制手段保存论文。（保密的论文在解密后遵守此规定）签名：导师签名：日期： I 摘要马尔可夫决策过程是概率论的一门分支，亦是随机运筹学、随机系统最优控制的一门分支，对其研究一直非常活跃，在理论与应用方面均取得了很好的成果。马尔可夫决策过程的核心问题是寻找一个最优策略，使得系统在某种最优准则下达到最优。在传统的马尔可夫决策过程的研究中，所采用的策略是状态的函数，并且多数情况下是在平稳策

4、略范围内考虑问题。但是，许多实际问题中，策略并不是状态的函数，如已知状态下，策略是在给定行动空间上按某一分布随机取值。因此，传统马尔可夫决策过程的局限性导致马尔科夫决策过程不能解决实际面临的这类不确定问题。基于此背景，本文定义一种改进的马尔可夫决策过程并进行相关性质的研究。本文的工作如下：（1）给出改进的马尔可夫决策过程的数学定义，探讨其马氏性与极限行为，并在理论方面证明改进的马尔可夫决策过程的平稳分布的存在性；（2）利用平稳分布的存在性和遍历性定理来证明值函数的收敛性；（3）给出最优方程和最优概率分布的数学定义，为下一步的求解奠定基础。关键词：关键词：马尔可夫决策过程，平稳分布，最

5、优概率分布 II Abstract Markov decision processes is a branch of Probability theory, and it is also a branch of stochastic operations research and stochastic optimal control system. So its research is very active, we got good achievements in the theory and application. The core problem of Markov decision

6、processes is to find an optimal strategy function under some optimal principle, to make the system optimal. In the research of the traditional Markov decision processes, The strategy we adopted is the function of the state, and we consider problem within the stationary policy in most cases. While in

7、 many practical problems, the strategy is not the function of the state, such as, under a known state, the strategy is get a value random according to a distribution in a given action space. so the limitations of the traditional Markov decision processes lead to Markov decision processes cannot solv

8、e this kind of uncertain problem we faced . Based on this background, this paper defined an improved Markov decision processes and do some research about the related properties. The work of this paper is as follows: (1) give the definition of the improved Markov decision processes in math, then disc

9、uss the Markov property and extreme behavior, and prove that the improved Markov decision processes exist the stationary distribution in theory; (2) prove the convergence of value function using the existence of stationary distribution and ergodicity theorem; (3) give the definition of the optimal e

10、quation and the optimal probability distribution in math. Keywords: Markov decision processes, stationary distribution, optimal probability distribution 目录摘要 . I Abstract . II 第一章绪论 . 1 1.1 研究背景与研究意义 . 1 1.2 国内外研究现状 . 3 1.3 本文主要的研究工作及内容安排 . 7 第二章预备知识 . 8 2.1 MDPs 的基本理论 . 8 2.1.1 基本模型 . 8 2.1.2 状态与行动集 . 9 2.1.3 转移概率和代价 . 10 2.1.4 历史 . 11 2.1.5 MDPs 的数学定义 . 12 2.1.6 值函数 . 12 2.2 马尔可夫链 . 15 2.21 马尔可夫链的定义 . 15 2.2.2 转移概率 .

展开阅读全文

一类改进的马氏决策过程及其相关问题研究

最新文档