一类改进的马氏决策过程及其相关问题研究

上传人:lizhe****0001 文档编号:36898512 上传时间:2018-04-04 格式:PDF 页数:53 大小:2MB
返回 下载 相关 举报
一类改进的马氏决策过程及其相关问题研究_第1页
第1页 / 共53页
一类改进的马氏决策过程及其相关问题研究_第2页
第2页 / 共53页
一类改进的马氏决策过程及其相关问题研究_第3页
第3页 / 共53页
一类改进的马氏决策过程及其相关问题研究_第4页
第4页 / 共53页
一类改进的马氏决策过程及其相关问题研究_第5页
第5页 / 共53页
点击查看更多>>
资源描述

《一类改进的马氏决策过程及其相关问题研究》由会员分享,可在线阅读,更多相关《一类改进的马氏决策过程及其相关问题研究(53页珍藏版)》请在金锄头文库上搜索。

1、 (申请理学硕士学位论文申请理学硕士学位论文) 一类改进的马氏决策过程及 其相关问题研究 培养单位:理学院 学科专业:应用数学 研 究 生:刘瑞玲 指导老师:余旌胡 教授 2014 年 12 月一 类 改 进 的 马 氏 决 策 过 程 及 其 相 关 问 题 研 究刘 瑞 玲武 汉 理 工 大 学分类号 密 级 UDC 学校代码 10497 学 位 论 文 题 目 一类改进的马氏决策过程及其相关问题研究 英文题目 An improved Markov decision processes and related research 研究生姓名 刘 瑞 玲 指导教师 姓名 余旌胡 职称 教授 学

2、位 博士 单位名称 理 学 院 邮编 430070 申请学位级别 硕 士 学科专业名称 应用数学 论文提交日期 2014 年 10 月 论文答辩日期 2014 年 12 月 学位授予单位 武汉理工大学 学位授予日期 答辩委员会主席 评阅人 2014 年 12 月 独 创 性 声 明 本人声明,所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中明确的说明并表示了谢意。 研究

3、生签名: 日期: 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部内容,可以采用影印、缩印或其他复制手段保存论文。 (保密的论文在解密后遵守此规定) 签名: 导师签名: 日期: I 摘 要 马尔可夫决策过程是概率论的一门分支,亦是随机运筹学、随机系统最优控制的一门分支,对其研究一直非常活跃,在理论与应用方面均取得了很好的成果。马尔可夫决策过程的核心问题是寻找一个最优策略,使得系统在某种最优准则下达到最优。在传统的马尔可夫决策过程的研究中,所采用的策略是状态的函数,并且多数情况下是在平稳策

4、略范围内考虑问题。但是,许多实际问题中,策略并不是状态的函数,如已知状态下,策略是在给定行动空间上按某一分布随机取值。因此,传统马尔可夫决策过程的局限性导致马尔科夫决策过程不能解决实际面临的这类不确定问题。基于此背景,本文定义一种改进的马尔可夫决策过程并进行相关性质的研究。 本文的工作如下: (1)给出改进的马尔可夫决策过程的数学定义,探讨其马氏性与极限行为,并在理论方面证明改进的马尔可夫决策过程的平稳分布的存在性; (2)利用平稳分布的存在性和遍历性定理来证明值函数的收敛性; (3)给出最优方程和最优概率分布的数学定义,为下一步的求解奠定基础。 关键词:关键词:马尔可夫决策过程,平稳分布,最

5、优概率分布 II Abstract Markov decision processes is a branch of Probability theory, and it is also a branch of stochastic operations research and stochastic optimal control system. So its research is very active, we got good achievements in the theory and application. The core problem of Markov decision

6、processes is to find an optimal strategy function under some optimal principle, to make the system optimal. In the research of the traditional Markov decision processes, The strategy we adopted is the function of the state, and we consider problem within the stationary policy in most cases. While in

7、 many practical problems, the strategy is not the function of the state, such as, under a known state, the strategy is get a value random according to a distribution in a given action space. so the limitations of the traditional Markov decision processes lead to Markov decision processes cannot solv

8、e this kind of uncertain problem we faced . Based on this background, this paper defined an improved Markov decision processes and do some research about the related properties. The work of this paper is as follows: (1) give the definition of the improved Markov decision processes in math, then disc

9、uss the Markov property and extreme behavior, and prove that the improved Markov decision processes exist the stationary distribution in theory; (2) prove the convergence of value function using the existence of stationary distribution and ergodicity theorem; (3) give the definition of the optimal e

10、quation and the optimal probability distribution in math. Keywords: Markov decision processes, stationary distribution, optimal probability distribution 目 录 摘 要 . I Abstract . II 第一章 绪论 . 1 1.1 研究背景与研究意义 . 1 1.2 国内外研究现状 . 3 1.3 本文主要的研究工作及内容安排 . 7 第二章 预备知识 . 8 2.1 MDPs 的基本理论 . 8 2.1.1 基本模型 . 8 2.1.2 状态与行动集 . 9 2.1.3 转移概率和代价 . 10 2.1.4 历史 . 11 2.1.5 MDPs 的数学定义 . 12 2.1.6 值函数 . 12 2.2 马尔可夫链 . 15 2.21 马尔可夫链的定义 . 15 2.2.2 转移概率 .

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号