增强学习模型解决博弈均衡问题的研究

资源描述

《增强学习模型解决博弈均衡问题的研究》由会员分享，可在线阅读，更多相关《增强学习模型解决博弈均衡问题的研究（61页珍藏版）》请在金锄头文库上搜索。

1、摘要摘要自从博弈论 ( G a m e T h e o r y ) 诞生以后，由于其解决对策、决策问题的指导性，许多学科领域都引入了博弈论的思想。而博弈论中 N a s h均衡的思想也成为解决许多策略选择问题重要依据和途径。如何能在博弈问题中更好的利用 N a s h均衡的思想和方法，使我们得到更优的策略，并将其应用于具体的实际问题从而获得更佳的收益，这正是本文所讨论的。首先，我们引入了增强学习算法的思想。增强学习算法的历史要追溯到计算机科学和控制论的早期。近来主要致力于机器学习和人工智能领域。增强学习算法的主要思想是在一个不断重复进

2、行的决策过程或者类似的决策过程中，分析每次的决策和得到的收益以及对以后决策过程的影响，总结出一定的关于这个( 类)决策过程的规律，得到一定的决策策略以指导以后的决策，从而使得决策者能够获得一个更好的收益。有了增强学习算法的思想，我们希望能将这一思想用于对博弈中N a s h 均衡的求解问题。我们将一个博弈看作一个近似的重复博弈，把博弈中的每一个参与人看作一个使用增强学习算法思想的A g e n t .然后将这个博弈问题重复的进行，把每一次博弈过程 ( 参与人的选择和收益)记录到博弈的历史中，通过每一个A g e n

3、t 对博弈历史利用评估函数进行评估，然后调整这个博弈的策略。最终通过对策略8 h “ 学31; ，每一个A g e n 的策略收敛到某一个策略上，这个策略能使A g e n t 获得一个更好的收益 ( 评估函数评估) 。而依据N a s h 均衡的思想，这个策略就是这个博弈的N a s h 均衡。这也为我们提供了一种求博弈N a s h 均衡的方祛.最后，我们将运用增强学习算法思想求解Na s h均衡的方法来解决一个实际的博弈问题带约束的质量服务路由，给出了一个基于增强学习算法的路由模型和算法。我们将每一个交换节点都看做一个A g e

4、 n t ，并且它们都利用增强学习算法的思想来对路由选择的策略进行 “ 学习” ，根据路由的历史 ( 选择和所产生的消耗) 来调整路由策略以使得网络能更好的满足约束，提高服务质爱。这样，每一个交换节点都不需要保存网络的结构和变化情况，只需根据路由的历史就能判断出网络的情况，并且作出调整。关健字: 博弈、 N a s h均衡、增强学习算法、策略搜索、路由模型、带约束的质量服务路由。声卜曰 . 川-.A f te r t h e G a m e th e o ry w a s b o rn, i t w a s i n t r o d u

5、 ced in t o m a n y o t h e r fi e l d s , b e c a u s e o f i t s g u i d a n c e i n s o l v i n g c o u n t e r m e a s u r e s a n d d e c i s io n - m a k i n g p ro b l e m s , a n d t h e c o n ce p t o f N a s h e q u i l ib r i u m a l s o b e c a m e a n i m p o r t a n t b a s is . I n t

6、h i s t h e s is , w ef o c u s o n h o w t o u s e t h e c o n cep t o f N a s h e q u i li b r i u m b e tt e r t o f i n d o p t ima l s t r a t e g y ,a n d h o w t o u s e i t t o s o lv e s o m e p r a c t i c a l l y p ro b l e m.F i r s t l y , w e in t ro d u c e t h e i d e a l o f r e i n

7、 f o r ce m e n t l e a r n i n g a l g o r i t h m . T h e h i s t o ryo f r e i n f o r c e me n t le a rni n g a l g o r i t h m g o e s b a c k to t h e e a r l y d a y s o f c y b e r n e t i c s a n dc o m p u t e r s c ie n ce. L a t e l y , i t h a s a t tr a c t e d c o n s id e r a b l e i

8、 n t e r e s t i n t h e m a c h in e l e a rn i n g a n d a r ti fi c i a l i n t e l l i g e n ce c o m m u n i t ie s . T h e m a i n i d e a l o f re i n f o r c e m e n t t e a m i n g is t oc o n c l u d e s o me rul e s o f a r e p e a t e d d e c i s i o n - ma k in g p r o c e s s b y a n a

9、 ly z i n g t h er e l a t io n s h ip b e t w e e n d e c i s i o n a n d u t i l it y a n d t h e e ff e c t t o l a t e r d e c i s i o n - m a k in gp r o c e s s e s .S e c o n d l y , w e h o p e i t i s u s e f u l f o r fi n d i n g N a s h E q u i l i b r iu m. S o , w e r e g a r d ag a m

10、e a s a n a ppro x i m a t e re p e a t e d g a m e , a n d r e g a r d t h e p l a y e r in t h e g a me a s a n Ag e n t w h i c h i s g u id e d b y r e in f o r ce m e n t t e a m i n g . T h e n , w e p l a y t h e g a m e r e p e a t e d l y ; r e c o r d t h e p r o c e s s i n t o t h e g a

11、m e h i s t o ry . T h e a g e n t a n a l y z e s a n d e v a l u a t e s t h e d e c i s i o n a c c o r d i n g t o t h e h i s t o r y , a n d a d j u s t s t h e s tr a t e g y . A f t e r t h e l e a rn i n g , t h e a g e n t s s t r a t e g y c o n v e r g e s t o a s t r a t e g y w h i c h

12、 c a n m a x i m iz e t h e u t i l i t y . A c c o r d i n g t o t h ec o n c e p t o f N a s h鞠u i l i b r iu m , t h i s s t r a t e g y i s j u s t t h e N a s h E q u i l i b r i u m. S o , i tp rov i d e s a m e t h o d t o fi n d N a s h鞠u i l i b r i u m .F in a l l y , w e u s e t h e me t

13、h o d t o s o l v e a p r a c t i c a l p ro b l e m , t h e c o n s t r a i n e d q u a l i t y - o f - s e r v i ce r o u t i n g . W e g iv e a ro u ti n g m o d e l a n d a n a l g o r i t h m b a s e d o n re i n f o r c e m e n t t e a m i n g a l g o r i t h m . E v e ry n o d e i s t r e a d

14、 e d a s a n a g e n t . ho r d e r t os a t is fi e s t h e c o n s t r a i n t s a n d i m p rov e s t h e q u a l i t y o f s e r v ice, t h e a g e n t u s e s t h e r e i n f o r ce m e n t l e a rn i n g a lg o r i t h m t o l e a rn t h e ro u t i n g s t r a t e g y f ro m t h e h i s t o ry

15、 ( c h o i cea n d t h e c o s t) . T h e r e f o r e , e v e r y n o d e c a n k n o w t h e s t a t u s o f t h e n e t b y e v a l u a t i n g t h eh i s t o ry a n d ma k e c h a n g e s r a p id l y i n s t e a d o f k e e p i n g a l a r g e mo u n t o f i n f o r ma t i o na b o u t t h e n e

16、 t .K e y w o r d s : G a me s , N a s h E q u i l i b r i u m, R e i n f o r c e m e n t L e a rni n g A l g o r i t h m , P o l i c yS e a r c h , R o u t in g Mo d e l , C o n s t r a i n e d Q u a li t y - o f - S e r v i ce R o u t i n g .Y8 9 8 9 9 3声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得云南大学或其他教育机构的学位或证明而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研究生签名 : 里色么璧，日期 : 一

展开阅读全文