基于模拟退火算法的自适应博弈学习模型

资源描述

《基于模拟退火算法的自适应博弈学习模型》由会员分享，可在线阅读，更多相关《基于模拟退火算法的自适应博弈学习模型（4页珍藏版）》请在金锄头文库上搜索。

1、2 0 0 5 中国控制与决策学术年会论文集16 4 6P r o c e e d i n g so ，2 0 0 5C h i n e s eC o n t m f 口”dD e c s o nc o w n f c基于模拟退火算法的自适应博弈学习模型陈其坤1 ，陈加良z( 1 福建经济管理学院福建福州3 5 0 0 0 2 ；2 福州大学管理学院，福建福州3 5 0 0 0 2 )摘要：有限理性参与者之闻的博弈| 可题是人们十分关注的研究项目目前巳提出了一些博弈学习模型，但都存在一定的局限性，培出了博弈学习的一个改进方法，建立了新的基于模拟暹火算法的博彝学习模型计算机仿真实验表辨+ 新的博

2、彝学习方法的实用性和有教世有了很太盼提高，美蹙词；有限理性曲博彝问题f 计算机实验模拟退史算法A d a p t i v el e a r n i n gg a m em o d e lf o r t h es i m u l a t e da n n e a l i n g a l g o r i t h mC H E NQ i k u n l 。C H E NJ i a l i a n g 。( 1 P u j i a nI n s t i t u t eo fE c o n o m i cM a n a g e m e n t ，F u z h o u3 5 0 0 0 2 ，C h

3、i n a 2 C o l l e g eo fM a n a g e m e n t ，F u z h o uU n i v e r s i t y ，F u z h o u3 5 0 0 0 2 tC h i n a C o r r e s p o n d e n t iC H E NQ i - k u nrE m a i l ：c h e n q i k u n 5 3 ，c o r n )A b s t r a c t ：S c h o l a r sp a ym o t ea t t e n t i o nt ot h eg a m ep r o b l e ma m o n gt

4、h el i m i t e dr a t i o t x a l i t yp a r t i c i p a n t s A tp r e s e n t ts o m eg a m el e a r n i n gm o d e l sh a v eb e e np o i n t e dm l t ，b u tt h e yh a v es o r i m i t a t i o n s 1 at h ep a p e r ，t h ei m p r o v e dm e t h o d so fg a m el e a r n i n gm o d e li sp r o p o s

5、 e db a s e do nt h es i m u l a t e da n n e a l i n ga l g o r i t h m T h es i m u l a t i o nr e s u l t ss h o wt h ee f f e c t i v e n e s so ft h en e wg a m el e a r n i n gm e t h o ds i m u l a t i o nr e s u l t s K e 7w o r d s ：h o u n d e dr a t i o r l | a lg a m es i m u l a t i n g

6、t e s t s ；s i m u l a t e da t m e a l i n ga l g o r k h m1 有限理性的博弈和博变学习理论的提出纳什均衡概念是现代博弈论的基础和棱心，基于纳什均衡定义建立起来的纳什均衡分析方法获得了广泛的应用，成为现代决策分折的有力工具在纳什均衡论取得极大成功的时候，人们开始思考纳什均衡概念的基本假设的合理性问题纳什均衡的基本假设是：参与者不但具有追求自身最大利益的行为理性，也拥有关于博弈结构以及其它参与者的策略和得益的知识理性纳什均衡概念中的博弈参与者是完全理性的博弈论的前提是将参与者看作是完全理性的，但从现实上考虑，这一前提常常不会得到满足，尤

7、其是关于知识理性的假设是难以实现的在这样的背景下，些学者提出了博弈学习理论和方法“” ，认为博弈的参与者只具有有限的理性，即假设参与者具有行动的理性，但缺乏知识的理性所谓行动的理性，是指参与者具有优化自己得益的能力，能够采取最大化自己得益的理性行动；而知识理性的缺乏则意味着，巢参与者所知道或了解的东西，其它参与者可能不知道在这种假设下，决策者只能在无法拥有对其它参与者行动的一致预期的条件下选择自已的行动，这样，传统的纳什均衡分析方法已经无法使用了博弈学习理论克服了这一困难，发展出一个由认知能力的学习机制所支持的策略行动的动态演化理论，并探求这种策略学习过程的演化结果跟完全理性条件下纳什均衡的同

8、一性同题，从而解决了有限理性条件下博弈的求解问题 2 最饯反应动态模型在博弈的学习理论中，最优反应动态模型是最早提出来的学习模型，以寡头垄断市场中古诺( C o u r n o t ) 数量竞争问题为例作简要的分析H 两个厂商的产量记为q ，啦。其产品的市场价格基金项目：国家自然科学基金项目( 7 0 0 7 1 0 0 5 ) 作者筒介：陈其坤( 1 9 4 4 - - ) 男，福建福州人教授，从事经挤控制论的研究陈其坤等：基于模拟退火算法的自适应博弈学习模型1 6 4 7函数为：p = d b ( q 。+ q 。) ，假设两个厂商的成本函数均为一个二次型的函数：c ( g ) 一一叼2

9、+ 鼬+ r ，如此两个厂商的利润函数为1 ( 吼，9 2 ) 一q l 如一b q l 一钿2 ) + a 前一胁l r ，( 1 )2 ( 口】，吼) = 9 2 ( d b q l 一幻2 ) + d 建一所P r ( Z )假设厂商是行动理性的，它具有优化自己利润的计算能力即可求得掣= n 一2 幻。一b g ：+ 2 a q ，p 一。，( 3 ) 掣= = n a 。，z 。：+ 2 a q t - p = 。( 4 )进而确定各自的最优反应函数 q l 一志。：+ 篇，2 一瓦而9 z 十瓦商( 5 ) 吼一志9z + 耥( 6 )吼。一及i 二丽9 l 十致i = 葛，由于假

10、设厂商缺乏知识理性，这隐含如下的事实，厂商只知道自己的最优反应函数，而无法了解对方的最优反应函数因此，现在无法使用标准的纳什均衡分析方法通过联立式( 5 ) 和式( 6 ) 求出其均衡解；目? = 酊一兰3 b 二旦2 a 博弈学习理论的核心思想在于构造动态策略反应关系，它能根据已观察到的对方的实际行动( 不是根据、也无法根据对方理性的行动) 来调整自己的策略，在策略的动态调整过程中，不断地提高自己的知识理性程度，从而逼近予完全理性的纳什均衡可以通过最优反应函数中策略变量的时间滞后关系建立如下最优反应动态模型 f g 。( f + 1 ) = 一志口z 。) + 虿器三，( 7 ) Iq z

11、( t + 1 ) = 一志+ 赤苦。下面对动态最优反应模型的渐进行为进行分析，显然动态系统( 7 ) 、( 8 ) 的均衡点( ；- ，i ：) 为；i 。=；。一嚣三去，恰好是完全理性条件下的标准的纳什均衡解为了使( i 。，；。) 能作为动态系统( 7 ) 和( 8 ) 的稳定的均衡点，要求它的系统矩阵A =fo一生1l。 2 一1 的特征根按模小于1 【一丽两b0J【一丽两JL 2A 的特征方程为：一及尚专o ，其特征根的模为J 1J 。致歹兰面，显然I 。J r a n d o m ( o ，1 ) ，则接受话( f ) 。张( ) ，返回； 3 ) 按式( 2 ) 计算Q f +

12、l ，退火温度T ( t + 1 ) = K T ( t ) ，( 其中0 M ( 系统迭代结束控制次数) ，则迭代结柬，否剜返回z ) 继续在上述算法中，由于最优反应动态模型的均衡位置一般事先无法知道，因此判断学习参数的优劣可以用相邻两次迭代值的相对误差进行比较 5 仿真实验对上述的学习模型进行仿真计算，为了便于比较。仿真实验中固定选取n = 1 00 0 0 ，b 一5 ，卢一5 0 0 ，而口分别取1 5 ，2 5 ，3 5 由理论分析，知道对上述三个a 的取值，最优反应动态模型的解分别是收敛的，周期波动的，发散的而对于基于模拟退火算法的学习模型( 9 ) 、( 1 0 ) ，在三种情况

13、下都是收敛的在仿真实验中，取初始学习因子吼= 以= 0 1 ，初始状态吼、q 。的初值都取1 ，其中模拟退火算法的参数为丁( o ) = 2 0 ，M = 5 0 。P 一1 0 ，K ；o 7 5 由于模型是对称的，计算出来的q 。( r ) = g 。( D ，故图中只须列出口。( P ) 的变化曲线限于篇幅，只将口一3 5 的仿真实验结果列于图1 和图2 中陈其坤等；基于模拟退火算法的自适应博奔学习模型1 6 4 9“图1 最优反应动态模型的学习过程( 发散)从图上的曲线不难看出，采用模拟遇火算法的自适应博弈学习模型的学习具有很好的效果，仿真实验的结果支持了理论分析的结论。 6 结语博弈

14、学习理论涉及到参与者行动理性和知识理性这两个重要概念，国内外文献中对行动理性和知识理性的协调关系的探讨尚不多见本文对确定性虚拟行动模型作了重大改进，采用基于模拟退火算法来选择模型的虚拟因子新的学习模型使参与者之间的知识理性和行动理性发生同步交互作用，这种新的学习机制大大提高了博弈学习的成功性，仿真实验证明，有限理性的博弈参与者在学习过程中( 上接第1 6 4 5 页)4 结语从本文的讨论分析可知，企业的竞争决策会在一定程度上依赖于竞争对手的负债情况，这就决定了我们不能在企业的决策中片面地追求融资决策或竞争决策的最优，必须将两者有机地结合起来，实现两种决策的合理配合参考文献( R e f e r

15、 e n c e s ) 1 3B r a n d e rJ ，L e w i sT O l i g o p o l ya n df i n a n c i a ls t r u c t u r elT h el i m i t e dl i a b i l i t ye H e c t J ，A m e r i c a nE c o n o m i cR e v i e w 1 9 8 6 ，7 6 ( 8 ) ：9 5 6 9 7 0 2 M a k s i m o v i cV C a p i t a ls t r u c t u r ei nr e p e a t e do l i g

16、 o p o l l e s J R a n dJ E c o n o m i c s ，1 9 8 6 ，1 9 ( 8 ) t 3 8 9 4 0 7 3 S h o w a l t e rD O l i g o p o l ya n df i n a n c h ls t r u c t u r e ：c o m m e n t J A m e r i c a nE c o n o m i cR e v i e w ，1 9 9 5 ，8 5 ( 3 ) t6 4 7 - 6 5 3 4 3D a s g u p t aS ，T i t m a nS P r i c i n gS t r a t e g ya n dF i n a n c i a l图2 基于模拟退火算法的虚拟行动模型的学习过程可以实

展开阅读全文