基于需求学习的易逝品收益管理动态定价策略研究

资源描述

《基于需求学习的易逝品收益管理动态定价策略研究》由会员分享，可在线阅读，更多相关《基于需求学习的易逝品收益管理动态定价策略研究（17页珍藏版）》请在金锄头文库上搜索。

1、基于需求学习的易逝品收益管理动态定价策略研究基于需求学习的易逝品收益管理动态定价策略研究摘要：本文研究了结构化模型不确定下，利用贝叶斯方法在销售过程中对不确定参数的分布进行学习的动态定价问题。分别建立了连续需求学习和周期性需求学习的动态定价模型。在连续需求学习模型中，利用贝努利过程来表示顾客到达过程，提出一种贝叶斯学习机制来对顾客到达概率进行学习，将该问题构造为,个随机动态规划模型。在周期性需求学习的动态定价问题中，利用乘式需求函数对需求进行建模，利用贝叶斯方法对随机分布中的不确定参数进行学习，将该问题构造为一个随机动态规划模型，并分析了如何降低状态空间的维数以简化计算以及值函数

2、的性质。收益管理问题的一个典型特征就是需求的不确定性。现有收益管理动态定价研究大都利用随机变量来对不确定需求进行建模，并假定随机需求的分布函数是巳知的。但随着技术的快速发展和消费者品味的变化，市场环境会不断发生变化，这时根据历史数据得到的需求分布不能很好地反映未来的需求特征。这种情况下，企业一般可以根据历史数据对需求分布的函数形式进行大概的估计，但不能准确估计出其中的一些参数，这利I模型不确定就是引言中所讲的结构化模型不确定。零售商可以在销售期初对这些参数进行一个先验估计，然后在销售过程中利用最新的销售数据对这些估计进行调整。这就是贝叶斯需求学习(Bayesian demand

3、learning)的思想。该思想很早就已经应用到动态库存管理中来(Scarf, 1959, 1960, Azoury, 1985),现在己经得到广泛的应用(Chen and Plambeck, 2008, DeHoratiusetal., 2008)。本章就是利用这种思想分别对连续时间需求模型中的顾客到达率和离散时间需求模型中的不确定参数进行学习，并在定价决策时考虑到此学习过程。在动态定价研究中，对需求进行建模主要有两种方法：一种是对单个顾客进行建模，另一种是对每个周期内的总需求进行建模(Talluriand van Ryzin, 2004)o 在前一种方法中，需求模型主要由顾客到达率和

4、顾客保留价格的分布构成。目前关于考虑需求学习的动态定价研究主要是集中在对顾客到达率的学习上(Aviv andPazgal, 2005a, Lin, 2006, Farias and Roy, 2009)。这些研究都假定顾客到达服从时齐泊松过程，但泊松过程的强度未知，假定服从Gamma分布，利用贝叶斯方法对顾客到达率进行学习。利用泊松分布与Gamma分布的共轴性虽然可以简化模型的求解，但只能对平稳需求过程进行学习，而现实生活中顾客的到达率往往是非平稳的随机过程(LinandSibdari, 2008)。据作者所知，目前还没有适用于对非时齐顾客到达进行学习的动态定价研究。另外，现有研究

5、中对总需求进行建模主要是在价格反应函数的基础上加上或乘上一个随机变量。这样就可以将偏离价格反应函数的数据看成是随机扰动的结果。现实中对该随机变量我们只能估计出一个大概的分布形式，或用- 种常见的分布来对其进行近似表示，但其参数存在不确定性，因此需要利用最新销售数据对其值的估计进行不断更新。但目前相关研究还比较缺乏，因此本章第二部分将探讨此问题。本章研究了需求模型参数不确定的情况下，考虑需求学习的单个企业单种易逝性产品的动态定价问题。首先研究了连续需求学习的动态定价问题，假定顾客到达过程服从贝努利过程，每个周期有顾客到达的概率是未知的，假定服从一定参数的Beta分布，利用贝努利分

6、布和Beta分布的共藐性将这种更新机制引入到动态定价问题中，并分析了这种需求学习的效果。然后，本章研究了周期性需求学习动态定价问题，将贝叶斯更新机制引入到多周期动态定价中，建立了动态规划模型，并根据Azoury (1985)的结论分析了如何降低状态空间的维数以简化计算。3.1连续需求学习动态定价3.1.1完全信息下的动态定价问题描述与模型构建本章研究的问题描述如下：单个零售商要在一定销售期内销售I件易逝性产品，销售期内不允许补货，期末产品残值为零。不失一般性，将销售期分成T个周期，T足够大使每个周期内最多只有一个顾客到达。假定顾客到达过程服从贝努利过程，即每个周期内有一个顾客到达

7、的概率为6 ,没有顾客到达的概率为 1 6o该方法不仅可以看成是泊松过程的近似，还可以用来刻画更一,般的需求过程(通过对时间的调整来完成)，因此具有更强的适用性(Levina etaL, 2009, Lin and Sibdari, 2008, Lautenbacher and Stidham, 1999, You, 1999)。假定每个到达顾客的保留价格的分布函数为F(x), x为顾客的保留价格，分布密度为f(x), F(x) = 1 F(x)o这时在价格为p时每个周期有产品销售的概率为5F(p),这就是这部分研究所用到的需求模型，其中6T就表示潜在的市场需求。现实中根据历史数据统

8、计得到的有顾客到达的概率5往往并不能真正表示实际情况，因此有必要利用最新的数据对其估计值进行调整。下面我们首先研究完全信息情况下的动态定价问题，即6己知31的情况。令t,t=1,2JT 表示当前周期到销售期末剩余的周期数。令V(l,t )表示剩余库存为I剩余周期数为t时从毕前周期到销售期末的期望总收益。利用随机动态规划可得期望收益为：(,)max (1 ()(1, 1)( )(,1) (1 )(,1)PVI t = 6 Fpp + VI t +FpVlt + 6VI t max(1 ()( 1,1)(, 1)(, 1)P=6 Fpp + VI t Vlt + V 11 (3.1)边界条

9、件：V( I ,0) = 0, I , V (0, t) = 0, t定义 U(p,l,t) = (1 F ( p )( p + V ( I 1,t 1) V(l,t1)= F(p)(p + V(l,t 1) V(l 1,t 1)(3.2)命题3.1:如果顾客的保留价格分布函数满足：因此U ”( p , I , t) v 0,从而(3.2)式有唯一最优解。由此命题得证。上述命题给出了最优策略唯一的充分条件。该结果与文献(Bitran andMondschein, 1997)的结果是相同的。上述命题中的条件是很容易实现的, 我们常见的分布函数大多都能满足该条件。在本文的条件下，*1充分大(lT)

10、时，很显然固定价格是最优的：* arg max (1 ()PP = P F p当顾客的保留价格分布不满足命题3.1中的条件时，我们只能采用一维搜索法进行求解。结构性质下面研究最优值函数V(,)和最优价格策略p(,)的性质。显然下述结论是成立的：1) 给定I，V ( I , t)随t的增加而增加；2) 给定t , V(l,t)随I的增加而增加。首先，我们利用样本路径法(sample path argument)得到最优值函数的上模性，然后利用这个性质得到最优值函数和最优策略的其它性质。命题3.2：对于任意正整数I和t , V(l,t)是上模的(supermodular)或上可加的(su

11、peradditive),即:V(l,t) + V(l 1, t 1)V(I ,t 1) +V( I 1, t)(3.6)证明：采用样本路径法(Lin, 2004)来证明值函数的上可加性。3基于需求学习的易逝品收益管理动态定价策略研究【本章导读】本章研究了结构化模型不确定下，利用贝叶斯方法在销售过程中对不确定参数的分布进行学习的动态定价问题。分别建立了连续需求学习和周期性需求学习的动态定价模型。在连续需求学习模型中，利用贝努利过程来表示顾客到达过程，提出一种贝叶斯学习机制来对顾客到达概率进行学习，将该问题构造为一个随机动态规划模型。在周期性需求学习的动态定价问题中，利用乘式需求函数

12、对需求进行建模，利用贝叶斯方法对随机分布中的不确定参数进行学习，将该问题构造为一个随机动态规划模型，并分析了如何降低状态空间的维数以简化计算以及值函数的性质。收益管理问题的一个典型特征就是需求的不确定性。现有收益管理动态定价研究大都利用随机变量来对不确定需求进行建模，并假定随机需求的分布函数是已知的。但随着技术的快速发展和消费者品味的变化，市场环境会不断发生变化，这时根据历史数据得到的需求分布不能很好地反映未来的需求特征。这种情况下，企业一般可以根据历史数据对需求分布的函数形式进行大概的估计，但不能准确估计出其中的一些参数，这种模型不确定就是引言中所讲的结构化模型不确定。零售商

13、可以在销售期初对这些参数进行一个先验估计，然后在销售过程中利用最新的销售数据对这些估计进行调整。这就是贝叶斯需求学习(Bayesian demand learning)的思想。该思想很早就己经应用到动态库存管理中来(Scarf, 19591960, Azoury, 1985),现在己经得到广泛的应用(Chen and Plambeck, 2008, DeHoratiusetal., 2008)。本章就是利用这种思想分别对连续时间需求模型中的顾客到达率和离散时间需求模型中的不确定参数进行学习，并在定价决策时考虑到此学习过程。在动态定价研究中，对需求进行建模主要有两种方法：一种是对单个顾客进

14、行建模，另一种是对每个周期内的总需求进行建模(Talluriand van Ryzin, 2004)o 在前一种方法中，需求模型主要由顾客到达率和顾客保留价格的分布构成。目前关于考虑需求学习的动态定价研究主要是集中在对顾客到达率的学习上(Aviv andPazgal, 2005a, Lin, 2006, Farias and Roy, 2009)。这些研究都假定顾客到达服从时齐泊松过程，但泊松过程的强度未知，假定服从Gamma分布，利用贝叶斯方法对顾客到达率进行学习。利用泊松分布与Gamma分布的共轴性虽然可以简化模型的求解，但只能对平稳需求过程进行学习，而现实生活中顾客的到达率往

15、往是非33首先，构造四个零售商1,2,1,2,他们面临相同的需求。其中，1和1分别有I件商品,2和2分别有I 1件商品。1和2剩余的周期数为t 1,2和1剩余的周期数为t。构造策略使1,2的总收益不低于1和2的总收益，从而使命题得证。令1, 2米取最优策略，1跟随1米取相同的价格策略，2跟随2米取相同的价格策略，直到事件E零售商1比2多销售一件商品发生。事件E 发生之后令1, 2采取各自的最优策略。这样1, 2就能够分别与1, 2的数量保持一致。由于上述策略属于1, 2的可行策略集，但不一定是最优策略，1, 2 的总收益不低于1, 2的总收益。这样有两种可能的情况：1) 事件E发生了

16、。在事件E发生时1, 2获得的总收益等于1, 2的总收益。由于所有的零售商剩余的数量相同，因此整个销售期1和2的总收益等于1, 2的总收益。2) 事件E 一直没有发生，这时又有两种情况：a. 零售商1和2的销售期结束了。这时1至少比2多一件商品(否则事件E 就发生了)，这样1和2的总收益大于或等于1和2的总收益。b. 零售商2和2销售完所有的商品。这时1和1有相同的库存，但1比1多一个销售周期，只要1仍跟随1的价格策略直到1的销售周期结束就不会产生比1少的收益，因此1的收益大于或等于1的收益。综上，在所有情况下1, 2的总收益都大于或等于1, 2的总收益，从而命题得证。证毕。上述命题中值函数的上模性，可以用航空公司的一个简单例子来直观理解：假定航空公司的一条航线上有两个航班A和B,其中A航班的预售期比B长, 航空公司有两架飞机分别

展开阅读全文

基于需求学习的易逝品收益管理动态定价策略研究

最新文档