备用贝叶斯方法估计推断决策

资源描述

《备用贝叶斯方法估计推断决策》由会员分享，可在线阅读，更多相关《备用贝叶斯方法估计推断决策（62页珍藏版）》请在金锄头文库上搜索。

1、第一节第一节贝叶斯推断方法贝叶斯推断方法第二节第二节贝叶斯决策方法贝叶斯决策方法第十一章第十一章贝叶斯估计贝叶斯估计第一节第一节贝叶斯推断方法贝叶斯推断方法一、统计推断中可用的三种信息美籍波兰统计学家耐曼美籍波兰统计学家耐曼(E.L.Lehmann1894(E.L.Lehmann18941981) 1981) 高度概括了在统计推断中可用的三种信息：高度概括了在统计推断中可用的三种信息： 1总体信息总体信息，即总体分布或所属分布族给我们的信，即总体分布或所属分布族给我们的信息。譬如息。譬如“总体视察指数分布总体视察指数分布”或或“总体是正态分总体是正态分布布”在统计推断中都发挥重要作

2、用，只要有总体信在统计推断中都发挥重要作用，只要有总体信息，就要想方设法在统计推断中使用息，就要想方设法在统计推断中使用2样本信息样本信息，即样本提供我们的信息，这是任一种，即样本提供我们的信息，这是任一种统计推断中都需要统计推断中都需要 3先先验验信信息息，即即在在抽抽样样之之前前有有关关统统计计推推断断的的一一些些信信息息。譬譬如如，在在估估计计某某产产品品的的不不合合格格率率时时，假假如如工工厂厂保保存存了了过过去去抽抽检检这这种种产产品品质质量量的的资资料料，这这些些资资料料（包包括括历历史史数数据据）有有时时估估计计该该产产品品的的不不合合格格率率是是有有好好处处的的。这这些些资资料

3、料所所提提供供的的信信息息就就是是一一种种先先验验信信息息。又又如如某某工工程程师师根根据据自自己己多多年年积积累累的的经经验验对对正正在在设设计计的的某某种种彩彩电电的的平平均均寿寿命命所所提提供供的的估估计计也也是是一一种种先先验验信信息息。由由于于这这种信息是在种信息是在“试验之前试验之前”就已有的，故称为先验信息。就已有的，故称为先验信息。以前所讨论的点估计只使用前两种信息，没有使用以前所讨论的点估计只使用前两种信息，没有使用先验信息。假如能把收集到的先验信息也利用起来，先验信息。假如能把收集到的先验信息也利用起来，那对我们进行统计推断是有好处的。只用前两种信那对我们进行统计推断是有好

4、处的。只用前两种信息的统计学称为经典统计学，三种信息都用的统计息的统计学称为经典统计学，三种信息都用的统计学称为贝叶斯统计学。本节将简要介绍贝叶斯统计学称为贝叶斯统计学。本节将简要介绍贝叶斯统计学中的点估计方法。学中的点估计方法。二、贝叶斯公式的密度函数形式贝贝叶叶斯斯统统计计学学的的基基础础是是著著名名的的贝贝叶叶斯斯公公式式，它它是是英英国国学学者者贝贝叶叶斯斯（T.R.Bayes17021761T.R.Bayes17021761）在在他他死死后后二二年年发发表表的的一一篇篇论论文文论论归归纳纳推推理理的的一一种种方方法法中中提提出出的的。经经过过二二百百年年的的研研究究与与应应用用，贝贝

5、叶叶斯斯的的统统计计思思想想得得到到很很大大的的发发展展，目目前前已已形形成成一一个个统统计计学学派派贝贝叶叶斯斯学学派派。为为了了纪纪念念他他，英英国国历历史史最最悠悠久久的的统统计计杂杂志志BiometrikaBiometrika在在19581958年年又又全全文文刊刊登登贝贝叶叶斯斯的的这这篇论文。篇论文。初等概率论中的贝叶斯公式是用事件的概率形式初等概率论中的贝叶斯公式是用事件的概率形式给出的。可在贝叶斯统计学中应用更多的是贝叶给出的。可在贝叶斯统计学中应用更多的是贝叶斯公式的密度函数形式。下面结合贝叶斯统计学斯公式的密度函数形式。下面结合贝叶斯统计学的基本观点来引出其密度函数形式。贝

6、叶斯统计的基本观点来引出其密度函数形式。贝叶斯统计学的基本观点可以用下面三个观点归纳出来。学的基本观点可以用下面三个观点归纳出来。假设假设随机变量随机变量X X有一个密度函数有一个密度函数p p（x x；），），其其中中是一个参数，不同的是一个参数，不同的对应不同的密度函数，对应不同的密度函数，故从贝叶斯观点看，故从贝叶斯观点看，p p（x x；）是在给定后是在给定后是是个条件密度函数，因此记为个条件密度函数，因此记为p p（xx）更恰当一更恰当一些。这个条件密度能提供我们的有关的些。这个条件密度能提供我们的有关的信息就信息就是总体信息。是总体信息。假设假设当给定当给定后，从总体后，从总体p

7、p（xx）中随机抽取中随机抽取一个样本一个样本 , ,该样本中含有该样本中含有的有关信息。的有关信息。这种信息就是样本信息。这种信息就是样本信息。假设假设我们对参数我们对参数已经积累了很多资料，经过分已经积累了很多资料，经过分析、整理和加工，可以获得一些有关析、整理和加工，可以获得一些有关的有用信息，的有用信息，这种信息就是先验信息。参数这种信息就是先验信息。参数不是永远固定在一个不是永远固定在一个值上，而是一个事先不能确定的量。从贝叶斯观点来值上，而是一个事先不能确定的量。从贝叶斯观点来看，未知参数看，未知参数是一个随机变量。而描述这个随机变是一个随机变量。而描述这个随机变量的分布可从先验信

8、息中归纳出来，这个分布称为先量的分布可从先验信息中归纳出来，这个分布称为先验分布，其密度函数用验分布，其密度函数用（）表示。表示。1 先验分布先验分布定义定义3.1将总体中的未知参数将总体中的未知参数看成一取值看成一取值于于的随机变量，它有一概率分布，记为的随机变量，它有一概率分布，记为（），），称为参数称为参数的先验分布。的先验分布。2 后验分布后验分布在贝叶斯统计学中，把以上的三种信息归纳起在贝叶斯统计学中，把以上的三种信息归纳起来的最好形式是在总体分布基础上获得的样本来的最好形式是在总体分布基础上获得的样本X1X1，XnXn，和参数的联合密度函数和参数的联合密度函数在这个联合密度函数中

9、。当样本在这个联合密度函数中。当样本给定之后，未知的仅是参数给定之后，未知的仅是参数了，我们关心的是样本了，我们关心的是样本给定后，给定后，的条件密度函数，依据密度的计算公式，的条件密度函数，依据密度的计算公式，容易获得这个条件密度函数容易获得这个条件密度函数这就是贝叶斯公式的密度函数形式，其中这就是贝叶斯公式的密度函数形式，其中称为称为的后验密度函数，或的后验密度函数，或后验分布。而后验分布。而是样本的边际分布，或称样本是样本的边际分布，或称样本的无条件分布，它的积分区域就是参数的无条件分布，它的积分区域就是参数的取值范围，的取值范围，随具体情况而定。随具体情况而定。前面的分析总结

10、如下：人们根据先验信息对参数前面的分析总结如下：人们根据先验信息对参数已有一个认识，这个认识就是先验分布已有一个认识，这个认识就是先验分布（）。）。通过试验，获得样本。从而对通过试验，获得样本。从而对的先验分布进行调的先验分布进行调整，调整的方法就是使用上面的贝叶斯公式，调整整，调整的方法就是使用上面的贝叶斯公式，调整的结果就是后验分布的结果就是后验分布。后验分布是三种。后验分布是三种信息的综合。获得后验分布使人们对信息的综合。获得后验分布使人们对的认识又前的认识又前进一步，可看出，获得样本的的效果是把我们对进一步，可看出，获得样本的的效果是把我们对的认识由的认识由（）调整到调整到。所以对。

11、所以对的的统计推断就应建立在后验分布统计推断就应建立在后验分布的基础上。的基础上。如果此时我们对事件如果此时我们对事件A的发生没有任何了解，的发生没有任何了解，对对的大小也没有任何信息。在这种情况下，的大小也没有任何信息。在这种情况下，贝叶斯建议用区间（贝叶斯建议用区间（0，1）上的均匀分布作）上的均匀分布作为的先验分布。因为它在（为的先验分布。因为它在（0，1）上每一点）上每一点都是机会均等的。这个建议被后人称为贝叶都是机会均等的。这个建议被后人称为贝叶斯假设。斯假设。例例1 设事件设事件A的概率为的概率为，即即。为了。为了估计估计而作而作n次独立观察，其中事件出现次次独立观察，其

12、中事件出现次数为数为X，则有则有X服从二项分布服从二项分布即即样本X与参数的联合分布为此式在定义域上与二项分布有区别。再计算X的边际密度为即拉普拉斯计算过这个概率,研究男婴的诞生比例是否大于0.5?如抽了251527个男婴,女婴241945个贝叶斯统计学首先要想方设法先去寻求的先验分布。先验分布的确定大致可分以下几步：第一步，选一个适应面较广的分布族作先验分布族，使它在数学处理上方便一些，这里我们选用分布族注：作为的先验分布族是恰当的，从以下几方面考虑：1参数是废品率，它仅在（0，1）上取值。因此，必需用区间（0，1）上的一个分布去拟合先验信息。分布正是这样一个分布。2分布含有两个参数a与b，

13、不同的a与b就对应不同的先验分布，因此这种分布的适应面较大3样本X的分布为二项分布b（n，）时，假如的先验分布为分布，则用贝叶斯估计算得的后验分布仍然是分布，只是其中的参数不同。这样的先验分布（分布）称为参数的共轭先验分布。选择共轭先验分布在处理数学问题上带来不少方便。4国内外不少人使用分布获得成功。第二步，根据先验信息在先验分布族中选一个分布作为先验分布，使它与先验信息符合较好。利用的先验信息去确定分布中的两个参数a与b。从文献来看，确定a与b的方法很多。例如，如果能从先验信息中较为准确地算得先验平均和先验方差，则可令其分别等于分布的期望与方差最后解出a与b。如果从先验信息获得，责可解得a=

14、3，b=12这意味着的先验分布是参数a=3，b=12的分布。假如我们能从先验信息中较为准确地把握的两个分位数，如确定确定的10分位数0。1和50的中位数0。5，那可以通过如下两个方程来确定a与b。假如的信息较为丰富，譬如对此产品经常进行抽样检查，每次都对废品率作出一个估计，把这些估计值看作的一些观察值，再经过整理，可用一个分布去拟合它。假如关于的信息较少，甚至没有什么有用的先验信息，那可以用区间（0，1）上的均匀分布（a=b=1情况）。用均匀分布意味着我们对的各种取值是“同等对待的”，是“机会均等的”。贝叶斯本人认为，当你对参数的认识除了在有限区间（c，d）之外，其它毫无所知时，就可用区间（c

15、，d）上的均匀分布作为的先验分布。这个看法被后人称之为“贝叶斯假设”。确定了先验分布后，就可计算出后验分布，过程如下x=0，1，n，01于是X的边际分布为最后在给出X=x的条件下，的后验密度为显然这个后验分布仍然是分布，它的两个参数分别是a+x和b+n-x。我们选后验期望作为的贝叶斯估计，则的贝叶斯估计为与前面的极大似然估计是不同的。如果用（0，1）上的均匀作为的先验分布，则的贝叶斯估计为计算如下：后验分布为三、常用的一些共轭先验分布对于一些常用的指数分布族，如果仅对其中的参数感兴趣，下表列出了它们的共轭先验分布及后验期望。分分布布共共轭轭先先验验分分布布后后验验分分布布

16、正态分布正态分布正态分布正态分布二项分布二项分布分布分布 PoissonPoisson分布分布分布分布（a a，b b）EX1设是一批产品的不合格率，已知它不是0.1就是0.2，且其先验分布为（0.1）=0.7,（0.2）=0.3假如从这批产品中随机取8个进行检查，发现有2个不合格，求的后验分布。解：EX2设一卷磁带上的缺陷数服从泊松分布P（）其中可取1.0和1.5中的一个,又设的先验分布为（1.0）=0.4（1.5）=0.6假如检查一卷磁带发现了3个缺陷，求的后验分布。四、贝叶斯推断（估计）条件方法条件方法由于未知参数的后验分布是集三种信息（总体、样本和后验）于一身，它包含了所有可供

17、利用的信息。故有关的参数估计和假设检验等统计推断都按一定方式从后验分布提取信息，其提取方法与经典统计推断相比要简单明确得多。基于后验分布的统计推断就意味着只考虑已出现的数据（样本观察值）而认为未出现的数据与推断无关，这一重要的观点被称为“条件观点”，基于这种观点提出的统计方法被称为条件方法。例如经典统计学认为参数的无偏估计应满足：其中平均是对样本空间中所有可能出现的样本而求的，可实际中样本空间中绝大多数样本尚为出现过，而多数从未出现的样本也要参与平均是实际工作者难以理解的。故在贝叶斯推断中不用无偏性，而条件方法是容易被实际工作者理解和接受的。估计1.贝叶斯估计定义3.2使后验密度达到最大的值称

18、为最大后验估计；后验分布的中位数称为后验中位数估计；后验分布的期望值称为的后验期望值估计，这三个估计都称为贝叶斯估计，记为。例1为估计不合格率，今从一批产品中随机抽取n件，其中不合格品数X服从，一般选取为的先验分布，设已知，由共轭先验分布可知，的后验分布为可计算得：我们选用贝叶斯假设则第一、在二项分布时，的最大后验估计就是经典统计中的极大似然估计，即的极大似然估计就是取特定的先验分布下的贝叶斯估计。第二、的后验期望值估计要比最大后验估计更合适一些。第三、的后验期望值估计要比最大后验估计更合适一些。表2.1列出四个实验结果,在试验1与试验2中,”抽检3个产品没有一件不合格”与抽检10个产品没有

19、一件是不合格”这两件事在人们心目中留下的印象是不同的。后者的质量要比前者的质量更信得过。表3.1不合格率的二种贝叶斯估计的比较试验号试验号样本量样本量n不合格不合格数数x13000.200210000.08333310.8004101010.917在试验3和誓言4中，“抽检3个产品全部不合格”与抽检“10个产品全部不合格”也是有差别的。在实际中，人们经常选用后验期望估计作为贝叶斯估计。2.贝叶斯估计的误差设是的一个贝叶斯估计，在样本给定后，是一个数，在综合各种信息后，是按取值，所以评价一个贝叶斯估计的误差的最好而又简单的方式是用对的后验均方差或平方根来度量，定义如下：称为的后验均方差,而其平方

20、根称为后验标准误.定义3.2设参数的后验分布为,贝叶斯估计为,则的后验期望当时,则,称为后验均方差.后验均方差与后验方差有如下关系:这表明,当时,可使后验均方差达到最小,实际中常取后验均值作为的贝叶斯估计值.例2设一批产品的不合格率为,检查是一个一个进行,直到发现第一个不合格品为止,若X为发现第一个不合格品时已检查的产品数,则X服从几何分布,其分布列为设的先验分布为,如今只获得一个样本观察值x=3,求的最大后验估计,后验期望估计,并计算它的误差.故联合分布为X=3的无条件概率为(利用全概率公式故可看出,的最大后验估计的后验方差为3.区间估计(可信区间) 对于区间估计问题,贝叶斯方法具有处理方便

21、和含义清晰的优点,而经典方法求置信区间常受到批评.定义3.3参数的后验分布为,对给定的样本和概率,若存在这样的二个统计量与使得则称区间为参数的可信水平为贝叶斯可信区间,或简称为的可信区间.而满足的称为的 (单侧)可信下限.的称为的(单侧)可信上限.满足这里的可信水平和可信区间与经典统计中的置信水平与置信区间虽是同类的概念,但两者还是有本质的差别,主要表现在下面二点:1.在条件方法下,对给定的样本和可信水平,通过后验分布可求得具体的可信区间,譬如,的可信水平为0.9的可信区间是,这时我们可以写出2.在经典统计中寻求置信区间有时是困难的,因为它要设法构造一个枢轴量,使它的分布不含未知参数,这是

22、一项技术性很强的工作.相比之下可信区间只要利用后验分布,不需要再去寻求另外的分布,可信区间的寻求要简单得多.例3设是来自正态总体的一个样本观察值,其中已知,若正态均值的先验分布取为 ,其中与已知,则可求得的后验分布为 ,由此很容易获得的可信区间EX1 设随机变量设随机变量X的密度函数为的密度函数为(1)假如假如的先验分布为的先验分布为U(0,1),求求的后验分布的后验分布.(2)假如假如的先验分布为的先验分布为求求的后验分布及后验期望估计的后验分布及后验期望估计EX2 对正态分布对正态分布N(0,1)观察观察,获得三个观察值获得三个观察值若若的先验分布为的先验分布为N(3,1)

23、,求求的的0.95可信区间可信区间第二节第二节贝叶斯决策方法贝叶斯决策方法一、决策的基本概念决策就是对一件事要作决定.它与推断的差别在于是否涉及后果.统计学家在作推断时是按统计理论进行的,很少考虑结论在使用后的损失.可决策者在使用推断结果时必需与得失联系在一起,能带来利润的就会用,使他遭受损失的就不会被采用,度量得失的尺度就是损失函数 .它是著名的统计学家A.Wald(1902-1950)在40年代引入的一个概念.从实际归纳出损失函数是决策的关键.贝叶斯决策:把损失函数加入贝叶斯推断就形成贝叶斯决策论,损失函数被称为贝叶斯统计中的第四种信息.例1设甲乙

24、二人进行一种游戏,甲手中有三张牌,分别标以.乙手中也有三张牌,分别标以.游戏的规则是双方各自独立地出牌,按下表计算甲的得分与乙的得分.甲的得分矩阵甲的得分矩阵(乙的失分矩阵乙的失分矩阵)3-2014-3-4-12这是一个典型的双人博弈(赌博)问题.不少实际问题可归结为双人博弈问题.把上例中的乙方改为自然或社会,就形成人与自然(或社会)的博弈问题.例2某农作物有两个品种:产量高但抗旱能力弱的品种和抗旱能力强但产量低的品种.在明年雨量不知的情况下,农民应选播哪个品种可使每亩平均收益最大?这是人与自然界的博弈.以明年60mm雨量为界来区分雨量充足和雨量不充足.写出收益矩阵(单位:元)1000200-

25、200400例3一位投资者有一笔资金要投资.有以下几个投资向供他选择:购买股票,根据市场情况,可净赚5000元,但也可能亏损10000元;:存入银行,不管市场情况如何总可净赚1000元.这位投资者在与金融市场博弈.未来的金融市场也有二种情况:看涨与看跌.可写出投资者的收益矩阵50001000-100001000二、决策的三要素1.状态集,其中每个元素表示自然界(或社会)可能出现的一种状态,所有可能状态的全体组成状态集.2.行动集,其中a表示人对自然界可能采取的一个行动.一般行动集有两个以上的行动供选择.若有两个行动无论对自然界的哪一个状态出现,总比收益高,则就没有存在的必要,可把它从行动集中去

26、掉,使留在行动集中的行动总有可取之处.3.收益函数 .函数值表示当自然界处于状态 ,而人们选取行动时所得到的收益大小.收益函数的值可正可负，其正表示赢利，负表示亏损，单位常用货币单位。收益函数的建立不是件容易的事，要对所研究的问题有全面的了解才能建立起来。收益矩阵三、损失函数1.1.从收益到损失从收益到损失为了以后的统一处理，在决策中常用一个更为有效的概念：损失函数。在状态集和行动集都为有限时用损失矩阵。这里的损失函数不是负的收益，也不是亏损。例如，某商店一个月的经营收益为-1000元，即亏1000元。这是对成本而言。我们不称为损失，而称其为亏损。我们讲的损失是指“该赚而没有赚到的钱”，例

27、如该商店本可以赚2000元，但由于某种原因亏了1000元，那我们说该商店损失了3000元。用这种观点认识损失对提高决策意识是有好处的。按上述观点从收益函数可以很容易获得损失函数。例4某公司购进某种货物可分大批、中批和小批三种行动，记为.未来市场需求量可分为高、中、低三种状态，记为.三个行动在不同市场的利润如下:这是一个收益矩阵,我们把它改写成损失矩阵如下:2.损失函数构成决策问题的三要素:由收益函数容易获得损失函数例5某公司购进一批货物投放市场,若购进数量低于市场需求量,每吨可赚15万元,若购进数量超过市场需求量,超过部分每吨反而要亏35万元.由此可写出收益函数显然,当购进数量等于市场需求量时

28、,收益达到最大为15.3.损失函数下的悲观准则第一步,对每个行动,选出最大损失值,记为则称为悲观准则下的最优行动.这是一种保守策略.不求零损失,但愿少损失.例6某公司购进某种货物可分大批、中批和小批三种行动，记为, ,.未来市场需求量可分为高、中、低三种状态，记为, ,.三个行动在不同市场的利润如下:这是一个收益矩阵,我们把它改写成损失矩阵如下:在悲观准则下,第一步:行动的最大损失值依此为3.7,4,8.第二步,在上面三个最大损失值中最小值为3.7,而对应的行动为.4.常用损失函数(1)平方损失函数这是在统计决策中用得最多的损失函数.(3)0-1损失函数(4)多元二次损失函数四、贝叶斯决策问题

29、1.1.后验风险函数后验风险函数先验信息和抽样信息都用的决策问题称为贝叶斯决策问题。若以下条件已知，则我们认为一个贝叶斯决策问题给定了。(4)定义在上的二元函数称为损失函数我们把损失函数对后验分布的期望称为后验风险,记 ,即后验风险就是用后验分布计算的平均损失.2.2.决策函数决策函数定义3.5在给定的贝叶斯决策问题中,从样本空间到行动集A上的一个映照称为该决策问题的一个决策函数,表示所有样本空间从到A上的决策函数组成的类称为决策函数类.在贝叶斯决策中我们面临的是决策函数类D,要在D中选择决策函数,使其风险最小.3.3.后验风险准则后验风险准则定义在给定的贝叶斯决策问题中是其决策函数称为决策函数的后验风险.假如在决策函数类中存在这样的决策函数,它在D中有最小的风险,即则称为后验风险准则下的最优决策函数,或称贝叶斯决策,或贝叶斯解.4.4.平方损失函数下的贝叶斯估计平方损失函数下的贝叶斯估计定理3.1在平方损失函数下,的贝叶斯估计为后验均值,即Pr在平方损失函数下,任何一个决策函数的后验风险为

展开阅读全文

备用贝叶斯方法估计推断决策

最新文档