Bayes统计(Full)－金锄头文库

资源描述

《Bayes统计(Full)》由会员分享，可在线阅读，更多相关《Bayes统计(Full)（77页珍藏版）》请在金锄头文库上搜索。

1、1,Bayes统计,2,Outline,统计学中的两个学派经典学派与贝叶斯学派 Bayes学派 Bayes统计思想三种信息 Bayes公式后验分布对Bayes学派的批评共扼先验分布超参数及其确定多参数模型,3,频率（经典）学派的观点,概率指的是相对频率，是真实世界的客观属性。参数是固定的未知常数。由于参数不会波动，因此不能对其进行概率描述。统计过程应该具有定义良好的频率稳定性。如：一个95的置信区间应覆盖参数真实值至少95的频率。,统计学更多关注频率推断,4,贝叶斯学派的观点,贝叶斯推断采取了另外一个不同的立场：概率描述的是主观信念的程度，而不是频率。这样除了对从随机变化产

2、生的数据进行概率描述外，我们还可以对其他事物进行概率描述。可以对各个参数进行概率描述，即使它们是固定的常数。为参数生成一个概率分布来对它们进行推导，点估计和区间估计可以从这些分布得到,机器学习和数据挖掘更偏爱贝叶斯推断,5,Bayes统计学派,英国学者T.贝叶斯1763年在论有关机遇问题的求解中提出一种归纳推理的理论，后被一些统计学者发展为一种系统的统计推断方法，称为贝叶斯方法。采用这种方法作统计推断所得的全部结果，构成贝叶斯统计的内容。认为贝叶斯方法是唯一合理的统计推断方法的统计学者，组成数理统计学中的贝叶斯学派(Bayesian)，其形成可追溯到20世纪30 年代。到5060年代，

3、已发展为一个有影响的学派。时至今日，其影响日益扩大。,6,Bayes统计思想,三种信息总体信息即总体分布或总体所属分布族给我们的信息。 “总体服从正态分布”：样本信息即从总体抽取的样本给我们的信息。这是最新鲜的信息，并且愈多愈好。人们希望通过对样本的加工和处理对总体的某些特征作出较为精确的统计推断。,7,三种信息,基于上述两种信息进行的统计推断称为经典统计学。基本观点是：把数据（样本）看成是来自具有一定概率分布的总体，所研究的对象是这个总体而不局限于数据本身。适用于“大样本”情形；第三种信息：先验信息在抽样之前关于统计问题的一些信息，一般来源于经验和历史资料。现实例子：Sav

4、age(1961)的实验牛奶？茶？谁先倒入海顿(Haydn)?莫扎特(Mozart)?,8,三种信息,Bayes统计学基于上述三种信息（总体信息、样本信息和先验信息）进行的统计推断被称为Bayes统计学,9,Bayes统计思想,贝叶斯统计中的两个基本概念是先验分布和后验分布。先验分布：总体分布参数的一个概率分布。贝叶斯学派认为在关于总体分布参数的任何统计推断问题中，除了使用样本所提供的信息外，还必须规定一个先验分布，它是在进行统计推断时不可缺少的一个要素。他们认为先验分布不必有客观的依据，可以部分地或完全地基于主观信念。后验分布。根据样本分布和未知参数的先验分布，用概率论中求条

5、件概率分布的方法，求出的在样本已知下，未知参数的条件分布。因为这个分布是在抽样以后才得到的，故称为后验分布。贝叶斯推断方法的关键是任何推断都必须且只须根据后验分布，而不能再涉及样本分布，即对没有观察到的样本不予考虑。,10,Bayes统计思想,Bayes统计模型将参数视为随机变量，并具有先验分布H(); 经典学派视为未知常数；两个学派分歧的根源在于对于概率的理解: 经典学派视概率为事件大量重复实验频率的稳定值；而Bayes学派赞成主观概率，将事件的概率理解为认识主体对事件发生的相信程度对于可以独立重复实验的事件，概率仍可视为频率稳定值。将视为随机变量且具有先验分布具有实际意义，能

6、拓广统计学应用的范围。,11,回忆贝叶斯规则,亦称贝叶斯定理（公式）条件概率利用贝叶斯规则将数据和参数的分布联合起来,12,例：Bayes条件概率,公司经理考虑增加投资以改进生产设备，下属部门有两种意见： 1：改进后，高质量产品可占90% 2：改进后，高质量产品可占70% 经理根据过去两部门意见有效情况，认为1可信程度为0.4, 2的可信程度为0.6. (1)=0.4; (2)=0.6; (过去的经验，主观概率）为慎重起见，经理决定进行小规模实验观其结果。实验结果如下： A:试制5个产品，全是高质量的产品。依Bayes思想，A的发生可以用来修正原先的判断即求： (1|A), (2|A

7、),13,例.Bayes条件概率,P(A|1)=0.95=0.590 P(A|2)=0.75=0.168 由离散Bayes公式： (1|A)=P(A|1)(1)/P(A) (2|A)=P(A|2)(2)/P(A) 由全概率公式： P(A)= P(A|1) (1)+ P(A|2) (2) =0.337 所以： (1|A)=P(A|1)(1)/P(A)=0.700; (2|A)=P(A|2)(2)/P(A)=0.300; 经理将两个建议的可信程度调整为0.7,0.3,14,例.Bayes条件概率,经过实验后，经理对增加投资改进质量兴趣增大，但还有顾虑，再做一次实验：实验结果如下： B:试制10个产

8、品，有9个高质量产品。依Bayes思想，B的发生可以再用来修正判断即求： (1|B), (2|B),此时(1)=0.7 (2)=0.3 P(B|1)=10*0.99*0.1=0.387 P(B|2)=10*0.79*0.3=0.121 P(B)= P(B|1)(1)+ P(B|2)(2) =0.307 (1|B)=P(B|1)(1)/P(B)=0.883; (2|B)=P(B|2)(2)/P(B)=0.117; 经理将两个建议的可信程度调整为0.883,0.117,15,例.打靶问题：经典估计与Bayes估计,一个人打靶，打了n次，命中了m次，现在问此人打靶命中的概率应如何估计？从经典统

9、计学或单凭直觉，一般采用m/n来估计但考虑下述两种情形： n=m=1，的估计为1 n=100，m=100，的估计仍为1 一次命中vs百次均命中,16,打靶问题-Bayes估计,设事件A的概率为，(A)= ,为估计作n次独立观察，其中事件A出现的次数为X，显然X服从二项分布b(n, ),这就是似然函数假如在实验前对事件A没有什么了解，在这种场合下，贝叶斯建议以U(0,1)作为的先验分布，表示在(0,1)上每一点都是机会均等，没有偏爱，称为贝叶斯假设或称为无信息先验。此时的先验分布为：,17,打靶问题-Bayes估计,为利用Bayes公式，先计算样本X与参数的联合分布注意其与二项分布的

10、区别再计算X的边缘分布：,18,打靶问题-Bayes估计,则参数的后验分布为：此时的估计值应为(x+1)/(n-x+1+x+1)=(x+1)/(n+2) 当n=1，x=1时，的估计值为2/3 当n=100，x=100时，的估计值为101/102 Bayes方法更合理些。,19,贝叶斯方法,贝叶斯推断的基本步骤如下：选择一个概率密度函数，用来表示在取得数据之前我们对某个参数的信念。我们称之为先验分布。选择一个模型（在参数推断中记为）来反映在给定参数情况下我们对x的信念。当得到数据 X1, X2,Xn 后，我们更新我们的信念并且计算后验分布。从后验分布中得到点估计和区

11、间估计。,20,似然函数,假设我们有n个IID观测，记为 ,产生的数据为，记为，我们用如下公式替代现在似然函数真正解释为给定参数下数据的概率,21,后验概率,因此后验概率为其中被称为归一化常数(normalizing constant)。该常数经常被忽略，因为我们关心的主要是参数的不同值之间的比较。所以也就是说，后验和似然函数与先验的乘积成正比,22,贝叶斯点估计,后验的均值是一个常用的点估计极大后验估计(maximum a posteriori，MAP)是使后验最大的的值：是另一个常用的点估计,23,贝叶斯置信区间估计,为了得到贝叶斯区间估计，我们需找到a和b，使得

12、令因此 C称为后验区间。注意：在多次试验中,并不保证在 (1 )100% 的次数会落在后验区间内。事实上，在复杂的高维模型中，当样本数很少时，覆盖概率可能接近于0。注意：是随机的,24,例：Bernoulli I,令，假设先验为均匀分布，根据贝叶斯公式，后验为其中为成功的次数。,25,例：Bernoulli I,为了得到后验的均值，我们必须计算在这个例子中可以解析计算。后验恰好为Beta分布其中参数，，均值为,26,例：Bernoulli I,p的极大似然估计为，为无偏估计。贝叶斯估计还可以写成其中为先验的均值，,27,例：Bernoulli II,现在假设

13、先验不是均匀分布，而是则后验为Beta分布，参数为和，即后验的均值为其中为先验的均值。,28,29,例：正态分布,令，为简单起见，假设已知，并假设先验为（共轭先验）,对而言为常数,对而言为常数,30,例：正态分布,将二者相乘，去掉一些常数项，最后得到一个正态分布形式的核最后，的后验为其中为MLE 的标准误差。,31,例：正态分布,当时，，当n很大时，后验近似为当n固定而时，对应先验趋近于均匀分布，上述结论也成立,32,例：正态分布,计算后验区间，使得所以且因此，由于，所以最后95%的贝叶斯后验区间为由于，，也可用近似，同频率置信区间,33

14、,参数的函数,问题：已知的贝叶斯后验分布为，求后验分布两种方法：利用CDF的定义，先求的CDF ，然后求后验密度，其中CDF为仿真/模拟方法,34,仿真/模拟方法(Simulation),可以通过仿真而不是解析计算来得到点估计和区间估计。假设我们抽取样本则的直方图可以近似后验密度后验的均值近似为后验的置信区间为，其中为样本的样本分位数(quantile) 一旦从中抽取样本，令则为来自。这样避免了解析计算,但仿真可能很困难/复杂,35,例：Bernoulli l,抽样：令则为的IID，用直方图方法可以估计,36,MLE和贝叶斯,令为的极大

15、似然估计，标准误差为在合适的正则条件下，后验均值的渐近分布为也就是说，另外，若为渐近频率的置信区间，则也是贝叶斯后验的区间：,37,MLE和贝叶斯,定义因为所以,分别展开,38,MLE和贝叶斯,将先验也展开,I0为先验中的信息 m0最大化f(),39,MLE和贝叶斯,定义结合展开，得到,40,MLE和贝叶斯,后验简化为参见电子书219页结论：当n相对参数数目很大时，如果先验符合真正的知识，则贝叶斯区间和频率区间相同。当数据越多时，先验的影响越弱。,41,对Bayes学派的批评,参数看成随机变量是否妥当？先验分布是否存在？如何选取？如何有效计算？,42,对Bayes学派的批评,43,对Bayes学派的批评,44,对Bayes学派的批评,但是在打靶问题中，对某个人的打靶水平事先一无所知，只能凭n次打靶的结果来估计。此时把每次命中的概率看成是随机变量，似乎有些勉强。但正因为对每次命中的概率没有任何知识，它在0与1之间取哪一个值的可能行全是相同的，它取各个不同的值有相同的机会，因此可以看成随机变量。,45,对Bayes学派的批评,贝叶斯假设：无信息先验取为取值范围的均匀分布。对打靶问题，每次命中的概率在(0,1)内均匀分布是可以接受的但象正态分布的两个参数和2，均可在无限区间上

展开阅读全文

Bayes统计(Full)

最新文档