贝叶斯统计第一章课件

资源描述

《贝叶斯统计第一章课件》由会员分享，可在线阅读，更多相关《贝叶斯统计第一章课件（71页珍藏版）》请在金锄头文库上搜索。

1、贝叶斯统计,统计与数学学院,王春伟,Bayesian Statistics,贝叶斯统计,茆诗松编，贝叶斯统计, 中国统计出版社，2005年.,1 贝叶斯统计与决策Berger J O中国统计出版社1998 2 现代贝叶斯统计Kotz S,吴喜之中国统计出版社1999 3 贝叶斯统计推断张尧庭、陈汉峰科学出版社1991,伽玛函数,函数,伽玛函数的性质:,伽玛分布,5.4.4 伽玛分布的两个特例,1. 当=1时,伽玛分布就是指数分布:,则X的密度函数为,贝塔函数,函数,贝塔函数的性质:,证明,证明,贝塔分布,贝塔分布的数学期望和方差,（Bayes，Thomas）(17021761) 贝叶斯是英国数

2、学家.1702年生于伦敦；1761年4月17日卒于坦布里奇韦尔斯. 贝叶斯是一位自学成才的数学家.曾助理宗教事务，后来长期担任坦布里奇韦尔斯地方教堂的牧师.1742年，贝叶斯被选为英国皇家学会会员. 如今在概率、数理统计学中以贝叶斯姓氏命名的有贝叶斯公式、贝叶斯风险、贝叶斯决策函数、贝叶斯决策规则、贝叶斯估计量、贝叶斯方法、贝叶斯统计等等.,贝叶斯方法(Bayesian approach ),贝叶斯方法是基于贝叶斯定理而发展起来用于系统地阐述和解决统计问题的方法(Samuel Kotz和吴喜之,2000)。贝叶斯推断的基本方法是将关于未知参数的先验信息与样本信息综合，再根据贝叶斯定理，得出后

3、验信息，然后根据后验信息去推断未知参数(茆诗松和王静龙等,1998年)。 “贝叶斯提出了一种归纳推理的理论(贝叶斯定理)，以后被一些统计学者发展为一种系统的统计推断方法，称为贝叶斯方法.”摘自中国大百科全书（数学卷）,源于1763年贝叶斯在论有关机遇问题的求解中提出一种归纳推理的理论。采用贝叶斯方法方法作统计推断所得的全部结果，构成贝叶斯统计的内容。贝叶斯学派学者认为贝叶斯方法是唯一合理的统计推断方法，其形成可追溯到 20世纪 30 年代。到5060年代，已发展为一个有影响的学派。,序言,本书共六章，可分二部分。前三章围绕先验分布介绍贝叶斯推断方法。后三章围绕损失函数介绍贝叶斯决策方法。阅

4、读这些内容仅需要概率统计基本知识就够了。,Byaes统计学派与经典统计学派虽然有很大区别，但是它们各有优缺点，各有其适用的范围，作为研究者一定要博采众长，以获得一种更适合解决实际问题的方法。而且，在不少情况下，二者得出的结论在形式上是相同的。,目录,第一章先验分布与后验分布,第二章贝叶斯推断,第三章先验分布的确定,第四章决策中的收益、损失与效用,第五章贝叶斯决策,第六章统计决策理论,第一章先验分布与后验分布,统计学中有两个主要学派：频率学派与贝叶斯学派。下面从统计推断的三种信息来说明他们之间的区别与联系。,经典学派的观点：统计推断是根据样本信息对总体分布或总体的特征数进行推断，这

5、里用到两种信息：总体信息和样本信息；贝叶斯学派的观点：除了上述两种信息以外，统计推断还应该使用第三种信息：先验信息。,1.1 三种信息,一、总体信息，即总体分布或总体所属分布给我们的信息。例如：”总体是正态分布“ 说明：总体信息是很重要的信息，为了获取此种信息往往耗资巨大。,1.1 三种信息,二、样本信息，即从总体抽取的样本给我们的信息。（愈多愈好）人们希望通过对样本的加工和处理对总体的某些特征做出较为精确的统计推断。例：有了样本观察值，我们可根据它大概知道总体的一些特征数（均值、方差等）在一个什么范围内。,经典统计学：基于以上两种信息进行的统计推断被称为经典统计学。说明：它的基本观

6、点是把数据（样本）看成是来自具有一定概率分布的总体，所研究对象是这个总体而不局限于数据本身。据现有资料看，这方面最早的工作是高斯和勒让德德误差分析、正态分布和最小二乘法。从十九世纪末期到二十世纪中叶，经皮尔逊、费歇和奈曼等人杰出的工作创立了经典统计学。随着经典统计学的持续发展与广泛应用，它本身的缺陷也逐渐暴露出来了。,（1）总体信息:总体分布提供的信息。（2）样本信息:抽取样本所得观测值提供的信息。（3）先验信息:人们在试验之前对要做的问题在经验上和资料上总是有所了解的，这些信息对统计推断是有益的。先验信息即是抽样（试验）之前有关统计问题的一些信息。一般说来，先验信息来源于经验

7、和历史资料。先验信息在日常生活和工作中是很重要的。,贝叶斯学派的观点：除了上述两种信息以外，统计推断还应该使用第三种信息：先验信息。,三、先验信息，即是抽样（试验）之前有关统计问题的一些信息。一般说来，先验信息来源于经验和历史资料。先验信息在日常生活和工作中是很重要的。,人们在试验之前对要做的问题在经验上和资料上总是有所了解的，这些信息对统计推断是有益的。,例1.1 英国统计学家Savage曾考察如下2个统计实验： A。一位常饮牛奶加茶的妇女声称，她能辨别先倒进杯子里的是茶还是牛奶。对此做了10次试验，她都正确地说出了。 B。一位音乐家声称，他能从一页乐谱辨别出是海顿还是莫扎特的作品

8、。在10次这样的试验中，他都能正确辨别。,在这两个统计试验中，假如认为被试验者是在猜测，每次成功的概率为0.5，那么10次都猜中的概率为2-10= 0.0009766，这是一个很小的概率，是几乎不可能发生的，所以 “每次成功概率为0.5”的假设应该被拒绝。被试验者每次成功的概率要比0.5大得多。这不是猜测，而是他们的经验在帮了他们的忙。,例1.2 “免检产品”是怎样决定的？某厂的产品每天都有抽验几件，获得不合格品率的估计。在经过一段时间后就积累大量的资料，根据这些历史资料（先验信息的一种）对过去产品的不合格品率可构造一个分布：,这个对先验信息进行加工获得的分布今后称为先验分布。如果这个分布

9、的概率大部分集中在 =0附近，那么该产品可认为是“信得过产品”。,假如以后的多次抽检结果与历史资料提供的先验分布是一致的。使用单位就可以对它做出“免检产品”的决定，或者每月抽检一、二次就足够了，这就省去了大量的人力和物力。,贝叶斯统计学：基于上述三种信息进行统计推断的统计学称为。它与经典统计学的差别就在于是否利用先验信息。贝叶斯统计在重视使用总体信息和样本信息的同时，还注意先验信息的收集、挖掘和加工，使它数量化，形成先验分布，参加到统计推断中来，以提高统计推断的质量。忽视先验信息的利用，有时是一种浪费，有时还会导出不合理的结论。在使用样本信息上也是有差异的.贝叶斯学派重视已出现的样

10、本观察值,而对尚未发生的样本观察值不予考虑.,贝叶斯学派的基本观点：任一未知量都可看作随机变量，可用一个概率分布去描述，这个分布称为先验分布；在获得样本之后，总体分布、样本与先验分布通过贝叶斯公式结合起来得到一个关于未知量新的分布后验分布；任何关于的统计推断都应该基于的后验分布进行。,因为任一未知量都有不确定性，而在表述不确定性程度时，概率与概率分布是最好的语言。例1.2中产品的不合格品率是未知量，但每天都有一些变化，把它看做一个随机变量是合适的，用一个概率分布去描述它也是很恰当的。,例1.3 学生估计一新教师的年龄。依据学生们的生活经历，在看了新教师的照片后会立即有反应：“新教师

11、的年龄在30岁到50岁之间，极有可能在40岁左右。”一位统计学家与学生们交谈，明确这句话中“左右”为3岁，“极有可能”可理解为90的把握。于是学生们对新教师的年龄（未知量）的认识（先验信息）可综合为图1.1所示的概率分布，这也是学生们对未知量（新教师的年龄）的概率表述。,这里有两个问题需要进一步讨论。,第一，按图1.1所示的概率分布我们可谈论未知量位于某个区间的概率。位于37到43岁间的概率为0.9。可这个陈述在经典统计中是不允许的。在实际中类似的说法经常听到。,第二，按图1.1中的概率不是在大量重复试验中获得的，而是学生们根据自己的生活经历的积累对该事件发生可能性所给出的信念，这样给出的概

12、率在贝叶斯统计中是允许的，并称为主观概率。（它也符合概率的三条公理）。这一点频率学派是频率学派难以接受的，他们认为经典统计学使用大量重复试验的频率来确定概率，是“客观的”，因此符合科学的要求，而认为贝叶斯统计是“主观的”，因而（至多）只对个人决策有用。这是当前对贝叶斯统计的主要批评。两学派在一些问题上的争论将在后面逐步介绍。,Byaes统计学派与经典统计学派分歧第一，是否利用先验信息。由于产品的设计、生产都有一定的继承性，这样就存在许多相关产品的信息以及先验信息可以利用，Byaes统计学派认为利用这些先验信息不仅可以减少样本容量，而且在很多情况还可以提高统计精度；而经典统计学派忽略了这些信

13、息。第二，是否将参数看成随机变量。Byaes统计学派的最基本的观点是:任一未知量都可以看成随机变量，可以用一个概率分布去描述，这个分布就是先验分布。因为任一未知量都具有不确定性，而在表述不确定性时，概率与概率分布是最好的语言；相反，经典统计学派却把未知量就简单看成一个未知参数，来对它进行统计推断。,总结,理解贝叶斯统计学与经典统计学的主要差别。贝叶斯统计学派的最基本的观点。,1.2 贝叶斯公式,一、贝叶斯公式的密度函数形式,1.总体依赖于参数的概率函数在贝叶斯统计中记为p (x | )，它表示在随机变量取某个给定值时总体的条件概率函数； 2.根据参数的先验信息可确定先验分布( )

14、； 3.从贝叶斯观点看，样本 x=（x1, x2 , , xn ）的产生分两步进行:首先从先验分布( )产生一个样本0，然后从p (x |0)中产生一组样本。这时样本的联合条件概率函数为,常称为似然函数(综合总体信息和样本信息)。,4. 0 是未知的，它是按先验分布( )产生的。为把先验信息综合进去，不能只考虑0，对的其它值发生的可能性也要加以考虑，故要用( )进行综合。这样一来，样本x=（x1 , , xn）和参数的联合分布为: h(x, ) = p(x )( )，这个联合分布把总体信息、样本信息和先验信息三种可用信息都综合进去了。,5. 对未知数作出推断。无样本信息时，只能依据先验分

15、布对作出推断。有了样本观察值x=( x1, x2 , , xn )之后，则应依据 h(x , )对作出推断。由于 h(x , ) =( x )m(x)，其中是x=(x1, x2 , , xn )的边际概率函数，它与无关，不含的任何信息。因此能用来对作出推断的仅是条件分布( x)。,这个条件分布称为的后验分布,它集中了总体、样本和先验中有关的一切信息,而又是排除一切与无关的信息之后得到的结果。,后验分布( x )的计算公式就是用密度函数表示的贝叶斯公式。它是用总体和样本对先验分布( )作调整的结果，贝叶斯统计的一切推断都基于后验分布进行。,贝叶斯公式的密度函数形式,6.在是离

16、散型随机变量时，先验分布可用先验分布列(i)，i=1,2,表示。这时后验分布也是离散形式,假如总体X也是离散的，只要把(1.1)或(1.2)中的密度函数p(x)作为概率函数p(X=x)即可。,二、后验分布式三种信息的综合,一般说来，先验分布()是反映人们抽样前对的的认识，后验分布 ( x )是反映人们在抽样后对的认识。它们之间的差异是由于样本x出现后人们对认识的一种调整。所以后验分布 ( x )可以看做是人们用总体信息和样本信息（综合称为抽样信息）对 ( )作调整的结果。,例1.4. 设某事件A在一次试验中发生的概率为，为估计，对试验进行了n次独立观测，其中事件A发生了X次，显然 X b(n, )，即这是似然函数。在这种场合，贝叶斯本人建议采用“同等无知”的原则使用区间（0,1）上的均匀分布U(0,1)作为的先验分布，因为它取（0,1）上的每一点的机会均等。贝叶斯的这个建议被后人称为贝叶斯假设。, 的先验分布为,由此即可利用贝叶斯公式求出的后验分布。具体如下：先写出X和的联合分布然后求X的边际分布最后求出的后验分布

展开阅读全文