数理统计第二章.doc

上传人:hs****ma 文档编号:543236018 上传时间:2022-12-10 格式:DOC 页数:61 大小:2.74MB
返回 下载 相关 举报
数理统计第二章.doc_第1页
第1页 / 共61页
数理统计第二章.doc_第2页
第2页 / 共61页
数理统计第二章.doc_第3页
第3页 / 共61页
数理统计第二章.doc_第4页
第4页 / 共61页
数理统计第二章.doc_第5页
第5页 / 共61页
点击查看更多>>
资源描述

《数理统计第二章.doc》由会员分享,可在线阅读,更多相关《数理统计第二章.doc(61页珍藏版)》请在金锄头文库上搜索。

1、- 57 -第2章 参数估计和概率分布拟合英国著名统计学家R.A.Fisher把统计推断归纳为三个方面:抽样分布,参数估计与假设检验.其中参数估计又分为点估计和区间估计.本章主要讨论参数估计,下一章讨论假设检验.后面各章中都会涉及估计和检验的问题.2.1 基本概念2.1.1 简单随机样本在数理统计中,总体就是指一个随机变量(或向量),或一个概率分布.这个随机变量(戓概率分布)的特征数或参数就是总体的特征数或参数. 数理统计的任务简单说就是“由样本推断总体”.数理统计学中提出和发展的各种统计方法需要具有普遍性和优良性。而优良性的评估要依据一定的准则,并结合样本的概率性质(即统计模型)给出。对于简

2、单随机样本,样本的联合分布完全取决于总体分布,简单随机样本具有如下概率性质: (1)(代表性)每个都具有与总体相同的分布; (2)(独立性)相互独立. 由于简单随机样本具有如此的概率性质,一旦给出总体的概率密度或分布列我们就可以求出样本的联合概率密度或联合分布列(概率质量函数)。 (1)若总体具有概率密度函数,那么的联合密度为 (2) 若总体具有概率质量函数,那么的联合质量函数为 在抽样调查中,若是对总体作不重复抽样而得到的样本,那么不相互独立,因而不是简单随机样本,但当样本容量相对于总体中个体总数很小时,我们可把视为简单随机样本.另外,若总体是无限总体时,那么简单随机抽样得到的样本视为简单随

3、机样本. 为建模方便,个体数目很大的有限总体常被视为无限总体.本章以及本章以后内容中提到的样本大多是简单随机样本,因此以后说到的样本,如无特别声明,均指简单随机样本.例2.1.1 设为来自总体的简单随机样本,那么样本的联合概率密度函数为 例2.1.2 设总体服从参数为的指数分布,为来自该总体的简单随机样本,求样本的联合概率密度函数. 解:总体的概率密度为 样本的联合概率密度为 例2.1.3 设为来自总体的简单随机样本,求样本的联合概率质量函数.解:总体的概率质量函数为 样本的联合概率密度为 2.1.2 统计量及抽样分布 在有了样本后,我们需要对样本进行处理或做某些运算,以提取所需要的信息.用数

4、学的语言,就是要构造样本的函数,当有了样本值后,就可以完全确定的值.称为统计量.要注意的是这里强调了:当样本值确定后,统计量的值就完全确定。因此统计量只是样本的函数,而不能涉及任何其他的未知量.例如设为来自总体的样本,那么是统计量.而对于,当已知时,是统计量; 当未知时,不是统计量.统计量可以是多维的. 在具体的统计问题中,构造统计量总是有目的的,是针对特定问题的需要而构造的,目的是把分散在样本中的某方面信息集中起来、提炼出来。比如,如果需要估计总体均值,我们会考虑统计量,而不会考虑统计量.而如果估计总体方差, 我们会想到统计量(或),而不会用统计量.下面是一些常用的统计量: 样本均值: ,

5、样本方差: ,我们常说“的自由度为”,自由度这个名词有如下两种解释:(1) 是个数,的平方和,而这个数受到一个(也只有一个)约束: ,故只有个自由度.(2) 若代入中,并将其整理为二次型,则的秩为.自由度就定义为这个秩。样本标准差: 样本阶原点矩: 样本阶中心矩: 样本协方差: 样本相关系数:次序统计量:设有样本,按如下方式定义随机变量,当有了样本值后,将样本值从小到大排序为,那么的取值为,称为第个次序统计量, 是的一次实现.称为样本的次序统计量, 是的一次实现.和分别称为极小和极大次序统计量. 称为样本极差.样本分位数:样本分位数定义为 样本中位数为 注:样本分位数的定义在不同的教材上可能会

6、有所差异。样本经验分布函数:对于任意的实数,即表示样本中小于或等于的频数. 经验分布函数定义为 由于样本是个随机变量,因此统计量也是随机变量,其概率分布称为抽样分布.当有了具体的样本观察值后,可得统计量的具体取值,称此具体取值为统计量的观察值. 在统计分析和统计推断中,统计量起着重要作用,对统计量的统计性质的了解就很重要.统计量的统计性质主要涉及两个方面:统计量的特征数(比如,期望、方差等); 统计量的概率分布即抽样分布. 性质2.1.1 设总体的数学期望为,方差为,为来自该总体的简单随机样本,为样本均值和样本方差,则 (1) (2) (3)证明:(1)(2) ;(3)由于 ,从而 所以 例2

7、.1.4 设为来自总体的简单随机样本,为极大次序统计量,求(1)的概率密度函数;(2),.解:的分布函数为 这里是分布的分布函数,从而可得的概率密度函数为 所以 .例2.1.5 设为来自总体的简单随机样本,的分布函数为,为样本的经验分布函数,对于任意给定的实数,求,.解: 对于任意给定的实数,从而 ,. 以上结果的推导都用到了简单随机样本的概率性质. 2.1.3 正态总体的抽样分布 一般而言,统计量的精确分布难以导出.而在正态总体下,样本均值和样本方差等常用统计量的精确分布是可以导出的.下面给出其结果. 定理 设为来自总体的简单随机样本,为样本均值和样本方差,则 (1), (2), (3)相互

8、独立. 对于结论(1),利用正态分布的性质易得,而(2),(3)的证明比较复杂,此处略. 推论:设为来自总体的简单随机样本,分别为样本均值和样本方差,则在数理统计中,经常会遇到对两个或多个总体的均值、方差作比较的问题,此时一般可通过对样本均值的比较、样本方差的比较得出结论.这里就需要知道样本均值之差、样本方差之比的抽样分布.下面给出在正态总体下,样本均值之差、样本方差之比的抽样分布.定理 设为来自总体的简单随机样本,分别为该样本的样本均值和样本方差,为来自总体的简单随机样本,分别为此样本的样本均值和样本方差.又设两样本相互独立,则(1) 在条件下,有 其中.(2) 2.3.4 统计模型 统计分

9、析和推断总是基于一定的统计模型下进行的.统计模型就是样本的联合分布。如何建立统计模型?如何评价统计模型?等等.这些问题很准确论述和回答。只有在具体的统计问题中,去探讨这些问题才有价值.下面先看一个实例:粒子排放量的泊松拟合. 人们在对放射性物质在一段时间内放射出的粒子数进行观察时,结果显示单位时间内的发射数不是常数。下表给出了1207个时间区间的观测数据,每个区间长10秒. 观测频数 期望频数 观测频数 期望频数02 18 12.23 28 27.04 56 56.55 105 94.96 126 132.77 146 159.18 164 166.99 161 155.610 123 130

10、.611 101 99.712 74 69.713 53 45.014 23 27.015 15 15.116 9 7.917 5 7.1由于在一段时间内放射出的粒子数是随机波动的,分析这个问题时需要建立统计模型(或随机模型)。若以表示10秒内粒子放射数.那么是一个离散随机变量。实际观测的数据看成是随机样本的一次实现。那么如何建立统计模型呢?也就是要对样本的分布提出一些假设,如果是简单随机样本,只需给对应的总体拟合一个概率分布。一般而言,给一个未知的分布,或给总体拟合一个概率分布主要从两个方面去考虑:第一个方面就是“用数据说话”,对观察数据作初步分析,以初步判断观察数据来自于哪一类分布,要注意

11、的是在数理统计中,观察数据总是被认是随机样本的一次实现;第二个方面就是根据获取数据的方式,物理机制、专业理论或长期的实践经验等方面的信息加以判断. 根据物理机制及长期的观察和经验,放射的粒子数符合三个假设:(1)事件的发生(即粒子的放射)的基本速率在空间或时间上是常数;(2)事件的在发生不同空间或时间区间上相互独立;(3)事件不能同时发生。而符合这三个假设的空间或时间上的随机变量(指在一定空间或时间上事件发生的次数)是服从泊松分布的。依据这三个假设可以认为i.i.d,换言之是来自泊松总体的简单随机样本.再分析实际的观察数据,上面的表格就是对数据的初步分析。由此也可以初步判断用泊松分布拟合放射的

12、粒子数是恰当的.这样,此该问题的统计模型就建立起来了.该模型可以这样描述:总体(为未知参数),为来自总体的简单随机样本.或为来自总体的简单随机样本.或i.i.d.我们给出了总体的分布.该分布中含有一个未知参数,要拟合出总体的具体分布就需要通过样本值得到的估计值,这个问题等同于说要确定样本是来自于分布族中的哪个成员.统计模型是通过给出样本的分布信息加以描述.对于简单随机样本,可通过给出总体的分布信息加以描述,由于我们以后讨论的样本总是简单随机样本,因此我们常以总体的分布信息来描述统计模型.比如:总体分布族为.总体分布族为.总体具有连续分布,且分布密度具有形式.总体具有连续分布,且分布密度关于对称

13、,等等.这里和是参数模型, 一般地,若模型中给出了总体(或样本)的分布形式,分布中含有有限个未知参数,称这种模型为参数模型,参数的取值范围称为参数空间,常用表示.和是非参数模型. 选择参数模型或非参数模型各有利弊,参数模型中含有更多的信息,由此出发可以获得较高精度的参数估计,但这也是有风险的,当参数模型不真时,就可能远离实际了.非参数模型中所含的信息较少,由此出发得到的推断结果的精度一般不会很高,但所冒的风险要小.这两类模型下所用的统计推断方法有很大差别,以至于形成了统计中的参数方法和非参数方法两大类再看两个例子例 Bevan,Kullberg,和Rice(1979)研究了肌肉细胞膜中流体的随

14、机波动性.净流量来源于穿过开通道的离子.为了拟合净流量的概率分布,一方面分析获得的数据,由49152个净流量观测值得到图8.1(P178)所示的平滑直方图及近似正态拟合曲线,由图可以看出正态分布的拟合效果还是非常好的.另一方面,净流量是大量近似独立流的和,那么由中心极限定理可知净流量近似服从正态分布.这样给净流量拟合了一个正态分布.统计模型也就建立起来了.在统计推断中还需给出参数的估计或假设检验,当然对拟合的分布也是需要作检验.在应用中,单个通道特征信息(如电导系数)取自估计的参数.例 图8.2显示了不同暴雨降雨量的Gamma分布的拟合效果(Le Cam和Neyman 1967).为了判断催雨对降雨量是否有影响,利用Gamma分布拟合催雨和未催雨区域的暴雨降雨量.催雨和未催雨的暴雨降雨量的差异应该能够反映在参数的差异上.本章讨论的议题与第一章有很强的相似性,比如都讨论总体参数的估计及优良性评价,样本的概率分布,估计量的抽样分布等.但差别主要体现在两个最基本的概念上:上一章中的总体一般指由一些具体的人或物组成的一个整体,是很具体的,样本是按某种抽样方案从总体抽取出的一部分成员;本章中

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号