第6章 样本及抽样分布

上传人:飞*** 文档编号:3964888 上传时间:2017-08-05 格式:PPT 页数:66 大小:698KB
返回 下载 相关 举报
第6章 样本及抽样分布_第1页
第1页 / 共66页
第6章 样本及抽样分布_第2页
第2页 / 共66页
第6章 样本及抽样分布_第3页
第3页 / 共66页
第6章 样本及抽样分布_第4页
第4页 / 共66页
第6章 样本及抽样分布_第5页
第5页 / 共66页
点击查看更多>>
资源描述

《第6章 样本及抽样分布》由会员分享,可在线阅读,更多相关《第6章 样本及抽样分布(66页珍藏版)》请在金锄头文库上搜索。

1、1,概率论与数理统计,数理统计学是一门应用性很强的学科。它研究怎样以有效的方式收集、 整理和分析带有随机性的数据,以便对所考察的问题作出正确的推断和预测,为采取正确的决策和行动提供依据和建议。,数理统计不同于一般的资料统计,它更侧重于应用随机现象本身的规律性进行资料的收集、整理和分析。,2,3,第六章样本及抽样分布,引言,由于大量随机现象必然呈现出其规律性,因而从理论上讲,只要对随机现象进行足够多次的观察,随机现象的规律性就一定能够清楚地呈现出来。,但是,客观上只允许我们对随机现象进行次数不多的观察或试验,也就是说:我们获得的只能是局部的或有限的观察资料。,4,数理统计的任务就是研究怎样有效地

2、收集、整理和分析所获得的有限资料,并对所研究的问题尽可能地给出精确而可靠的推断。,现实世界中存在着形形色色的数据,分析这些数据需要多种多样的方法。,5,因此,数理统计中的方法和支持这些方法的相应理论是相当丰富的。概括起来可以归纳成两大类。 参数估计: 根据数据,对分布中的未知参数 进行估计; 假设检验: 根据数据,对分布的未知参数的 某种假设进行检验。 参数估计与假设检验构成了统计推断的两种基本形式,这两种推断渗透到了数理统计的每个分支。,6,7,1 随机样本,总体与样本,在数理统计中,称研究问题所涉及对象的全体为总体,总体中的每个成员为个体。 例如: 研究某工厂生产的某种产品的废品率,则这种

3、产品的全体就是总体,而每件产品都是一个个体。,8,实际上,我们真正关心的并不一定是总体或个体本身,而真正关心的是总体或个体的某项数量指标。 如:某电子产品的使用寿命,某天的最高气温,加工出来的某零件的长度等数量指标。因此,有时也将总体理解为那些研究对象的某项数量指标的全体。,9,为评价某种产品质量的好坏,通常的做法是:从全部产品中随机(任意)地抽取一些样品进行观测(检测),统计学上称这些样品为一个样本。 同样,我们也将样本的数量指标称为样本。因此,今后当我们说到总体及样本时,既指研究对象又指它们的某项数量指标。,10,例1:研究某地区 N 个农户的年收入。 在这里,总体既指这 N 个农户,又指

4、我们所关心的 N个农户的数量指标他们的年收入( N 个数字)。 如果从这 N 个农户中随机地抽出 n 个农户作为调查对象,那么,这 n 个农户以及他们的数量指标年收入( n个数字)就是样本。,注意:上例中的总体是直观的,看得见、摸得着的。但是,客观情况并非总是这样。,11,对一个总体,如果用X表示其数量指标,那么,X的值对不同的个体就取不同的值。因此,如果我们随机地抽取个体,则X的值也就随着抽取个体的不同而不同。 所以,X是一个随机变量! 既然总体是随机变量X,自然就有其概率分布。我们把X的分布称为总体分布。 总体的特性是由总体分布来刻画的。因此,常把总体和总体分布视为同义语。,总体分布,12

5、,例 2 (例 l 续):在例 l中,若农户年收入以万元计,假定 N户的收入X只取以下各值: 0.5, 0.8, l.0, 1.2和1.5。取上述值的户数分别n1, n2, n3, n4和n5 (n1+n2+n3+n4+n5=N)。则X为离散型分布,分布律为:,13,样本的二重性,假设 X1, X2, , Xn 是总体X中的样本,在一 次具体的观测或试验中,它们是一批测量值, 是已经取到的一组数。这就是说,样本具有 数的属性。,由于在具体试验或观测中,受各种随机因素 的影响,在不同试验或观测中,样本取值可 能不同。因此,当脱离特定的具体试验或观 测时,我们并不知道样本 X1,X2,Xn 的具

6、体取值到底是多少。因此,可将样本看成随 机变量。故,样本又具有随机变量的属性。,14,将上述结论推广到一般的分布:如果在相同条件下对总体X 进行n次重复、独立观测,就可以认为所获得的样本X1,X2,Xn是 n 个独立且与总体 X 有同样分布的随机变量。,在统计文献中,通常称相互独立且有相同分布的样本为随机样本或简单样本, n 为样本大小或样本容量。,15,16,定义 设X是具有分布函数F的随机变量, 若X1,X2,.,Xn是具有同一分布函数F的, 相互独立的随机变量, 则称X1,X2,.,Xn为从分布函数F(或总体F, 或总体X)得到的容量为n的简单随机样本, 简称样本, 它们的观察值x1,x

7、2,.,xn称为样本值, 又称为X的n个独立的观察值.,17,也可以将样本看成是一个随机向量, 写成(X1,X2,.,Xn), 此时样本值应写成(x1,x2,.,xn). 若(x1,x2,.,xn)与(y1,y2,.,yn)都是相应于样本(X1,X2,.,Xn)的样本值, 一般说来它们是不相同的.,18,由定义得: 若X1,X2,.,Xn为F的一个样本, 则X1,X2,.,Xn相互独立, 且它们的分布函数都是F, 所以(X1,X2,.,Xn)的分布函数为,又若X具有概率密度f, 则(X1,X2,.,Xn)的概率密度为,例: 假设某大城市居民的收入 X 服从正态分布N(,2), 概率密度为,现从

8、总体 X 中随机抽取样本 X1,Xn ,因其独立同分布于总体 X,即: Xi N(,2), i1,2,n.于是,样本X1,X2,Xn 的联合概率密度为,19,20,3 抽样分布,21,定义 设X1,X2,.,Xn是来自总体X的一个样本, g(X1,X2,.,Xn)是X1,X2,.,Xn的函数, 若g中不含未知参数, 则g(X1,X2,.,Xn)称是一统计量.,因为X1,X2,.,Xn都是随机变量, 而统计量g(X1,X2,.,Xn)是随机变量的函数, 因此统计量是一个随机变量. 设是x1,x2,.,xn相应于样本的样本值, 则称g(x1,x2,.,xn)是g(X1,X2,.,Xn)的观察值.,

9、22,几个常用的统计量:样本平均值:,样本方差:,样本标准差:,反映总体均值的信息,反映总体方差的信息,23,样本k阶(原点)矩:,样本k阶中心矩:,24,它们的观察值分别为,25,这些观察值仍分别称为样本均值, 样本方差, 样本标准差, 样本k阶(原点)矩以及样本k阶中心矩.,26,若总体X的k阶矩E(Xk)存在, 记mk=E(Xk), 则当,从而由第五章的辛钦定理知,27,进而由第五章中关于依概率收敛的序列的性质知道,其中g为连续函数. 这就是下一章要介绍的矩估计法的理论根据.,28,经验分布函数 可以作出与总体分布函数F(x)相应的统计量-经验分布函数, 它的作法为, 设X1,X2,.,

10、Xn是总体F的一个样本, 用S(x), -x, 表示X1,X2,.,Xn中不大于x的随机变量的个数, 定义经验分布函数Fn(x)为,29,例如(1) 设总体F具有一个样本值1,2,3, 则经验分布函数F3(x)的观察值为,30,(2) 设总体F具有一个样本值1,1,2, 则经验分布函数F3(x)的观察值为,31,一般, 设x1,x2,.,xn是总体F的一个容量为n的样本值. 先将x1,x2,.,xn按自小到大的次序排列, 并重新编号, 设为x(1)x(2).x(n).则经验分布函数Fn(x)的观察值为,32,对于经验分布函数Fn(x), 格里汶科(Glivenko)在1933年证明了以下的结果

11、: 对于任一实数x, 当n时Fn(x)以概率1一致收敛于分布函数F(x), 即,因此, 对于任一实数x当n充分大时, 经验分布函数的任一个观察值Fn(x)与总体分布函数F(x)只有微小的差别, 从而在实际上可以当作F(x)来使用.,33,对于任意固定的x, -x, S(x)b(n, F(x), 从而可知对于固定的x,34,统计量的分布称为抽样分布. 在使用统计量进行统计推断时常需知道它的分布. 当总体的分布函数已知时, 抽样分布是确定的, 然而要求出统计量的精确分布, 一般来说是困难的. 下面介绍来自正态总体的几个常用统计量的分布.,35,(一) c2分布 设X1,X2,.,Xn是来自总体N(

12、0,1)的样本, 则称统计量,服从自由度为n的c2卡方分布, 记为c2c2(n).此处, 自由度是指(3.1)式右端包含的独立变量的个数.,36,c2(n)分布的概率密度为,37,f(y)的图形如下:,38,现在来推求(3.2)式由第二章5例3及第三章5例3知c2(1)分布即为G(1/2, 2)分布, 现XiN(0,1), 由定义Xi2c2(1), 即Xi2G(1/2, 2), i=1,2,.,n. 再由X1,X2,.,Xn的独立性知X12,X22,.,Xn2相互独立, 从而由G分布的可加性知,即得c2的概率密度如(3.2)式所示.,39,c2分布的可加性 设c12c2(n1), c22c2(

13、n2), 并且c12, c22独立, 则有c12+c22c2(n1+n2).,c2分布的数学期望和方差 若c2c2(n), 则有 E(c2)=n, D(c2)=2n.,40,c2分布的分位点 对于给定的正数a, 0a1, 称满足,41,对于不同的a, n, 上a分位点的值已制成表格, 可以查用(见附表4).,注:实际上许多常用的办公软件都有关于上a分位点的相应函数, 例如, excel电子表格的函数chiinv(a,n)就可以计算给定a,n值的上a分位点.MATLAB中统计工具箱的相应函数为:chi2inv(X,V),Y=chi2inv(a, n)如chi2inv(0.9,25),42,(二)

14、t分布 设XN(0,1), Yc2(n), 且X,Y独立, 则称随机变量,服从自由度为n的t分布, 记为tt(n).t分布又称学生氏(Student)分布, t(n)分布的概率密度函数为,43,h(t)的图形为,44,h(t)关于t=0对称, 当n充分大时其图形类似于标准正态变量概率密度的图形. 不难证明,故当n足够大时t分布近似于N(0,1)分布, 但对于较小的n, t分布与N(0,1)分布相差较大.,数学期望与方差,46,t分布的分位点 对于给定的a, 0a45时, 对于常用的a的值, 就用正态近似:ta(n)za.(3.13),48,注:MATLAB中统计工具箱的相应函数为:tinv(X

15、,V)tinv(0.975,15),49,(三)F分布 设Uc2(n1), Vc2(n2), 且U,V独立, 则称随机变量,服从自由度为(n1,n2)的F分布, 记为FF(n1,n2).F分布的概率密度为,50,(y)的图形,51,由定义可知, 若FF(n1,n2), 则,F分布的分位点 对于给定的a,0a1, 称满足条件,的点Fa(n1,n2)为F(n1,n2)分布的上a分位点, 此分位点有表格可查(见附表5).,52,注:在Excel软件中的函数FINV可以查出F分布的分布函数逆函数, 也就容易查出上a分位点.MATLAB中统计工具箱的相应函数为:finv(X,V1,V2),finv(0.95,12,9),53,F-分布的上a分布的示意图,54,若FF(n1,n2), 按定义,55,由(1),(2)式可得F分布的上a分位点满足:,(2.18)式常用来求F分布表中未列出的常用的上a分位点, 例如,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号