统计量及其分布

上传人:s9****2 文档编号:575267961 上传时间:2024-08-17 格式:PPT 页数:93 大小:1.50MB
返回 下载 相关 举报
统计量及其分布_第1页
第1页 / 共93页
统计量及其分布_第2页
第2页 / 共93页
统计量及其分布_第3页
第3页 / 共93页
统计量及其分布_第4页
第4页 / 共93页
统计量及其分布_第5页
第5页 / 共93页
点击查看更多>>
资源描述

《统计量及其分布》由会员分享,可在线阅读,更多相关《统计量及其分布(93页珍藏版)》请在金锄头文库上搜索。

1、第五章第五章 统计量及其分布统计量及其分布 5.1 总体与样本总体与样本5.2 样本数据的整理与显示样本数据的整理与显示5.3 统计量及其分布统计量及其分布5.4 三大抽样分布三大抽样分布5.5 充分统计量充分统计量 引引 言言 随机变量及其所伴随的概率分布全面描述了随机随机变量及其所伴随的概率分布全面描述了随机现象的统计性规律。现象的统计性规律。 概率论的许多问题中,随机变量的概率分布通常概率论的许多问题中,随机变量的概率分布通常是已知的,或者假设是已知的,而一切计算与推理都是已知的,或者假设是已知的,而一切计算与推理都是在这已知的基础上得出来的。是在这已知的基础上得出来的。 但实际中,情况

2、往往并非如此,一个随机现象所但实际中,情况往往并非如此,一个随机现象所服从的分布可能是完全不知道的,或者知道其分布概服从的分布可能是完全不知道的,或者知道其分布概型,但是其中的某些参数是未知的。型,但是其中的某些参数是未知的。例例5.0.1 某某公公司司要要采采购购一一批批产产品品,每每件件产产品品不不 是是合合格格品品就就是是不不合合格格品品,但但该该批批产产品品总总有有一一 个个不不合合格格品品率率 p 。由由此此,若若从从该该批批产产品品中中随随 机机抽抽取取一一件件,用用 X 表表示示这这一一件件产产品品的的不不合合格格 数数,不不难难看看出出 X 服服从从一一个个二二点点分分布布b(

3、 (1 , p) ), 但分布中的参数但分布中的参数 p 是不知道的。一些问题:是不知道的。一些问题: p 的大小如何;的大小如何; p 大概落在什么范围内;大概落在什么范围内; 能否认为能否认为 p 满足设定要求满足设定要求(如(如 p 0.05)。)。 数理统计的任务则是数理统计的任务则是以概率论为基础,以概率论为基础,根据试验所得到的数据,对研究对象的客观根据试验所得到的数据,对研究对象的客观统计规律性做出合理的推断。统计规律性做出合理的推断。 服从怎样的分布;服从怎样的分布; 分布中的参数;分布中的参数; 学科分支:学科分支:抽样调查、实验设计、回归抽样调查、实验设计、回归分析、多元统

4、计分析、非参数统计、贝叶斯分析、多元统计分析、非参数统计、贝叶斯方法,等等。方法,等等。5.1 总体与个体总体与个体总体的三层含义总体的三层含义: 研究对象的全体;研究对象的全体; 数据;数据; 分布分布 在在数数理理统统计计中中,把把研研究究对对象象的的全全体体称称为为总总体体(population)或或母母体体,而而把把组组成成总总体体的的每每个个单单元元称为称为个体个体。 例例5.1.1 考察某厂的产品质量,将产品只分为考察某厂的产品质量,将产品只分为合格品和不合格品,以合格品和不合格品,以0记合格品,以记合格品,以1记不记不合格品,则合格品,则X 0 1P 1 p p 该厂生产的全部合

5、格品与不合格品该厂生产的全部合格品与不合格品 若以若以 p 表示这堆数中表示这堆数中1的比例(不合格品率),的比例(不合格品率),则该总体可由一个二点分布表示:则该总体可由一个二点分布表示:总体总体 = = = 由由0或或1组成的一堆数组成的一堆数 比如比如:两个生产同类产品的工厂的产品两个生产同类产品的工厂的产品的总体分布:的总体分布:X01p0.9830.017X01p0.9150.085例例5.1.2 在二十世纪七十年代后期,美国消费者购买在二十世纪七十年代后期,美国消费者购买日产日产SONY彩电的热情高于购买美产彩电的热情高于购买美产SONY彩电,原因何在?彩电,原因何在? 1979年

6、年4月月17日日本日日本朝日新闻朝日新闻刊登调查报刊登调查报 告指出告指出N(m, (5/3)2),日产,日产SONY彩电的彩色彩电的彩色浓浓 度服从正态分布,而美产度服从正态分布,而美产SONY彩电的彩色浓彩电的彩色浓 度服从度服从( (m 5 , m+5) )上的均匀分布。上的均匀分布。原因在于总体的差异上!原因在于总体的差异上!图图5.1.1 SONY彩电彩色浓度分布图彩电彩色浓度分布图q等级等级 I II III IV 美产美产 33.3 33.3 33.3 0 日产日产 68.3 27.1 4.3 0.3表表5.1.1 各等级彩电的比例各等级彩电的比例(%)|X-m|5/35/3|X

7、-m|10/310/3 |X-m|55.1.2 样本样本抽样抽样 : 要了解总体的分布规律,在统计分析工作中,往往是要了解总体的分布规律,在统计分析工作中,往往是从总体中抽取一部分个体进行观测从总体中抽取一部分个体进行观测,这个过程称为,这个过程称为抽样。抽样。样本样本 在在抽抽取取过过程程中中,每每抽抽取取一一个个个个体体,就就是是对对总总体体X进进行行一一次次随随机机试试验验,每每次次抽抽取取的的n个个个个体体 ,称称为为总总体体X的的一一个个容容量量为为n的的样样本本(sample)或或 子子样样;其中样本中所包含的个体数量称为;其中样本中所包含的个体数量称为样本容量样本容量。样本。样本

8、中的个体称为中的个体称为样品样品。5.1.2 样本样本样本具有样本具有两两重性:重性: 一方面,由于样本是从总体中随机抽取的,抽一方面,由于样本是从总体中随机抽取的,抽 取前无法预知它们的数值,因此,样本是随机取前无法预知它们的数值,因此,样本是随机 变量,用大写字母变量,用大写字母 X1, X2, , Xn 表示;表示; 另一方面,样本在抽取以后经观测就有确定的另一方面,样本在抽取以后经观测就有确定的 观测值,因此,样本又是一组数值。此时用小观测值,因此,样本又是一组数值。此时用小 写字母写字母 x1, x2, , xn 表示是恰当的。表示是恰当的。在本书中,无论是样本还是其观测值,样本一般

9、均用在本书中,无论是样本还是其观测值,样本一般均用 x1, x2, xn 表示,大家要注意从上下文中加以识别。表示,大家要注意从上下文中加以识别。例例例例5.1.35.1.3 啤酒厂生产的瓶装啤酒规定净含量为啤酒厂生产的瓶装啤酒规定净含量为640 克。由于随机性,事实上不可能使得所有的啤酒克。由于随机性,事实上不可能使得所有的啤酒 净含量均为净含量均为640克。现从某厂生产的啤酒中随机克。现从某厂生产的啤酒中随机 抽取抽取10瓶测定其净含量,得到如下结果瓶测定其净含量,得到如下结果:641, 635, 640, 637, 642, 638, 645, 643, 639, 640这是一个容量为这

10、是一个容量为10的样本的观测值,的样本的观测值,对应的总体为该厂生产的瓶装啤酒的净含量。对应的总体为该厂生产的瓶装啤酒的净含量。完全样本完全样本例例5.1.4 考察某厂生产的某种电子元件的寿命,选考察某厂生产的某种电子元件的寿命,选了了100只进行寿命试验,得到如下数据:只进行寿命试验,得到如下数据:表表5.1.2 100只元件的寿命数据只元件的寿命数据 寿命范围寿命范围 元件数元件数 寿命范围寿命范围 元件数元件数 寿命范围寿命范围 元件元件数数 ( 0 24 4 (192 216 6 (384 408 4 (24 48 8 (216 240 3 (408 432 4 (48 72 6 (2

11、40 264 3 (432 456 1 (72 96 5 (264 288 5 (456 480 2 (96 120 3 (288 312 5 (480 504 2 (120 144 4 (312 336 3 (504 528 3 (144 168 5 (336 360 5 (528 552 1 (168 192 4 (360 184 1 552 13表表5.1.2中的样本观测值没有具体的数值,中的样本观测值没有具体的数值,只有一个范围,这样的样本称为只有一个范围,这样的样本称为分组样本分组样本。 独立性独立性: : 样本中每一样品的取值不影响其样本中每一样品的取值不影响其 它样品的取值它样品

12、的取值 - x1, x2, , xn 相互独相互独立。立。要使得推断可靠,对样本就有要求,使样本能很要使得推断可靠,对样本就有要求,使样本能很好地代表总体。通常有如下两个要求:好地代表总体。通常有如下两个要求: 随机性随机性: : 总体中每一个个体都有同等机会总体中每一个个体都有同等机会 被选入样本被选入样本 - xi 与总体与总体X有相同的分布有相同的分布。样本的要求:简单随机样本样本的要求:简单随机样本用简单随机抽样方法得到的样本称为用简单随机抽样方法得到的样本称为简单随机样本简单随机样本,也简称也简称样本样本。于是,样本于是,样本 x1, x2, , xn 可以看成是可以看成是独立同分布

13、独立同分布( iid ) 的随机变量,的随机变量,其共同分布即为其共同分布即为总体分布总体分布。 iidindependent identical distribution若总体若总体 的分布函数为的分布函数为则样本则样本 的联合分布函数为的联合分布函数为若总体若总体 的密度函数为的密度函数为则样本则样本 的联合密度函数为的联合密度函数为若总体若总体 的分布列为的分布列为则样本则样本 的联合分布列为:的联合分布列为:总体分为总体分为有限总体有限总体与与无限总体无限总体实际中总体中的个体数大多是有限的。当个体数充分实际中总体中的个体数大多是有限的。当个体数充分大时,将有限总体看作无限总体是一种合

14、理的抽象。大时,将有限总体看作无限总体是一种合理的抽象。对无限总体,随机性与独立性容易实现,困难在于对无限总体,随机性与独立性容易实现,困难在于排除有意或无意的人为干扰。排除有意或无意的人为干扰。对有限总体,只要总体所含个体数很大,特别是与对有限总体,只要总体所含个体数很大,特别是与样本量相比很大,则独立性也可基本得到满足。样本量相比很大,则独立性也可基本得到满足。本书以无限总体为主要研究对象。本书以无限总体为主要研究对象。例例5.1.5 设有一批产品共设有一批产品共N个,需要进行抽样检个,需要进行抽样检验以了解其不合格品率验以了解其不合格品率p。现从中采取不放回现从中采取不放回抽样抽出抽样抽

15、出2个产品,这时,第二次抽到不合格个产品,这时,第二次抽到不合格品的概率依赖于第一次抽到的是否是不合格品,品的概率依赖于第一次抽到的是否是不合格品,如果第一次抽到不合格品,则如果第一次抽到不合格品,则而若第一次抽到的是合格品,则第二次抽到不合而若第一次抽到的是合格品,则第二次抽到不合格品的概率为格品的概率为P(x2 = 1 | x1 = 1) = (Np 1)/(N 1)P(x2 = 1 | x1 = 0) = (Np) (N 1)显然,如此得到的样本不是简单随机样本。显然,如此得到的样本不是简单随机样本。但是,当但是,当N 很大时,我们可以看到上述两种很大时,我们可以看到上述两种情形的概率都

16、近似等于情形的概率都近似等于p 。所以当所以当N 很大,很大,而而n不大(一个经验法则是不大(一个经验法则是 n N 0.1)时可时可以把该样本近似地看成简单随机样本。以把该样本近似地看成简单随机样本。作业:作业:P256 4P256 4、6 65.2.1 经验分布函数经验分布函数5.2 样本数据的整理与显示样本数据的整理与显示设设 x1, x2, , xn 是取自总体分布函数为是取自总体分布函数为F(x)的的样本,若将样本观测值由小到大进行排列样本,若将样本观测值由小到大进行排列, ,为为 x(1), x(2), , x(n),则称则称 x(1), x(2), , x(n) 为为有序样本有序

17、样本,用有序样本定义如下函数用有序样本定义如下函数 则则Fn(x)是一非减右连续函数,且满足是一非减右连续函数,且满足Fn() = 0 和和 Fn() = 1由此可见,由此可见,Fn(x)是一个分布函数,是一个分布函数,并称并称Fn(x)为为经验分布函数经验分布函数。例例5.2.1 某食品厂生产听装饮料,现从生产某食品厂生产听装饮料,现从生产线上随机抽取线上随机抽取5听饮料,称得其净重(单位:听饮料,称得其净重(单位:克)克) 351 347 355 344 351x(1)= 344, x(2)= 347, x(3)= 351, x(4)= 351, x(5)= 355这是一个容量为这是一个容

18、量为5的样本,经排序可得有序样本:的样本,经排序可得有序样本:故其经验分布函数为故其经验分布函数为第第2525页页定理定理5.2.1 设设 是取自总体分布函数为是取自总体分布函数为F(x)的的样本,样本, 为其经验分布函数,当为其经验分布函数,当 时,有时,有更深刻的结论:格里纹科定理更深刻的结论:格里纹科定理由由伯努里大数定律:伯努里大数定律:两点分布,只要两点分布,只要 n 相当大,相当大,Fn(x)依概率收敛于依概率收敛于F(x) 。 格里纹科定理表明:格里纹科定理表明:当当n 相当大时,经验分布函相当大时,经验分布函数是总体分布函数数是总体分布函数F(x)的一个良好的近似。的一个良好的

19、近似。经典的统计学中一切统计推断都以样本为依据,经典的统计学中一切统计推断都以样本为依据,其理由就在于此。其理由就在于此。 160 196 164 148 170 175 178 166 181 162 161 168 166 162 172 156 170 157 162 1545.2.2 频数频数-频率分布表频率分布表样本数据的整理是统计研究的基础,整理数据的最样本数据的整理是统计研究的基础,整理数据的最常用方法之一是给出其常用方法之一是给出其频数分布表频数分布表或或频率分布表频率分布表。例例5.2.2 为研究某厂工人生产某种产品的能力,为研究某厂工人生产某种产品的能力, 我们随机调查了我

20、们随机调查了20位工人某天生产的该种产品位工人某天生产的该种产品 的数量,数据如下的数量,数据如下(1) 对样本进行分组:对样本进行分组:作为一般性的原则,组数通作为一般性的原则,组数通 常在常在520个,对容量较小的样本个,对容量较小的样本; ;(2) 确定每组组距:确定每组组距:近似公式为近似公式为组距组距d = (最大观测值最大观测值 最小观测值最小观测值)/组数组数; ;(3) 确定每组组限确定每组组限: 各组区间端点为各组区间端点为a0, a1=a0+d, a2=a0+2d, , ak=a0+kd, , 形成如下的分组区间形成如下的分组区间(a0 , a1 , (a1, a2, ,

21、(ak-1 , ak对这对这20个数据个数据(样本样本)进行整理进行整理,具体步骤如下具体步骤如下:其中其中a0 略小于最小观测值略小于最小观测值, , ak 略大于最大观测值略大于最大观测值. . (4) 统计样本数据落入每个区间的个数统计样本数据落入每个区间的个数频数,频数, 并列出其频数频率分布表。并列出其频数频率分布表。表表5.2.1 例例5.2.2 的频数频率分布表的频数频率分布表 组序组序 分组区间分组区间 组中值组中值 频数频数 频率频率 累计频率累计频率(%) 1 ( (147,157 152 4 0.20 20 2 ( (157,167 162 8 0.40 60 60 3

22、( (167,177 1 172 5 0.25 85 4 ( (177,187 182 2 0.10 95 5 (187,197 192 1 0.05 100合计合计 20 15.2.3 样本数据的图形显示样本数据的图形显示一、直方图一、直方图直方图是频数分布的图形表示,它的横坐标直方图是频数分布的图形表示,它的横坐标表示所关心变量的取值区间表示所关心变量的取值区间,纵坐标有三种纵坐标有三种表示方法:表示方法:频数,频率频数,频率,最准确的是最准确的是频率频率/组距组距,它可使得诸长条矩形面积和为它可使得诸长条矩形面积和为1。凡凡此三种直方图的差别仅在于纵轴刻度的选择,此三种直方图的差别仅在于

23、纵轴刻度的选择,直方图本身并无变化。直方图本身并无变化。把每一个数值分为两部分,前面一部分(百把每一个数值分为两部分,前面一部分(百位和十位)称为位和十位)称为茎茎,后面部分(个位)称为后面部分(个位)称为叶叶,然后画一条竖线,然后画一条竖线,在竖线的左侧写上茎,在竖线的左侧写上茎,右侧写上叶,就形成了茎叶图。右侧写上叶,就形成了茎叶图。如:如:二、茎叶图二、茎叶图数值数值 分开分开 茎茎 和和 叶叶 112 11 | 2 11 和和 2例例5.2.3 某公司对应聘人员进行能力测试,测试某公司对应聘人员进行能力测试,测试 成绩总分为成绩总分为 150分。下面是分。下面是50位应聘人员的测位应聘

24、人员的测 试成绩(已经过排序):试成绩(已经过排序):64677072747676798081828283858688919192939393959595979799100 100102 104 106 106 107 108 108 112 112 114116 118 119 119 122 123 125 126 128 133我们用这批数据给出一个茎叶图,见下页。我们用这批数据给出一个茎叶图,见下页。图图5.2.3 测试成绩的茎叶图测试成绩的茎叶图6 4 77 0 2 4 6 6 98 0 1 2 2 3 5 6 8 9 1 1 2 3 3 3 5 6 6 7 7 910 0 0 2

25、4 6 6 7 8 811 2 2 4 6 8 9 912 2 3 5 6 813 3 在要比较两组样本时,在要比较两组样本时,可画出它们的可画出它们的背靠背的茎叶图背靠背的茎叶图。甲车间甲车间 6 2 0 5 6 乙车间乙车间8 7 7 7 5 5 5 4 2 1 1 6 6 7 7 8 8 8 7 7 6 6 4 4 2 1 7 2 2 4 5 5 5 5 6 6 6 8 8 9 8 7 6 6 5 3 2 8 0 1 1 3 3 3 4 4 4 6 6 7 7 8 7 3 2 1 0 9 0 2 3 5 8 5 3 0 0 10 7 注意:注意:茎叶图保留数据中全部信息。当样本量较茎叶图

26、保留数据中全部信息。当样本量较 大,数据很分散,横跨二、三个数量级时,大,数据很分散,横跨二、三个数量级时, 茎叶图并不适用。茎叶图并不适用。作业:作业:P261 2P261 2、7 75.3.1 统计量与抽样分布统计量与抽样分布5.3 统计量及其分布统计量及其分布当人们需要从样本获得对总体各种参数的认识当人们需要从样本获得对总体各种参数的认识时,最好的方法是构造样本的函数,不同的函时,最好的方法是构造样本的函数,不同的函数反映总体的不同特征。数反映总体的不同特征。定义定义5.3.1 设设 x1, x2, , xn 为取自某总体的样为取自某总体的样 本,若样本函数本,若样本函数T = T(x1

27、, x2, , xn)中不含有中不含有任任 何未知参数。则称何未知参数。则称T为为统计量统计量。统计量的分布统计量的分布 称为称为抽样分布抽样分布。按照这一定义:若按照这一定义:若 x1, x2, , xn 为为样样本,本,则则 以及经验分布函数以及经验分布函数Fn(x)都是统计量。都是统计量。而当而当 , 2 未未知知时,时,x1 , x1/ 等均不是统计量。等均不是统计量。尽管统计量不依赖于未知参数,但是它的分布尽管统计量不依赖于未知参数,但是它的分布一般是依赖于未知参数的。一般是依赖于未知参数的。下面介绍一些常见的统计量及其抽样分布。下面介绍一些常见的统计量及其抽样分布。5.3.2 样本

28、均值及其抽样分布样本均值及其抽样分布 定义5.3.2 设设 x1, x2, , xn为取自某为取自某总体的样本,其算术平均值称为总体的样本,其算术平均值称为样本均样本均值值,一般用,一般用 表示,即表示,即思考:思考:在分组样本场合,样本均值如何计算?在分组样本场合,样本均值如何计算? 二者结果相同吗?二者结果相同吗? xx= (x1+xn)/n注意:样本均值是一个注意:样本均值是一个随机变量,应理解为:随机变量,应理解为:定理定理5.3.2 数据观测值与均值的偏差平方和数据观测值与均值的偏差平方和 最小,即在形如最小,即在形如 (xi c)2 的函数中的函数中,样本均值的基本性质:样本均值的

29、基本性质:定理定理5.3.1 若把样本中的数据与样本均值之差若把样本中的数据与样本均值之差 称为称为偏差偏差,则样本所有偏差之和为则样本所有偏差之和为0,即即 最小,其中最小,其中c为任意给定常数。为任意给定常数。证明:板述证明:板述例例5.3.2:见书:见书(2) 若总体分布未知或不是正态分布,若总体分布未知或不是正态分布,(3) 但但 E(x)= , Var(x)= 2, ,则则n 较大时较大时 的的渐渐近分近分(4) 布布为为N( , 2/n) , ,常记为常记为 。样本均值的抽样分布:样本均值的抽样分布:定理定理5.3.3 设设x1, x2, , xn 是来自某个总体的样本,是来自某个

30、总体的样本,x为样本均值。为样本均值。(1) 若总体分布为若总体分布为N( , 2),则则xx的的精确分精确分布布为为N( , 2/n) ;这里渐近分布是指这里渐近分布是指n 较大时的近似分布较大时的近似分布. .例:例:5.3.3 :见书:见书5.3.3 样本方差与样本标准差样本方差与样本标准差称为称为样本标样本标准准准准差差。s*= s*2定义定义5.3.3称为称为样本方差样本方差,其算术平方根其算术平方根在在n 不大时,常用不大时,常用 作为样本方作为样本方差差,其算术平方根也称为样本其算术平方根也称为样本标准差。标准差。在这个定义中,在这个定义中, ( xi x )2n 1称为偏差平方

31、和的称为偏差平方和的自由度自由度。其含义是:其含义是:x在在 确定后确定后, , n 个偏差个偏差x1 x, x2 x, , xn x能自由取值,因能自由取值,因为为只有只有n 1个数据可以自由变动,而第个数据可以自由变动,而第n个则不个则不 (xi x ) = 0 . .称为称为偏差平方和偏差平方和,中中样本偏差平方和有三个不同的表达式:样本偏差平方和有三个不同的表达式: ( xi x )2 = xi2 ( xi)2/n = xi2 nx它们都可用来计算样本方差。它们都可用来计算样本方差。思考:思考:分组样本如何计算样本方差?分组样本如何计算样本方差?以下定理表明:样本均值的数学期望和方差,

32、以及以下定理表明:样本均值的数学期望和方差,以及样本方差的数学期望都不依赖于总体的分布形式。样本方差的数学期望都不依赖于总体的分布形式。定理定理5.3.4 设总体设总体 X 具有二阶矩,即具有二阶矩,即 E(x)= , Var(x)= 2 , , , , x1, x2, , xn 为从该总体得到的样本,为从该总体得到的样本,x和和s2 分别是样本均值和样本方差,则分别是样本均值和样本方差,则E( x )= , , Var( x )= 2 /n, E(s2) = 2 证明:板述证明:板述5.3.4 样本矩及其函数样本矩及其函数 样本均值和样本方差的更一般的推广是样本样本均值和样本方差的更一般的推

33、广是样本矩,这是一类常见的统计量。矩,这是一类常见的统计量。定义定义5.3.4 ak = ( xik)/n 称为称为样本样本 k 阶原点矩,阶原点矩, 特别,样本一阶原点矩就是样本均值。特别,样本一阶原点矩就是样本均值。 称为称为样本样本k阶中心阶中心矩矩。 特别,样本二阶中心矩就是样本方差。特别,样本二阶中心矩就是样本方差。 bk = (xi x)k/n当总体关于分布中心对称时,我们用当总体关于分布中心对称时,我们用x和和 s刻画样本特征很有代表性,而当其不对称时,刻画样本特征很有代表性,而当其不对称时,只用只用 就显得很不够。为此,需要一些刻画就显得很不够。为此,需要一些刻画分布形状的统计

34、量,如分布形状的统计量,如样本偏度样本偏度和和样本峰度样本峰度,它它们都是样本中心矩的函数。们都是样本中心矩的函数。样本偏度样本偏度 1反映了总体分布密度曲线的对称性信息。反映了总体分布密度曲线的对称性信息。样本峰度样本峰度 2反映了总体分布密度曲线在其峰值附近反映了总体分布密度曲线在其峰值附近的陡峭程度。的陡峭程度。定义:定义: 1 = b3/b23/2 称为称为样本偏度样本偏度, 2 = b4/b22-3 称为称为样本峰度样本峰度。x和和 s图见书中图图见书中图5.3.45.3.5 次序统计量及其分布次序统计量及其分布 另一类常见的统计量是另一类常见的统计量是次序统计量次序统计量。一、一、

35、定义定义5.3.7 设设 x1, x2, , xn 是取自总体是取自总体X的样的样本本, , x(i) 称为该样本的第称为该样本的第i 个个次序统计量次序统计量,它的取值,它的取值 是将样本观测值由小是将样本观测值由小到大排列后得到的第到大排列后得到的第 i 个个 观测值。其中观测值。其中x(1)=min x1, x2, xn 称为该称为该样本样本 的的最小次序统计量最小次序统计量,称称 x(n)=max x1,x2,xn 为为 该样本的该样本的最大次序统计量最大次序统计量。在一个样本中,在一个样本中,x1, x2,xn 是独立同分布的,是独立同分布的,而次序统计而次序统计量量 x(1), x

36、(2), x(n) 则既不独立,分则既不独立,分布也不相同,看下例。布也不相同,看下例。现从中抽取容量为现从中抽取容量为3的样本,其一切可能取值有的样本,其一切可能取值有33=27种,表种,表5.3.6列出了这些值,由此列出了这些值,由此例例5.3.6 设总体设总体X 的分布为仅取的分布为仅取0,1,2的离的离散均匀分布,分布列为散均匀分布,分布列为x012p1/31/31/3 0 1 2 0 1 2我们可以清楚地看到这三个次序统计量的分布是我们可以清楚地看到这三个次序统计量的分布是不相同的。不相同的。可给出的可给出的 x(1) , x(2), x(3) 分布列分布列如下:如下: 0 1 2进

37、进一一步步,我我们们可可以以给给出出两两个个次次序序统统计计量量的的联联合合分布,如,分布,如,x(1) 和和x(2) 的联合分布列为的联合分布列为01207/279/273/27104/273/272001/27x(1)x(2)因为因为 P(x(1) = 0, x(2) = 0) =7/27 ,而而 P( x(1) = 0)*P( x(2) = 0) = (19/27)*(7/27),二者不等,由此可看出二者不等,由此可看出x(1) 和和 x(2)是不独立的是不独立的。二、单个次序统计量的分布二、单个次序统计量的分布定理定理5.3.5 设总体设总体X的密度函数为的密度函数为p(x),分,分布

38、函数为布函数为F(x), x1, x2, xn为样本,则为样本,则第第k个次序统计量个次序统计量x(k)的密度函数为的密度函数为例例5.3.7 设总体密度函数为设总体密度函数为 p(x)=3x2, 0 x 1. 从该总体抽得一个容量为从该总体抽得一个容量为5的样本,的样本, 试计算试计算 P(x(2) 1/2)。例例5.3.8 设总体分布为设总体分布为U(0,1), x1, x2, xn为为样样 本,试求第本,试求第 k 个次序统计量的分布。个次序统计量的分布。三、多个次序统计量的联合分布三、多个次序统计量的联合分布对任意多个次序统计量可给出其联合对任意多个次序统计量可给出其联合分分布,布,以

39、两个为例说明:以两个为例说明:定理定理5.3.6 在定理在定理5.3.5的记号下,次序统计的记号下,次序统计 量量 (x(i), x(j), (i j) 的联合分布密度函的联合分布密度函数为数为次序统计量的函数在实际中经常用到。次序统计量的函数在实际中经常用到。如如 样本极差样本极差 Rn = x(n) x(1), 样本中程样本中程 x(n) x(1) /2。样本极差样本极差是一个很常用的统计量,其分布是一个很常用的统计量,其分布只在很少几种场合可用初等函数表示。只在很少几种场合可用初等函数表示。令令 R = x(n) x(1) ,由,由 R 0, 可以推出可以推出0 x(1) = x(n)

40、R 1 R ,则则例例5.3.9 设总体分布为设总体分布为U(0,1), x1, x2, xn 为为 样本,则样本,则(x(n), x(1)的联合密度函数的联合密度函数为为p1,n(y,z)=n(n 1)(z y)n-2, 0 y z 1这正是参数为这正是参数为(n 1, 2)的贝塔分布。的贝塔分布。作业:作业:P279 8P279 8、20205.4 三大抽样分布三大抽样分布有很多统计推断是基于正态分布的假设的,有很多统计推断是基于正态分布的假设的,以标准正态变量为基石而构造的三个著名以标准正态变量为基石而构造的三个著名统计量在实际中有广泛的应用,这是因为统计量在实际中有广泛的应用,这是因为

41、这三个统计量不仅有明确背景,而且其抽这三个统计量不仅有明确背景,而且其抽样分布的密度函数有明显表达式,它们被样分布的密度函数有明显表达式,它们被称为统计中的称为统计中的“ 三大抽样分布三大抽样分布 ” 。5.4.1 2 分布分布(卡方分布卡方分布)定义定义5.4.1 设设 X1, X2, Xn, 独立同分布于标独立同分布于标准准 正态分布正态分布N(0,1) ,则,则 2= X12+ Xn2的分布称的分布称 为为自由度为自由度为n 的的 2分布分布,记为,记为 2 2(n) 。自由度是指独立随机变量的个数,常记为自由度是指独立随机变量的个数,常记为 分布的密度函数为分布的密度函数为 该密度函该

42、密度函数的图像数的图像是一只取是一只取非负值的非负值的偏态分布偏态分布 当随机变量当随机变量 2 2 2 2( (n n) ) 时,对给定时,对给定 (0 1),称称满足满足 P( 2 2 1 1 2 2( (n n) ) 的的 1 1 2 2( (n n) ) 是是自由度为自由度为n的的卡方分布的卡方分布的1 分位数分位数. .分位数分位数 1 1 2 2( (n n) ) 可以从附可以从附表表3 中查到。中查到。显然,在自由度显然,在自由度n取定以后,取定以后, 的值只与的值只与 有关有关. 例如,当例如,当n=21, =0.05时,由附表时,由附表3(P425)可查得,可查得,32.67

43、06即即xp(y)O 例例 设总体设总体X N( ,22) , 从总体从总体X中抽取容量中抽取容量为为16的样本的样本X1,X2,X16.如果已知如果已知 =0,求,求 的概率;的概率;5.4.2 F 分布分布定义定义5.4.2 设设X1 2(m), X2 2(n), X1与与X2独立,独立, 则称则称 F =(X1/m)/(X2/n) 的分布是的分布是自由度为自由度为 m 与与 n 的的 F分布分布,记为记为F F(m, n),其中其中m 称为分子自称为分子自 由度由度,n 称为分母自由度。称为分母自由度。其中其中F F分布的密度函数为分布的密度函数为: : 该密度该密度函数的函数的图象也图

44、象也是一只是一只取非负取非负值的偏值的偏态分布态分布 当随机变量当随机变量F F(m,n) 时,对给定时,对给定 (0 1) ,称满足,称满足 P(F F1 (m,n) =1 的的F1 (m,n) 是是自由度为自由度为m 与与 n 的的F 分布的分布的1 分位数分位数。一个有用的结论:一个有用的结论: F (n,m) = 1/F1 (m,n)。p(y)xO F1- (m, n) F1- (m,n)的值可由的值可由F 分布表查得分布表查得. 附表附表5(P431P434 )分分 =0.1、 =0.05、 =0.025 、 =0.01给出了给出了F分布的分布的1- 分位数分位数. 如当如当m=2,

45、 n=18时,时,,对对 =0.01有有F1-0.01(2, 18)= F0.99(2, 18) =6.01 在附表在附表5中所列的中所列的 值都比较小,当值都比较小,当 较大较大时,可用下面公式时,可用下面公式 查表时应先找到相应的查表时应先找到相应的 值值的表的表.例如,例如,0.166F1- (2, 18)=解解因为因为所以所以F(3,n- -3). 例例 设总体设总体XN(0,1), X1,X2,Xn为简单随为简单随机样本,试问以下统计量服从什么分布?机样本,试问以下统计量服从什么分布?且且与与相互独立相互独立5.4.3 t 分布分布 定义定义 5.4.3 设随机变量设随机变量X1 与

46、与X2 独立,独立, 且且X1 N(0,1), X2 2(n), , 则称则称的分布为的分布为自由度为自由度为n 的的t 分布分布,记为,记为t t(n) 。 t分布的概率密度函数为分布的概率密度函数为 t 分布的密度函分布的密度函数的图象是一个数的图象是一个关于纵轴对称的关于纵轴对称的分布,与标准正分布,与标准正态分布的密度函态分布的密度函数形状类似数形状类似,只只是峰比标准正态是峰比标准正态分布低一些尾部分布低一些尾部的概率比标准正的概率比标准正态分布的大一些。态分布的大一些。 n 1时时, , t 分布的数学期望存在且为分布的数学期望存在且为0; n 2时时,t 分布的方差存在,且为分布

47、的方差存在,且为n/(n 2); 当自由度较大当自由度较大 (如如n 30) 时,时, t 分布可以用分布可以用 正态分布正态分布 N(0,1)近似。近似。 自由度为自由度为1的的 t 分布就是分布就是标准柯西分布标准柯西分布, 它的均值不存在;它的均值不存在;当随机变量当随机变量t t(n) 时,称满足时,称满足 P(t t1 (n) ) =1=1 的的 t1 (n) 是是自由度为自由度为 n 的的 t 分布的分布的1 1 分位数分位数. .分位数分位数 t1 (n) 可以从附表可以从附表4中查到。中查到。譬如譬如 n=10, , =0.05,那么从附表那么从附表4上查得上查得 t1 0.0

48、5(10) = t0.95(10)由于由于 t 分布的分布的密度函数关于密度函数关于0 对称对称, , 故其分位数故其分位数间有如下关系间有如下关系t (n 1)= t1 (n 1) p(t)tOt1- (n) =1.812 例例 设总体设总体XN(0,1), X1,X2,Xn为简单随为简单随机样本,试问下列统计量各服从什么分布?机样本,试问下列统计量各服从什么分布?解解(1) 因为因为XiN(0,1),i=1, 2, , n.且各且各Xi相互独立相互独立所以所以X1- -X2 N(0, 2),即,即有有t(2).又因为又因为与与相互独立,故根相互独立,故根据据t分布的定义分布的定义解解(2)

49、所以所以X1N(0,1),有有t(n- -1). 例例 设总体设总体XN(0,1), X1,X2,Xn为简单随为简单随机样本,试问下列统计量各服从什么分布?机样本,试问下列统计量各服从什么分布?因为因为XiN(0,1),i=1, 2, , n.且各且各Xi相互独立相互独立又因为又因为与与相互独立,故根据相互独立,故根据t分布的定义,分布的定义,作业:作业:P P292292 9 9、11115.4.4 一些重要结论一些重要结论定理定理5.4.1 设设 x1, x2, xn 是来自是来自N( , 2) 的的 样本,其样本均值和样本方差分别为样本,其样本均值和样本方差分别为和和x = xi/n s

50、2= (xi x)2/(n 1)(3) (n 1) s2/ 2 2(n 1)。 则有则有(1) x与与 s2 相互独立;相互独立;(2) x N( , 2/n) ;为为n维随机向量维随机向量 的的数学期望向量数学期望向量,简称为,简称为 的数学的数学期望,而称期望,而称定义定义 记记n维随机向量为维随机向量为 ,若其每个分量的数学期望都存在,则称若其每个分量的数学期望都存在,则称为该随机向量的为该随机向量的方差方差-协方差阵协方差阵,简称,简称协方差阵协方差阵,记为记为 。 定理定理5.4.4的证明:记的证明:记 则有:则有: 取一个取一个n维正交矩阵维正交矩阵A,其第一行元素均为,其第一行元

51、素均为 如:如: 令令 ,根据多维正态分布的性质知,根据多维正态分布的性质知Y仍服从仍服从n维正态分布,且维正态分布,且可以看出,可以看出, 的各个分量相互独立,且的各个分量相互独立,且都服从正态分布,其中都服从正态分布,其中(2)得证)得证又因为又因为且且故故从而从而又因为又因为 和和 相互独立,而相互独立,而且且 各分量相互独立,各分量相互独立,从而从而从而从而 与与 相互独立,相互独立,结论(结论(1)得证)得证。又因为。又因为结论(结论(3)得证)得证.从表面上看,从表面上看,是是n个正态随机变量个正态随机变量的平方和,的平方和,但实际上它们不是独立的,但实际上它们不是独立的,它们之间

52、有一种线性约束关系:它们之间有一种线性约束关系:=0这表明,当这这表明,当这n个正态随机变量中有个正态随机变量中有n- -1个取值给定时,剩下的个取值给定时,剩下的一个的取值就跟着唯一确定了,故在这一个的取值就跟着唯一确定了,故在这n项平方和中只有项平方和中只有n- -1项项是独立的是独立的. .所以(所以(3 3)的自由度是)的自由度是n- -1.关于(关于(3)的自由度的一些直观说明:)的自由度的一些直观说明:推论推论5.4.1设设(X1,X2,Xn)为来自正态总体为来自正态总体 XN( , 2)的样本,则统计量的样本,则统计量证证由于由于与与s 2相互独立,且相互独立,且 由定义得由定义

53、得推论推论5.4.2 设设 x1, x2, xn 是是来自来自N( 1, 12) 的样本,的样本,y1, y2, yn 是来自是来自N( 2, 22) 的样本,的样本, 且此两样本相互独立,则有且此两样本相互独立,则有特别,若特别,若 12 = 22 ,则,则F=sx2/sy2 F(m 1,n 1)推论推论5.4.3 在推论在推论5.4.2的记号下,设的记号下,设 12 = 22 = 2 , 并记并记则则例例 设总体设总体X N( , 2) ,从总体,从总体X中抽取容量中抽取容量为为9的样本,求样本均值与总体均值的样本,求样本均值与总体均值 之差的绝对之差的绝对值小于值小于2的概率,如果:的概

54、率,如果:(1)已知)已知 ;(2)未知)未知 ,但已知样本方差值,但已知样本方差值注意(注意(1)和()和(2)所用的统计量的区别)所用的统计量的区别例例 设总体设总体X N( ,22) , 从总体从总体X中抽取容量中抽取容量为为16的样本的样本X1,X2,X16.(1)如果已知)如果已知 =0,求,求 的概率;的概率;(2)如果未知)如果未知 ,求,求 的概率;的概率;注意(注意(1)和()和(2)所用的统计量的区别)所用的统计量的区别例例设总体设总体XN( , 42), X1,X2,X10是是n=10简简单随机样本,单随机样本, s2为样本方差,已知为样本方差,已知Ps2 =0.1,求求

55、 .解解 因为因为n=10,n- -1=9, 2=42,所以所以 2(9).又又Ps2 =0.1,所以所以=查查表表14.6837.故故 14.6837x26.1055.5 充分统计量充分统计量5.5.1 充分性的概念充分性的概念例例5.5.1 为研究某个运动员的打靶命中率,我们为研究某个运动员的打靶命中率,我们 对该运动员进行测试,观测其对该运动员进行测试,观测其10次,发现除第次,发现除第 三、六次未命中外,其余三、六次未命中外,其余8次都命中。这样的次都命中。这样的 观测结果包含了观测结果包含了两两种信息:种信息:(1) 打靶打靶10次命中次命中8次;次;(2) 2次不命中分别出现在第次

56、不命中分别出现在第3次和第次和第6次次 打靶上。打靶上。第二种信息对了解该运动员的命中率是没第二种信息对了解该运动员的命中率是没有什有什么帮助的。一般地,设我们对该运动员进行么帮助的。一般地,设我们对该运动员进行n 次次观测,得到观测,得到 x1, x2, xn,每个每个xj 取取值非值非0即即1,命中为命中为1,不命中为,不命中为0。令。令 T = x1+xn ,T为观为观测到的命中次数。在这种场合仅仅记录使用测到的命中次数。在这种场合仅仅记录使用T 不会丢失任何与命中率不会丢失任何与命中率 有关的信息,统计上有关的信息,统计上将这种将这种“样本加工不损失信息样本加工不损失信息”称为称为“充

57、分性充分性”。样样本本 x=(x1,x2,xn) 有一个样本分布有一个样本分布F (x),这个分布包含了样本中一这个分布包含了样本中一切有关切有关 的信息。的信息。统计量统计量T =T (x1,x2,xn) 也有一个抽样分也有一个抽样分布布F T(t) ,当我们期望用统计量当我们期望用统计量T 代替原代替原始样本并且不损失任何有关始样本并且不损失任何有关 的信息时,的信息时,也就是期望抽样分布也就是期望抽样分布 F T(t) 像像 F (x) 一一样概括了有关样概括了有关 的一切信息,这即是说在的一切信息,这即是说在统计量统计量 T 的取值为的取值为 t 的情况下样本的情况下样本 x 的条件分

58、布的条件分布 F (x|T=t) 已不含已不含 的信息,这正是统计的信息,这正是统计量具有充分性的含义。量具有充分性的含义。这这 与与 无关无关定义定义5.5.1 设设 x1, x2, , xn 是来自某个总是来自某个总体体 的样本,总体分布函数为的样本,总体分布函数为F ( x ; ),统,统计计 量量 T = T(x1, x2, , xn) 称为称为 的的充分统充分统计计 量量,如果在给定如果在给定T 的取值后,的取值后,x1, x2, xn 的条件分布与的条件分布与 无关无关. .例例 5.5.3定理:设随机向量定理:设随机向量(x1, x2, , xn )的分布密度是的分布密度是 p(

59、x1, x2, , xn ) , T(x1, x2, , xn )是是(x1, x2, , xn ) 的一个函数,且的一个函数,且T的分的分布密度为布密度为g(y) ,则,则(x1, x2, , xn ) 关于关于T 的条件密度为:的条件密度为:5.5.2 因子分解定理因子分解定理充分性原则:充分性原则: 在统计学中有一个在统计学中有一个 基本原则基本原则-在充分在充分统计量存在的场合,任何统计推断都可以基于充分统统计量存在的场合,任何统计推断都可以基于充分统计量进行,这可以简化统计推断的程序。计量进行,这可以简化统计推断的程序。定理定理5.5.1 设总体概率函数为设总体概率函数为 f(x ;

60、 ), X1, , Xn 为样本,则为样本,则 T=T(X1, Xn) 为充分统计量的充分为充分统计量的充分 必要条件必要条件是:存在是:存在两两个函数个函数g(t, )和和h(x1, , xn), 使得对任意的使得对任意的 和任一组观测值和任一组观测值 x1, x2, xn,有有p(x1, x2, xn, ) =g(T(x1,x2,xn), )h(x1,x2,xn) (5.5.1)其中其中g(t, )是通过统计量是通过统计量 T 的取值而依赖于样本的取值而依赖于样本的。的。例例5.5.4 设设x1, x2, , xn是取自总体是取自总体U(0, )的样本,的样本, 即总体的密度函数为即总体的

61、密度函数为p(x ; )=1/ , 0 , 0 x 0 ,0 ,其他其他于是样本的联合密度函数为于是样本的联合密度函数为p(x1; )p(xn; )=0, 其它其它 (1/ )n, 0 min ximax xi 由于诸由于诸xi 0,所以我们可将上式改写为,所以我们可将上式改写为p(x1; )p(xn; ) = (1/ )nI x(n) 取取T =x(n),并令,并令 g(t ; )= (1/ ) )n nI I t t , , h(x)=1,由因子分解定理知由因子分解定理知T =x(n) 是是 的充分统计量。的充分统计量。例例5.5.5 设设x1, x2, , xn 是是取自总体取自总体N(

62、 , 2)的样的样 本本, , =( , 2)是未知的,则联合密度函数为是未知的,则联合密度函数为取取 t1= xi , t2= xi2, 并令并令g(t1, t2, ) = (2 2)-n/2exp -n 2/(2 2) exp (t2 2 t1)/( 2 2) , ,其中其中 h(x)=1=1,由因子分解定理,由因子分解定理,T=( xi , xi2) 是充分统计量。是充分统计量。 是一一对应的,这说明在正态总体场合是一一对应的,这说明在正态总体场合 常用的常用的进一步,我们指出这个统计量与进一步,我们指出这个统计量与 (x, s2 )( x , s2 )是充分统计量。是充分统计量。练习题:练习题:1. 设设x1, x2, x3, x4 是是取自总体取自总体N(0, 22)的简单随机样的简单随机样本本, ,求求a,ba,b, ,使得使得X X服从卡方分布,并指出自由度。服从卡方分布,并指出自由度。2.设设x1, x2, , x9是来自正态总体的简单随机样本,是来自正态总体的简单随机样本,试求统计量试求统计量Z Z的分布。的分布。第第9393页页3. 设总体设总体X X服从正态分布服从正态分布 从该那个抽取简单从该那个抽取简单随机样本随机样本 x1, x2, , x2n,样本均值为,样本均值为求统计量求统计量 的数学期望的数学期望

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号