统计量与抽样分布

上传人:pu****.1 文档编号:457790485 上传时间:2022-10-09 格式:DOCX 页数:33 大小:159.57KB
返回 下载 相关 举报
统计量与抽样分布_第1页
第1页 / 共33页
统计量与抽样分布_第2页
第2页 / 共33页
统计量与抽样分布_第3页
第3页 / 共33页
统计量与抽样分布_第4页
第4页 / 共33页
统计量与抽样分布_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《统计量与抽样分布》由会员分享,可在线阅读,更多相关《统计量与抽样分布(33页珍藏版)》请在金锄头文库上搜索。

1、第 1 章 统计量与抽样分布数理统计是具有广泛应用的一个数学分支,它以概率论为理论基础,根据试 验或观察得到的数据,来研究随机现象,对研究对象的客观规律性作出种种合理 的估计和判断。数理统计的内容包括:如何收集、整理数据资料;如何对所得的数据资 料进行分析、研究,从而对所研究的对象的性质、特点作出推断。后者就是我们 所说的统计推断问题。本书只讲述统计推断的基本内容。在概率论中,我们所研究的随机变量,它的分布都是假设已知的,在这一前 提下去研究它的性质、特点和规律性,例如求出它的数字特征,讨论随机变量函 数的分布,介绍常用的各种分布等。在数理统计中,我们研究的随机变量,它的 分布是未知的,或者是

2、不完全知道的,人们是通过对所研究的随机变量进行重复 独立的观察,得到许多观察值,对这些数据进行分析,从而对所研究的随机变量 的分布作出种种推断的。1.1 基本概念1.1.1 总体与个体在统计学中,将我们研究的问题所涉及的对象的全体称为总体,而把总体中的每个成员 称为个体。这是一个比较形象的说法。例如:我们研究一家工厂的某种产品的废品率,这种 产品就是我们的总体,而每件产品则是个体。又如把某市每户居民人数的全体看成总体,一 户的人数便是个体。再如研究电大学生学习“高等数学”的期末考试成绩情况,全体学员的 期末考试成绩构成总体,而每个学员的成绩则为个体。个体与总体就好像集合论中的元素与 集合之间的

3、关系。这里所讲的产品的废品率、居民户的人数、学员的考试成绩,它们的取值 都是不同的,即每个个体所取的值是不同的。在试验中抽取某个个体所观察得到的数值 X 就 是一个随机变量,因而我们用X的分布去描述总体分布情况。以后我们把总体与随机变量 X可能取值的全体所组成的集合等同起来,并把随机变量X的分布称为总体的分布,即总 体分布就是设定的表示总体的随机变量X的分布。总体的分布一般说来是未知的,有时虽 已知总体分布的类型(如正态分布),但不知道分布中所含的参数,有时连分布所属的类型 也不能肯定。统计学的任务就是对总体的未知分布进行推断。1.1.2 总体与样本前面指出,作为统计研究对象的总体的分布一般来

4、说是未知的。为了获得对总体分布 的知识,一般的方法是对总体进行抽样观察。通常的做法是从它的全部产品中随机地抽取一 些样品,在统计学上称为样本。例1.1.1研究某地区N个农户的年收入。在这里,总体即指这N个农户,如果我们 从这N个农户中随机地抽出n个农户作为调查对象,那么,n个农户他们年收入的n个数字 就是样本。 在上面的例子中,总体是很直观的,是看得见,摸得着的。但是客观情况并不总是这 样。例1.1.2用一把尺子去量一个物体的长度,假定n次测量值为X , X,,X。12 n显然,在这个问题中,我们把测量值X ,X,,X看成了样本,但是,总体是什么呢?12 n事实上,这里没有一个现实存在的个体的

5、集合可以作为我们的总体。可是,我们可以这样考 虑,既然n个测量值X ,X,,X是样本,那么总体就应该理解为一切所有可能的测量值 12 n的全体。这种类型的总体的例子不胜枚举。例如:为研究某种安眠药的药效,让n个病人同时服用此药,记录下他们各自服药后的睡眠时间比未服药前延长的小时数X ,X,,X。这12 n些数字就是样本。总体就是设想让某个地区或某个国家,甚至全世界所有患失眠症的病人都 服用此药,他们所增加的睡眠时间的小时数的全体,就是该问题中的总体。例1.1.3在例1.1.1 中,若农户年收入以万元计,假定N户中收入X为:0.5, 0.8,1, 1.2, 1.5的农户个数分别为n1,n2,n3

6、,n4,n5,这里n1+n2+n3+n4+n5=N,则总体X的 分布为离散型分布,其分布律为X0.50.811.21.5pi“1 NnNnNnNn 5- N例1.1.4在例1.1.2中,假定物体的真正长度为卩(未知)。一般说来测量值X,也就 是我们的总体,取卩附近值的概率要大一些,而离卩愈远的值被取到的概率就小一些。如 果测量过程没有系统性误差,那么X取大于卩和小于卩的概率也会相等。在这样的情况下, 人们往往认为X服从均值为卩的正态分布。假定其方差为 2,则 2反映了测量的精度。于是,总体X的分布为N (卩Q2),记为XN (卩Q2)。这里有一个问题,即物体长度的测量值总是在它的真正长度卩的附

7、近,它根 本不可能取到负值,而随机变量取值在(-,+-)上,那么怎么可以认为测量值 服从正态分布呢?要回答这个问题,需要用到正态分布的一条性质。对于正态变量X N (卩,b 2)p|Li - 3b X 99.7%即X落在区间(y-3b,卩+ 3b)之外的概率不超过0.003,可见这个概率是非常小 的。显然X落在(卩-46卩+ 4c )之外的概率也就更小了。比如,假定物体长度卩=10厘米,测量误差约为0.01厘米,则6 2二0.012 , 这时,(卩-36卩+ 36) = (9.9997,10.0003),于是测量值落在这个区间之外的 概率最多只有0.003,可以忽略不计。可见,用正态分布n (

8、10,0.012)去描述测 量值是适当的。另外,正态分布取值范围是无限区间(-,+-),还可以解决规定测量值取 值范围上的困难。如若不然,我们用一个定义在有限区间(a和b )的随机变量 来描述测量值,那么a和b到底取什么值,测量者事先很难确定。再退一步,即 便我们能够确定出a和b,却仍很难找出一个定义在(a和b )上的非均匀分布 能够用来恰当地描述测量值,与其这样,还不如我们干脆就把取值区间放大到(- -,+-),并采用正态分布去描述测量值,这样既简化了问题又不致引起较大的 误差。如果总体所包含的个体数量是有限的,则称该总体为有限总体,其分布是离散型的, 如例 1.1.3。如果总体所包含的个体

9、数量是无限的,则称该总体为无限总体,其分布可以是 连续型的,如例1.1.4。在数理统计中,研究有限总体比较困难,因为它的分布是离散型的 且分布律与总体所含个体数量有关系。所以,通常在总体所含个体数量比较大时,我们就把 它近似地视为无限总体,并且用连续型分布去逼近总体的分布,这样便于做进一步的统计分 析。例如,我们研究某大城市年龄在1 到 10 岁之间儿童的身高。显然,不管这个城市规模 有多大,在这个年龄段的儿童数量总是有限的。因此,这个总体只能是有限总体。总体分布 也只能是离散型分布。然而,为了便于处理问题,我们可以把它近似地看成一个无限总体, 并且通常用正态分布来逼近这个总体的分布。当城市比

10、较大,儿童数量比较多时,这种逼近 所带来的误差,从应用观点来看,可以忽略不计。1.1.3 样本的二重性样本的一个重要性质是它的二重性。假设X ,X,,X是从总体X中抽取的样本,在1 2 n一次具体的观测或试验中,它们是一批测量值,是一些已知的数。这就是说,样本具有数的 属性。这一点比较容易理解。但是,另一方面,由于在具体的试验或观测中,受到各种随机 因素的影响,在不同的观测中样本取值可能不同。因此,当脱离开特定的具体试验或观测时,我们并不知道样本X ,X,,X的具体取值到底是多少,因此,可以把它们看成随机变量。1 2 n这时,样本就具有随机变量的属性。样本X ,X,,X既可被看成数又可被看成随

11、机变量,1 2 n 这就是所谓的样本二重性。这里需要特别强调的是,以后凡是我们离开具体的一次观测或试 验来谈及样本X ,X,,X时,它们总是被看成随机变量,关于样本的这个基本的认识对1 2 n理解后面的内容十分重要。既然样本X1,X ,X被看作随机变量,自然就需要研究它们的分布。在前面测量物1 2 n体长度的例子中,如果我们是在完全相同的条件下,独立地测量了 n次,把这n次测量结果, 即样本记为 X , X , X ,那么我们完全有理由认为,这些样本相互独立且有相同分布,12n其分布与总体分布N(2)相同。推广到一般情况,如果我们在相同条件下对总体X进行n次重复的独立观测,那么都可以认为所获得

12、的样本X ,X,,X是独立同分布的变量,12n这样的样本称为简单随机样本,简称为样本。在统计文献中,通常把n称为样本大小,或样 本容量,或样本数,而把 X ,X,,X称为一组容量为n的样本或一个样本(这是把12nX ,X,X看成一个整体)。12n1.2 充分统计量与完备统计量1.2.1 样本的联合分布函数为了今后讨论方便,我们约定,以大写英文字母X表示随机变量,而以相应的小写英i文字母X表示它的观察值,并称样本X ,X,,X的一组具体的观察值X ,x,,x为样i12n12 n本值,全体样本值组成的集合称为样本空间。设总体X的分布函数为F(x),则由前面知识,我们知道样本乂 ,X,,X的分布函1

13、2n数为F(x ,x,,x )=刃F(x )12 nii=1并称之为样本的联合分布函数。假设总体X具有概率密度函数f (x),则由于样本X ,X,,X是相互独立且与X12n同分布,于是样本的联合概率密度函数为g(x , x,,x ) = H f (x ) o12 nii=1例1.2.1假设某大城市居民的收入服从正态分布N( R ,b 2),其概率密度函数为1 _ (x-卩)2f (x) =e _ 20 2 ,( _g x +8)J2g丿现从中随机抽取一组样本X ,X,,X,因为它们相互独立,且都与总体同分布,即1 2 nX N(PQ2), i 二 1,2,n。 i于是样本X ,X,,X的联合概

14、率密度为12 ng (l, 3,n )二(27工(x厂口)2_ 71e20 2在数理统计中,总体或者说总体分布是我们研究的目标,而样本是从总体中随机抽取的 一部分个体。通过对这些个体(即样本)进行具体的研究,我们所得到的统计结论以及对这些 结论的统计解释,都反映或体现着总体的信息,也就是说,这些信息是对总体而言的。因此, 我们总是着眼于总体,而着手于样本,用样本去推断总体。这种由已知推断未知,用具体推 断抽象的思想,对我们后面的学习和研究是大有裨益的。1.2.2 统计量在获得了样本之后,下一步我们就要对样本进行统计分析,也就是对样本进行加工、 整理,从中提取有用信息。例如,当我们把一个长度为卩

15、的物体测量了 n次,获得了一组 样本X , X,,X后,往往计算它们的算术平均值X=1LX : n,用来作为卩的估计,这12nii=1X就是对样本X ,X,,X进行加工处理后得到的一个量,在统计学上称为统计量。12n一般,我们把样本的函数称为统计量,它只依赖于样本,而不能包含问题中的任何未 知量。因此,一旦有了样本,就可以算出统计量。例如在上面讨论的测量物体长度的例子中, X就是一个统计量,但X-R就不是统计量,因为后者包含了待估计的未知量卩。统计是 用来对总体分布参数作估计或检验的,因此它应该包含了样本中有关参数的尽可能多的信 息,在统计学中,根据不同的目的构造了许多不同的统计量。下面是几种常用的重要统计量。样本均值:设 X , X , X 为一组样本,则称12n-工 Xnii=1为样本均值。它的基本作用是估计总体分布的均值和对有关总体均值的假设作检验。如果我们改变测量的起点和度量单位,数学上相当于对样本X ,X,,X做一个变换12nY = aX + b , i = 1,2, , nii这里a和b是已

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 机械/制造/汽车 > 电气技术

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号