中南大学研究生应用统计课件

上传人:飞*** 文档编号:39726291 上传时间:2018-05-19 格式:PDF 页数:19 大小:228.91KB
返回 下载 相关 举报
中南大学研究生应用统计课件_第1页
第1页 / 共19页
中南大学研究生应用统计课件_第2页
第2页 / 共19页
中南大学研究生应用统计课件_第3页
第3页 / 共19页
中南大学研究生应用统计课件_第4页
第4页 / 共19页
中南大学研究生应用统计课件_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《中南大学研究生应用统计课件》由会员分享,可在线阅读,更多相关《中南大学研究生应用统计课件(19页珍藏版)》请在金锄头文库上搜索。

1、数理统计的基本概念与抽样分布 1.1 引言什么是数理统计学?它的研究内容有哪些?这是每位初学者所关心的问题。我们先看一个这样的例子:某钢筋厂每天可以生产某型号钢筋10000 根,钢筋厂每天需要对生产过程进行控制,对产品的质量进行检验。如果把钢筋的强度作为钢筋质量的重有指标,于是质量管理人员需要做如下方面的工作第一, 对生产出来的钢筋的强度进行检测,获得必要的数据。这里有两种获得数据的方法,对 10000 根钢筋的强度均进行检测,可得到 10000 个强度数据, 这种检测方式称为全面试验,全面地进行试验一般是不可取的,它费时、费力、甚至于不可能。从10000根钢筋中抽取一部分钢筋进行检测,得到部

2、分强度数据。这里抽取部分钢筋进行检测的方式称为抽样。 抽取的方式也有很多种方法,它是数理统计的一个重要内容,形成了试验设计与抽样理论。第二,对通过抽样获取的部分数据进行整理、分析并推断出这10000 根钢筋的质量是否合乎要求。由于抽取的数据不全面,并且检测过程中每个数据还有测量误差(我们称为随机误差)。含有随机误差的数据会给我们带来一定影响,并且难以获得准确的结论。概率论就是解决这些问题主要数学工具。为解决这些问题所发展起来的理论和方法就构成了数理统计的内容。一般说来, 数理统计是以概率论为主要的数学工具,研究如何有效地收集、整理和分析受随机影响的数据,并对所考虑的问题作出推断和预测,为决策和

3、行动提供依据和建议的一门数学学科。数理统计方法的应用十分广泛,几乎在人类活动的一切领域都能不同程度地找到它的应用。英国著名的统计学家费歇( .A.Fisher)和皮尔逊 (K.Pearson)是数理统计的奠基人,在 20世纪初从事大量的数理统计方法的研究,就是出于在生物学、数量遗传学、优生学和农业科学的需要。数理统计的内容十分丰富,一般可分为两大类:一类是抽样理论与试验设计;另一类是统计推断,其中包括估计理与假设检验等。回归分析、方差分析、Bayes 分析,聚类分析,主成分分析等是数理统计的应用分支。1.2 总体、个体、样本1.21 总体与个体我们把所研究对象的全体称为总体或母体。组成总体的每

4、个单元称为个体。例如:在研究某批灯泡的质量时,该批灯泡的全体就是问题的总体,而其中每个灯泡就是个体。又如:在研究某校男大学生的身高与体重的分布时,该校的每个男大学生就是一个个体,所有这些个体就构成了问题的总体。在实际问题中, 我们关心的常常是总体的某项或几项数量指标X (可以是向量) 。 例如,在研究灯泡的质量时,我们关心的是灯泡的使用寿命X,而不是它的外观。在研究某校男大学生的身高与体重时,我们关心的是它们的身高和体重,而不是其它特征。而数量指标X对不同的个体,其指标值是不同的,因而X 可看作一个随机变量。 (或随机向量) ,X 的概率分布就完全描述了总体中指标X 的取值情况。称X 的概率分

5、布为总体分布,称X 的数字特征称为总体的数字特征。当X 为离散型随机变量时称总体为离散总体;当X 为连续型随机变量时, 称总体为连续总体。当总体分布为正态分布时,称总体为正态总体,当总体分布为指数分布时, 称总体为指数分布总体等。对总体进行研究就是对总体的分布或对总体的数字特征进行研究。1.2.2样本从总体中抽取的一部分个体称为样本或者子样,其中所含个体的个数称为样本容量。从总体中抽取样本的过程称为抽样。样本和总体一样也是考虑其数量指标,如果记iX为样本中第i个个体的数量指标,则),(21nXXX表示样本容量为n 的样本, 它可以看作是对总体 X 作 n 次观测的结果,它的值随着从总体中抽取的

6、对象的不同而不同。因此,它是随机变量,然而,一旦确定抽取对象后,我们就得到一组具体的数值),(21nxxx,它可以看作是随机变量),(21nXXX的一组观测值, 有时也称),(21nxxx为样本。 因此, 从某种意义上来说,样本具有二重性:随机性和确定性。注意样本的这种二重性非常重要。对理论工作者而言,他更多注意的是它的随机性,他所得到的统计方法应有一定的普遍性,不单纯针对某些具体样本观测值。而对应用工作者而言,他们虽然习惯把样本看成具体数字,但仍不能忘记样本的随机性,要不然对那些杂乱无章的数据无法进行统计处理。数理统计的实质就是利用样本的信息去研究总体,去研究总体的某种性能。样本的“好”与“

7、不好”对推断总体影响很大。怎样才是“好”的样本?定义 1.1 设总体 X 的样本),(21nXXX满足独 立 性 : 每 次 观 测 结 果 既 不 影 响 其 它 结 果 , 也 不 受 其 它 结 果 的 影 响 ; 即nXXX,21相互独立;代表性:nXXX,21中每一个个体都与总体X 有相同分布。则称此样本为简单随机样本。例如,在N 根钢筋中抽取n 根钢筋进行检测,如果进行有放回抽样即每次随机地从N根钢筋中抽取一根钢筋,检测后放回并混匀,然后再从中抽取。这样得到的样本就是简单随机样本。 如果采取无放回抽样即每次抽取一根钢筋,检测后不放回, 然后再从剩余中抽取一根或者随机地从N 根钢筋中

8、一次性抽取n 根钢筋,得到的样本就不是简单随机样本。但N很大, n 相对较小时无放回抽样得到的样本可以近似看作简单随机样本。样本),(21nXXX的分布称为样本分布。如果),(21nXXX为简单随机样本,)(xF为总体 X 的分布函数,则样本分布有比较简单的形式),(),221121nnnxXxXxXPxxxF(=)()()(2211nnxXPxXPxXP=)( 1inixF(1.1)它完全由总体X 的分布函数确定。如果 X 为连续总体且X 的分布密度为)(xf, 则),(21nXXX亦为连续型随机变量,它的分布密度称为样本分布密度。在简单随机样本的情况下,样本分布密度也有简单的形式)(),(

9、 121ininxfxxxf(1.2) 如果 X 为离散总体且X 的概率分布为iiipxXP)(,则),(21nXXX亦为离散型随机变量,它的概率分布也有简单形式ininnpxXxXxXP 12211),(1.3) 例 1.1 设有一批产品,其次品率为p,如果记“1X”表示抽取一件产品是次品;“0X” 表示抽取一件产品是正品;那么,产品的质量就可以用X 的分布来衡量。X 服从 0-1 分布,参数就是次品率p。如果),(21nXXX为简单随机样本,求样本分布。解:总体X 的概率分布为,)1()(1 xxppxXP1 ,0x所以),(21nXXX的概率分布为iixxninnppxXxXxXP112

10、211)1 (),(niiniixnx pp11)1(1.4) 例 1.2 设总体 X 服从区间,上的均匀分布,求样本),(21nXXX的分布密度。解:总体 X 的分布密度为其它,0,1 )(xxf所以),(21nXXX的概率分布为其它,0,1 ),(21 21n nxxxxxxf(1.5) 1.3 统计量1.3.1 统计量的定义我们研究总体总是研究总体的某些特性,而样本),(21nXXX提供了总体比较多的信息, 它是一个 n 维随机变量, 研究起来不是很方便,并且在实际中对某些信息我们并不是感兴趣, 我们可以将其压缩为我们所需要的信息,然后利用这些信息来解决实际问题。例如,研究某种型号的灯泡

11、的寿命X,我们并不关心X 的具体分布如何,而我们关心的只是灯泡的平均寿命E(X) 。如果),(21nXXX为简单随机样本,直观地niiXn11反映了 E(X)的值。我们称它为统计量,它是样本的函数。定 义1.2 设),(21nXXX为 总 体X的 一 个 样 本 ,),(21nXXXTT为nXXX,21的连续函数,且不含有任何未知参数,则称T 为一个统计量。从定义可以看出,统计量是完全由样本确定的一个量,即样本有一个观测值时统计量就有一个唯一确定的值。并且统计量是一个随机变量,它将高维随机变量问题转化为一维随机变量来处理,使问题得到简化。我们必须理解,将高维问题转化为低维问题,信息的损失是必然

12、的(好比将平面问题转化为直线问题) ,关键在于我们要求的只是研究总体的某一特定的性质时,能找到一个与这一特定性质有关的信息量不受损失的统计量,也就是说, 在针对这一特定性质时,这个统计量所含的信息与整个样本是一样多。这样损失的只是与这个特定性质无关的信息。1.3.2常见的统计量1.样本矩设),(21nXXX为总体 X 的一个样本,称统计量niiXnX11(1.6) 为样本均值;称212)(11niiXXnS(1.7) 为样本方差;称nik ikXnA 11(1.8) 为样本的k 阶原点矩,,2 ,1k;称nik ikXXnB1)(1(1.9) 为样本的k 阶中心矩,,2 ,1k。样本均值就是样

13、本一阶原点矩,样本二阶中心矩与样本方差只相差一个倍数。直观地,样本均值集中反映了总体数学期望的信息,常用来推断总体数学期望。样本方差与二阶中心矩集中反映了总体方差的信息,常用来推断总体方差。2.顺序统计量设),(21nXXX为总体X 的样本,),(21nxxx为样本观测值,将样本观测值按从小到大的顺序排列成)()1()()2()1(nkkxxxxx定义)(kX,它的观测值就是)(kx,nk,2,1。不同的样本观测值就有不同的)(kx。因此,)(kX为随机变量,它也是nXXX,21的函数,故它是一个统计量,我们称它为第k 顺序统计量。称)1(X为最小顺序统计量,)(nX为最大顺序统计量。显然有1

14、)()()2()1(nXXXP称)1()(XXRn为样本极差;称为偶数为奇数nXXnXXnnn21)12()2() 21(为样本中位数。样本极差R 是最大顺序统计量与最小顺序统计量的函数,样本中位数是把样本分成大数部分与小数部分的分界线。它们分别反映了总体X 的波动性大小和总体平均值的信息。例 1.3 设总体 X 为服从区间 0,上的均匀分布,0,),(21nXXX为 X 的样本,求)1(X,)(nX的分布密度。解:因为X 为服从区间 0,上的均匀分布,所以X 的分布函数为xxxxxF1000)()(nX的分布函数),()()(21)()(xXxXxXPxXPxFnnnn inixFxXP)(

15、)( 1=xxxxnn1000(1.10)从而)(nX的密度函数为其它00)(1)(xnx xfnnn(1.11) )1(X的分布函数)(1)()()1()1()1(xXPxXPxF),(121xXxXxXPnn inixFxXP)(1 1)(1 1xxxxnn10)(100(1.12) )1(X的分布密度为其它00)( )(1)1(xxn xfnn(1.13) 1.3.3充分统计量我们先看一个例子例:某厂要了解其产品的不合格率p,检验员检查了10 件产品,检查结果是,除前二件是不合格品(记为1, 121XX)外,其它都是合格品(记为niXi,4, 3, 0) 。当厂长问及检查结果时检验员可作

16、如下两种回答:1.10 件中有两件不合格;2.前两件不合格。这两种回答反映了检验员对样本的两种不同的加工方法。其所用的统计量分别为1011;IiXT212XXT显然,第二种回答是不能令人满意的,因为统计量2T不包含样本中有关p 的全部信息。而第一种回答是综合了样本中有关p的全部信息。 因为样本),(1021XXX提供了两种信息:(1)10 次检验中不合格品出现了几次;(2)不合格品出现在哪几次试验上。第二种信息 (试验编号信息) 对了解不合格品率p 是没有什么帮助的。譬如在另一次检验中,最后两个产品是不合格品,其它8 件都是合格品。这两个样本观测值是不同的,但对了解p是没有什么区别的,它们提供有关p的信息是相同的。在很多实际问题中,试验编号信息常常对了解总体或者参数是无关紧要的,所以人们常常在试验前对样本进行随机编号。由此看来,由样本提供的第二种信息对p 来说是无关紧要的。统计量虽然没有提供试验编号信息,但它把有关p 的最重要的信息综合出来了。基于

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号