统计学第四章抽样与参数估计.ppt

上传人:博****1 文档编号:568706128 上传时间:2024-07-26 格式:PPT 页数:61 大小:2.44MB
返回 下载 相关 举报
统计学第四章抽样与参数估计.ppt_第1页
第1页 / 共61页
统计学第四章抽样与参数估计.ppt_第2页
第2页 / 共61页
统计学第四章抽样与参数估计.ppt_第3页
第3页 / 共61页
统计学第四章抽样与参数估计.ppt_第4页
第4页 / 共61页
统计学第四章抽样与参数估计.ppt_第5页
第5页 / 共61页
点击查看更多>>
资源描述

《统计学第四章抽样与参数估计.ppt》由会员分享,可在线阅读,更多相关《统计学第四章抽样与参数估计.ppt(61页珍藏版)》请在金锄头文库上搜索。

1、第四章第四章 抽样与参数估计 学学习目的目的了解抽了解抽样分布和抽分布和抽样的其它的其它组织方式。方式。掌握抽掌握抽样调查的基本的基本问题。熟熟练运用参数估运用参数估计方法估方法估计总体参数。体参数。第四章第四章 抽样与参数估抽样与参数估计计 第一节第一节 抽样调查的基本问题抽样调查的基本问题 第二节第二节 抽样分布抽样分布 第三节第三节 参数估计参数估计 推断统计:利用样本统计量对总体某些性质或数量推断统计:利用样本统计量对总体某些性质或数量推断统计:利用样本统计量对总体某些性质或数量推断统计:利用样本统计量对总体某些性质或数量特征进行推断。特征进行推断。特征进行推断。特征进行推断。随机原则

2、随机原则总体参数总体参数统计量统计量参数估计参数估计假设检验假设检验第一节第一节 抽样调查的基本问题抽样调查的基本问题 一、抽样调查及其特点一、抽样调查及其特点(一)抽样调查的概念(一)抽样调查的概念 它它是是按按照照随随机机原原则则,从从研研究究总总体体的的所所有有单单位位中中,抽抽取取部部分分单单位位作作为为样样本本,然然后后以以样样本本的的观观测测或或调调查查结结果果对对总总体体的的数数量量特特征征做做出出具具有有一一定定可可靠靠程程度度和和精精度度的的估估计计或或推推断断的的一一种种统统计计调调查方法。查方法。 例例如如,从从某某地地消消费费者者中中,通通过过随随机机抽抽样样抽抽取取若

3、若干干消消费费者者进进行行消消费费水水平平的的实实测测,计计算算平平均均消费水平,以此来推断该地区的平均消费水平。消费水平,以此来推断该地区的平均消费水平。 1、在调查单位的选取上遵循随机随机原则 随机原则,就是在抽选样本时排除主观上有意识地抽选调查单位,使总体每个单位都有相同的机会被抽中。 2、它以样本的数量特征去推断推断总体的数量特征。 抽样调查不仅具有省时、省力的特性,而且还能认识总体的数量特征。 3、推断过程中抽抽样误差差可以事先计算并加以控制。 (二)抽样调查的基本特点(二)抽样调查的基本特点1、有些现象无法进行全面调查,但为了测、有些现象无法进行全面调查,但为了测算总体情况,必须进

4、行抽样调查。算总体情况,必须进行抽样调查。2、抽样调查的结果可以对全面调查的结果、抽样调查的结果可以对全面调查的结果进行检查和修正。进行检查和修正。3、抽样调查可用于生产过程的质量控制。、抽样调查可用于生产过程的质量控制。(三)抽样调查的作用(三)抽样调查的作用二、抽样推断中的基本概念二、抽样推断中的基本概念 (一)(一)总体体 总体体,又称全及,又称全及总体或母体,是指所要体或母体,是指所要调查研究的研究的对象的象的全体全体。在抽。在抽样调查中,中,总体是唯一体是唯一确定的。确定的。总体内包含的体内包含的单位多少称位多少称为总体体单位数位数,一般用符号一般用符号N表示。表示。数量总体数量总体

5、 被研究的是数量变量的总被研究的是数量变量的总体体 属性总体属性总体 被研究是属性变量的总体被研究是属性变量的总体 据据被被研研究究变变量量的的性性质不同质不同平均数平均数标准差、方差标准差、方差成数成数参数参数 、 2 2p p统计量统计量S S、 S S2 2P P总体总体样本样本 反映反映总体数量特征的指体数量特征的指标为总体指体指标或或总体体参数参数。从理。从理论上上说,它由被抽,它由被抽样总体各体各单位的位的变量量值或或变量特征量特征计算而成的。算而成的。对于于数量数量总体体,设某某单位的位的变量量值为 ,总体指体指标有:有: 总总体均体均值值: 总总体方差:体方差: 总总体体标标准

6、差:准差: 对于于属性属性总体体,设总体中具有某种属性特征体中具有某种属性特征的的单位数位数为 ,其它,其它单位数位数为 ,总体体单位数位数 ,总体指体指标有:有: 总体比率:体比率: 总体方差:体方差: 总体体标准差:准差: (二)样本(二)样本 样本本,也称子,也称子样,是指从被,是指从被调查的的总体体中按照中按照随机原随机原则抽取,并要抽取,并要对其其进行行调查或或观察的部分察的部分单位所位所组成的集合体。成的集合体。 一个一个样本所包含的本所包含的单位数称位数称样本容量本容量,用符号用符号n表示。从表示。从总体中可能抽取的全部体中可能抽取的全部样本数目称本数目称为可能可能样本个数。本个

7、数。 对于一个于一个总体,从中所抽取的体,从中所抽取的样本是本是随机的,不是唯一的。随机的,不是唯一的。 表示表示样本数量特征的指本数量特征的指标称称为样本指本指标或或样本本统计量,它由量,它由样本各本各单位的位的标志志值或或标志特征志特征计算算而成的。而成的。设 是来自是来自总体的体的样本,本,则样本指本指标有:有: 样本均值:样本均值:样本方差:样本方差: 未分组未分组 分组分组未分组未分组 分组分组未分组未分组 分组分组样本标准差:样本标准差:样本标准差:样本标准差:样本比率:样本比率: 样本方差:样本方差: 在统计学中经常会遇到“自由度”这个概念,所谓自由度是指不受任何约束,可以自由取

8、值的变量的个数。例如,有4个变量 ,它们的和是20,即 ,这是一个限制条件,此时,有3个变量可以自由取值,由于只有一个限制条件,那么可以自由取值的变量的个数是4-1=3,即自由度为3。(三三) 自由度自由度 三、抽三、抽样方法方法 根据样本单位是否可重复抽取,分为:(一)重复抽样(一)重复抽样 抽取样本单位的过程:设从总体N中随机抽取一个容量为n的样本,每次从总体中抽取一个样本单位,连续进行n次抽取,构成一个样本。在对每次抽取的样本单位观测后,将该单位重新放回,这样在下一次的抽样中仍有可能再次被抽中。(二)不重复抽样(二)不重复抽样 它从总体N中抽取一个容量为n的样本,也是由连续次抽取的结果构

9、成的,但每次抽中的样本单位,观测后不再放回总体,因此在下一次抽取样本单位时不会再抽到前面已抽中过的样本单位。四、抽四、抽样推断的理推断的理论基基础大数定律大数定律证明:随着明:随着样本容量的增加,本容量的增加,样本本均均值接近于接近于总体均体均值的的趋势,几乎是具有,几乎是具有实际必然性。必然性。中心极限定理:如果中心极限定理:如果总体体变量存在有限的平量存在有限的平均数和方差,那么,不均数和方差,那么,不论这个个总体的分布如体的分布如何,随着何,随着样本容量的增加,本容量的增加,样本均本均值的分布的分布便便趋近正近正态分布。在分布。在样本容量充分大的条件本容量充分大的条件下,下,样本均本均值

10、也也趋近于正近于正态分布,分布,这为抽抽样误差的概率估差的概率估计理理论提供了理提供了理论基基础。当样本容量足够当样本容量足够大时大时(n 30) ,样本均值的抽样样本均值的抽样分布逐渐趋于正分布逐渐趋于正态分布态分布一个任意分一个任意分一个任意分一个任意分布的总体布的总体布的总体布的总体X X中中心心极极限限定定理理:设设从从均均值值为为 ,方方差差为为 2的的一一个个任任意意总总体体中中抽抽取取容容量量为为n的的样样本本,当当n充充分分大大时时,样样本本均均值值的的抽抽样样分分布布近近似似服服从从均均值值为为、方方差差为为2/n的的正正态态分布分布.第二节第二节 抽样分布抽样分布 一、抽一

11、、抽样分布的概念分布的概念 抽抽样分布分布是指是指样本本统计量的概率分布。量的概率分布。 从同一个从同一个总体中,抽取体中,抽取样本容量相同的所有可本容量相同的所有可能能样本后,本后,计算每一个算每一个样本本统计量量的取的取值和相和相应的的概率,就概率,就组成成样本本统计量的概率分布,量的概率分布,简称抽称抽样分分布布 。二二简单随机样本简单随机样本 如果如果总体中每个个体被抽到的机会是均等的,体中每个个体被抽到的机会是均等的,并且在每次抽取一个个体之后并且在每次抽取一个个体之后总体的成分不改体的成分不改变,这样抽取出的个体所构成的抽取出的个体所构成的样本就能很好地反映本就能很好地反映总体的情

12、况体的情况,基于基于这种想法抽取的种想法抽取的样本,称本,称为简单随机随机样本本。 当当总体体为有限有限总体体时,那么抽,那么抽样就要用就要用重复重复抽抽样;当;当总体体为无限无限总体体时,可以用,可以用不重复不重复抽抽样。 简单随机抽随机抽样也称也称纯随机抽随机抽样。它是直接从。它是直接从总体的体的N个个单位中完全随机地抽取位中完全随机地抽取n个个单位并使位并使总体中的每一个体中的每一个单位都有同等被抽中的概率的抽位都有同等被抽中的概率的抽样组织形式。形式。特点:特点:在理在理论上最符合随机原上最符合随机原则,简单随机抽随机抽样保保证总体中各个体中各个单位被抽中的机会是相等的,均位被抽中的机

13、会是相等的,均为 。是是设计其他抽其他抽样组织方式的基方式的基础。是衡量其他抽是衡量其他抽样效果的效果的标准。准。三、简单随机抽样的概念及特点三、简单随机抽样的概念及特点抽样设计抽样设计效果指标效果指标 若若值大于等于大于等于1 1,即其他抽,即其他抽样形式的抽形式的抽样方差大于等于方差大于等于简单随机抽随机抽样的抽的抽样方差,方差,则抽抽样估估计效果效果较差;差; 四、常用统计量的抽样分布四、常用统计量的抽样分布 (一)(一)样本均本均值的抽的抽样分布分布 1、重复抽、重复抽样的抽的抽样分布分布 例例4-1 某次某次调查中中4个被个被调查者的月消者的月消费额分分别为400元、元、500元、元

14、、700元、元、800元。元。设4个被个被调查者者构成构成总体,体,则:总体均体均值 (元)(元)(元)(元)总体方差 总体标准差总体标准差 用重复抽样的方法,从用重复抽样的方法,从4 4人中随机抽个构成样人中随机抽个构成样本,共本,共1616个有个可能的样本。各样本的月平均消费个有个可能的样本。各样本的月平均消费如表:如表:样本变量400 500 700 800400500700800400 450 550 600450 500 600 650550 600 700 750600 650 750 800可以整理出样本均值的抽样分布 样本均值的抽样分布 2000009600116合计40000

15、450001000050000500010000450004000040090050011002400130070015008001/162/161/162/164/162/161/162/161/16121242121400450500550600650700750800频率f频数样本的月平均样本的月平均消费消费( (元元) )样样本均本均值值抽抽样样分布的均分布的均值值: 样样本均本均值值抽抽样样分布的方差:分布的方差:样样本均本均值值抽抽样样分布的分布的标标准差准差为为: : 可可见见, , 样样本均本均值值 抽抽样样分布的均分布的均值值等于等于总总体的均体的均值值, ,即即 (元)(元

16、)(元)(元)(元)(元) 虽然每个样本均值的取值可能与总体均值不同,虽然每个样本均值的取值可能与总体均值不同,有一定离差,但从总体来看,所有样本均值平均说有一定离差,但从总体来看,所有样本均值平均说来和总体均值是相同的,不再存在离差。来和总体均值是相同的,不再存在离差。 抽抽样样分布的方差分布的方差 抽样分布的标准差抽样分布的标准差 验证了以下两个结论:验证了以下两个结论:抽样平均数的标准差反映所有的抽样平均数的标准差反映所有的样本平均数与总体平均数的平均样本平均数与总体平均数的平均误差,称为抽样平均误差,用误差,称为抽样平均误差,用 表示。表示。2 2、不重复抽样的抽样分布、不重复抽样的抽

17、样分布 仍以上例为例,仍以上例为例, 某次调查中某次调查中4 4个被调查者的月消费为个被调查者的月消费为400400元、元、500500元、元、700700元、元、800800元。设元。设4 4个被调查者构成总个被调查者构成总体,则体,则: : 总体均值(元)(元)总体方差 总体标准差总体标准差(元)(元) 采用不重复抽样的方法,从采用不重复抽样的方法,从4 4人中随机抽个构成人中随机抽个构成样本,共有样本,共有4 43=123=12个可能的样本。个可能的样本。 - 450 550 600450 - 600 650550 600 - 750600 650 750 -40050070080040

18、0 500 700 800样本变量1000007200112合计450005000050004500090011002400130015002/122/124/122/122/1222422450550600650750频率频数f样本的月平均样本的月平均消费消费样本均值的抽样分布 样本均值抽样分布的均值:样本均值抽样分布的均值: 样本均值抽样分布的方差:样本均值抽样分布的方差:样本均值抽样分布的标准差为样本均值抽样分布的标准差为: : 可见可见, , 样本均值样本均值 抽样分布的均值等于总体的均值抽样分布的均值等于总体的均值, ,即即 (元)(元)(元)(元)(元)(元) 不重复抽样条件下,样

19、本均值的分布仍具有两个重要性质 :(1 1)样本均值的抽样分布的均值等于总体的均值)样本均值的抽样分布的均值等于总体的均值(2)样本均值的抽样分布的方差等于重复抽样的样本均值抽样分布的方差乘以修正因子抽样分布的标准差抽样分布的标准差 抽样抽样比率比率比率比率P=Ni/NP=Ni/N 所有可能的样本的比率(所有可能的样本的比率( )所形成)所形成的分布,称为样本比率的抽样分布。的分布,称为样本比率的抽样分布。(二)样本比率的抽样分布 抽抽 样样 方方 法法 均均 值值 方方 差差 标准差标准差重复抽样重复抽样不重复抽样不重复抽样 根据中心极限定理,只要样本足够大,根据中心极限定理,只要样本足够大

20、, 的分布的分布就近似正态分布。(就近似正态分布。(npnp和和nqnq大于大于5 5时)时)抽样误差抽样误差抽样误差抽样误差样本比率分布的均值和方差样本比率分布的均值和方差抽样分布总结抽样分布总结样本平均数的分布样本平均数的分布样本成数的分布重复重复抽样抽样不重不重复抽复抽样样 第三节第三节 参数估计参数估计 一、参数估一、参数估计的基本概念的基本概念 (一)估(一)估计量量 在在实际问题中中, 经常需要我常需要我们构造适当的构造适当的统计量去量去对总体分布中所含的未知参数体分布中所含的未知参数(如均如均值方差方差比率等比率等) 的数的数值做出估做出估计。这时用来估用来估计总体参体参数的数的

21、统计量称量称为估估计量量, 它也是一个随机它也是一个随机变量。估量。估计量的具体数量的具体数值称称为估估计值。 (二二) 抽样误差抽样误差 抽抽样误差差是由于抽是由于抽样的随机性而造成的随机性而造成样本指本指标和和总体指体指标之之间的的误差,差,这种种误差是抽差是抽样调查所固有的、不可避免的,也所固有的、不可避免的,也叫叫随机随机误差差。 抽抽样误差有差有实际误差差和和平均平均误差差两种。两种。实际误差是指某一次抽差是指某一次抽样结果所得到的果所得到的样本指本指标和和总体指体指标之之间的的误差。但由于差。但由于总体指体指标未知,因而无法未知,因而无法计算。算。样本容量样本容量样本容量样本容量抽

22、样方法抽样方法抽样方法抽样方法总体标志变动度总体标志变动度总体标志变动度总体标志变动度抽样组织形式抽样组织形式抽样组织形式抽样组织形式抽样误差的抽样误差的影响因素影响因素(三)抽样极限误差(三)抽样极限误差 抽抽样极限极限误差差又称允又称允许误差。是指差。是指样本指本指标和和总体指体指标之之间抽抽样误差的可能范差的可能范围。由于。由于总体体指指标是一个确定的数,而是一个确定的数,而样本指本指标则围绕总体指体指标左右左右变动,它与,它与总体指体指标可能可能产生正离差,也生正离差,也可能可能产生生负离差,离差,样本指本指标变动的上限或下限与的上限或下限与总体指体指标之差的之差的绝对值就可以表示抽就

23、可以表示抽样误差的可差的可能范能范围,我,我们将将这种以种以绝对值形式表示的抽形式表示的抽样误差可能范差可能范围称称为抽抽样极限极限误差。差。则则 二二估计量的优良标准估计量的优良标准的数学期望等的数学期望等于总体参数,于总体参数,即即该估计量称该估计量称为无偏估计。为无偏估计。无偏性无偏性有效性有效性当当 为为 的的无偏估计时,无偏估计时, 方差方差 越小,无偏估计越小,无偏估计越有效。越有效。一致性一致性对于无限总体,对于无限总体,如果对任意如果对任意则称则称的一致估计。的一致估计。是是估计量估计量三、参数估计方法三、参数估计方法三、参数估计方法三、参数估计方法点估计点估计以样本指标直接估

24、计总体参数。以样本指标直接估计总体参数。区间估计区间估计估计未知参数所在的可能的区间。估计未知参数所在的可能的区间。 点估计的优点在于它能够明确地估计总体参数,但一般该值不会等于总体参数的真值,它与真值的误差估计的可靠性怎样,我们无法知道,而区间估计则可弥补这种不足之处。 区间估计区间估计评价准则评价准则随机区间随机区间置信度置信度精确度精确度随机区间随机区间包含包含(即可靠程度)(即可靠程度)越大越好。越大越好。的概率的概率的平均长度的平均长度(误差范围)(误差范围)越小越好越小越好一般形式一般形式或或总体参数总体参数估计值估计值误差范围误差范围 :一定倍数的抽样误差:一定倍数的抽样误差例如

25、:例如:抽样误差抽样误差 一定时,一定时,越大,越大,概率(可靠性)大;概率(可靠性)大;随之增大,随之增大,精确度就差。精确度就差。四、区间估计的基本原理四、区间估计的基本原理区间估计步骤:1选择含有待估参数的一个适当的统计量,并指出该统计量所服从的分布。2对于给定的置信水平查该统计量所服从的分布表确定出临界值,使该统计量取以临界值为范围内的值的概率为3对第2步经过不等式变形可得所求参数的置信区间公式。4将有关数值代入置信区间公式, 即可求出所求参数的一个置信区间。区间估计的内容区间估计的内容 2 2 已知已知 2 2未知未知 均均 值值方方 差差比比 例例置置 信信 区区 间间待估计参数待

26、估计参数已知条件已知条件置信区间置信区间正态总体,正态总体,2 2已知已知正态总体,正态总体,2 2未知未知非正态总体,非正态总体,n30n30未知时,用未知时,用S有限总体,有限总体,n30n30(不重复(不重复) )总体均值总体均值 ()未知时,用未知时,用S S五、一个总体参数的区间估计五、一个总体参数的区间估计(一)总体均值的区间估计(一)总体均值的区间估计 1 1、正、正态总态总体、方差已知,或非正体、方差已知,或非正态总态总体体( (大大样样本本) ) 例例4-2 4-2 某保某保险险公司自投保人中随机抽取公司自投保人中随机抽取3636人人, , 计计算出此算出此3636人的平均年

27、人的平均年龄为龄为39.539.5岁岁, , 已知投保人年已知投保人年龄龄分布近似正分布近似正态态分布分布, , 标标准差准差为为7.27.2岁岁, , 试试求所有投求所有投保人平均年保人平均年龄龄置信水平置信水平为为99%99%的置信区的置信区间间? ? 于于是是,我我们们有有99%的的把把握握保保证证投投保保人人平平均均年年龄在龄在36.4142.59岁之间。岁之间。例例4-3 4-3 某金融机构共有某金融机构共有80428042张应张应收收账账款款单单, , 根据根据过过去去记录记录, , 所有所有应应收收账账款的款的标标准差准差为为3033.43033.4元,元,现现随随机抽机抽查查了

28、了250250张应张应收收账单账单, , 得平均得平均应应收金收金额为额为33193319元元, , 求全部求全部应应收收账单账单的平均的平均应应收金收金额额的置信水平的置信水平为为98%98%的置信区的置信区间间。 于于是是,我我们们有有98%的的把把握握认认为为全全部部应应收收账账单单的平均应收金额在的平均应收金额在2871.993766元之间。元之间。例例4-4 4-4 某广播某广播电电台要估台要估计计某市某市6565岁岁以上的已退休以上的已退休的人中一天的人中一天时间时间里收听广播的里收听广播的时间时间, , 随机抽取了一随机抽取了一个容量个容量为为200200的的样样本本, , 得到

29、得到样样本均本均值为值为110110分分钟钟, , 样样本本标标准差准差为为3030分分钟钟, , 试试估估计总计总体均体均值值的置信水平的置信水平为为95%95%的置信区的置信区间间。于于是是,我我们们有有95%的的把把握握认认为为该该市市65岁岁以以上上已已退退休休的人每天收听广播的时间在的人每天收听广播的时间在107.24112.76分钟之间。分钟之间。 2 2、正、正态总态总体、方差未知、小体、方差未知、小样样本本时时求的置信区求的置信区间间 例例4-5 4-5 为为了估了估计计一分一分钟钟一次广告的平均一次广告的平均费费用用, , 抽出了抽出了1515个个电视电视台的台的样样本。本。

30、样样本均本均值为值为20002000元元, , 标标准差准差为为10001000元。假定所有的元。假定所有的这类电视这类电视台的广告台的广告费费用近似服从正用近似服从正态态分布分布, , 试试求求电视电视台一分台一分钟钟一次广一次广告平均告平均费费用的置信水平用的置信水平为为95%95%的置信区的置信区间间。 于于是是,我我们们有有95%的的把把握握保保证证电电视视台台一一分分钟钟一一次广告平均费用在次广告平均费用在1446.22553.8元之间。元之间。 (二)一个(二)一个总总体比率的区体比率的区间间估估计计待估计参数待估计参数已知条件已知条件置信区间置信区间重复抽样重复抽样总体比率总体比

31、率 (p p)不重复抽样不重复抽样例例4-6 4-6 某某电视电视台想了解每日台想了解每日“ “晚晚间间新新间间” ” 栏栏目的目的收收视视率率, , 随机抽取了随机抽取了400400人人进进行行调查调查, , 结结果表明有果表明有71.2%71.2%的人的人观观看此看此节节目。目。试试估估计该栏计该栏目收目收视视率具率具有有90%90%的可靠性的置信区的可靠性的置信区间间。 于于是是,有有90%的的把把握握认认为为该该栏栏目目收收视视率率在在67.48%74.92%之间。之间。八、样本容量的确定八、样本容量的确定 (一)影响(一)影响样样本容量的因素本容量的因素 总总体各体各单单位的差异程度。位的差异程度。允允许误许误差范差范围围。概率保概率保证证程度。程度。不同的抽不同的抽样样方法(重复抽方法(重复抽样样和不重复抽和不重复抽样样)。)。(二)样本容量的计算1、估计总体均值时的样本容量的计算

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号