《统计学》第9章抽样与抽样估计#高级课件

上传人:hs****ma 文档编号:567516619 上传时间:2024-07-21 格式:PPT 页数:57 大小:4.80MB
返回 下载 相关 举报
《统计学》第9章抽样与抽样估计#高级课件_第1页
第1页 / 共57页
《统计学》第9章抽样与抽样估计#高级课件_第2页
第2页 / 共57页
《统计学》第9章抽样与抽样估计#高级课件_第3页
第3页 / 共57页
《统计学》第9章抽样与抽样估计#高级课件_第4页
第4页 / 共57页
《统计学》第9章抽样与抽样估计#高级课件_第5页
第5页 / 共57页
点击查看更多>>
资源描述

《《统计学》第9章抽样与抽样估计#高级课件》由会员分享,可在线阅读,更多相关《《统计学》第9章抽样与抽样估计#高级课件(57页珍藏版)》请在金锄头文库上搜索。

1、第九章抽样与抽样估计1精编课件第第1节 抽抽样与抽与抽样分布分布一、有关抽一、有关抽一、有关抽一、有关抽样样的基本概念的基本概念的基本概念的基本概念总体总体(Population) 研究对象的全体称为总体研究对象的全体称为总体样本(子样)样本(子样)(Sample) 从总体中抽取一部分个体进行试验或观察,这种从总体从总体中抽取一部分个体进行试验或观察,这种从总体中抽取个体的行为称为抽样。而从总体中抽样所得的一部分中抽取个体的行为称为抽样。而从总体中抽样所得的一部分个体叫样本个体叫样本总体参数总体参数(Population parameter) 描述总体分布特征的数值描述总体分布特征的数值样本统

2、计量样本统计量(Sample statistic)2精编课件抽抽样方法方法重置抽样重置抽样(重复抽样)(Sampling with replacement) 要从总体N个单位中随机抽取一个容量为n的样本,每次从总体中抽取一个单位,把顺序号登记下来之后,重新放回参加下一次抽选,连续反复抽取n次组成所要求容量的样本。 不重置抽样不重置抽样(不重复抽样)(Sampling without replacement) 要从总体N个单位中随机抽取一个容量为n的样本,每 次从总体中抽取一个单位,被抽中的单位不再放回参加下一次抽选,连续进行次便组成样本。 不重复抽样所得样本对总体的代表性较大,抽样误差较小,所

3、以实践中通常采用不重复抽样。 3精编课件抽样的组织方式简单随机抽样:从总体中抽取样本最常用的方法。从容量为N的总体中进行抽样,如果容量为n 的每个可能样本被抽到的可能性相等,则称容量为n的样本为简单随机样本。 分层抽样:也称分类抽样或类型抽样,它是按某个主要标志对总体各单位进行分类,然后从各层中按随机原则分别抽取一定数目的单位构成样本。整群抽样:也称丛聚抽样或集团抽样。它是将总体分为若干部分(每一部分称为一个群),然后按随机原则从中一群一群地抽选,对抽中群内的所有单位进行全面调查。系统抽样也称机械抽样。它是先将总体单位按一定顺序排队,计算出抽样间隔(或抽样距离),然后按固定的顺序和间隔抽取样本

4、单位。4精编课件总体分布(population distribution)5精编课件样本分布(sample distribution)1.一个样本中各观察值的分布 2.也称经验分布 3.当样本容量n逐渐增大时,样本分布逐渐接近总体的分布 样样本本6精编课件7精编课件二、抽二、抽二、抽二、抽样样分布分布分布分布(Samplingdistribution)(Samplingdistribution)1 1、抽、抽、抽、抽样样分布的意分布的意分布的意分布的意义义对统计量的所有可能取值及其对应概率的描述,就是统计量的抽样分布,即抽样分布抽样分布。抽样分布反映样本统计量的分布特征,根据抽样分布的规律,可

5、揭示样本统计量与总体参数之间的关系,计算抽样误差,并说明抽样推断的可靠程度。 8精编课件抽样误差: 误 差登记性误差代表性误差系统性误差随机性误差登记性误差是指在调查和汇总过程中由于观察、测量、登记、计算等方法的差错或被调查者提供虚假资料而造成的误差。任何一种统计调查都可能产生登记性误差。代表性误差是指用样本指标推断总体指标时,由于样本结构与总体结构不一致、样本不能完全代表总体而产生的误差。系统性误差是指由于非随机因素引起的样本代表性不足而产生的误差,表现为样本估计量的值系统偏低或偏高。随机性误差又称偶然性误差,是指遵循随机原则抽样,由于随机因素(偶然性因素)引起的误差。抽样估计中的所谓抽样误

6、差,就是指的这种随机误差。9精编课件抽样误差登记性误差:存在于一切调查中代表性误差:仅产生于抽样调查,不可避免。代表性误差抽样误差在实际一次调查中是调查不出来的,但其平均值是可以推算的系统性误差:不随样本量增减而变化随机误差(抽样误差):随样本量增大而减小10精编课件抽抽样样平均平均误误差和抽差和抽样样极限极限误误差差抽样平均误差:所有可能的样本指标与总体指标间的平均差异程度。11精编课件抽样极限误差抽样极限误差 样本指标与总体指标之间允许的误差范围叫抽样极限样本指标与总体指标之间允许的误差范围叫抽样极限误差。也称抽样允许误差。误差。也称抽样允许误差。 它是样本指标可允许变动的上限或下限与总体

7、指标它是样本指标可允许变动的上限或下限与总体指标之差的绝对值。之差的绝对值。即:即:12精编课件落在总体均值某一区间内的样本落在总体均值某一区间内的样本X95.45%95.45%的样本的样本的样本的样本99.73%99.73%的样本的样本的样本的样本x-3x-3 68.27%68.27%的样本的样本的样本的样本x-2x-2 x-x- X+X+3 3 X+2X+2 X+X+ x13精编课件大数定律及中心极限定理重复抽样:(1)总体是正态分布,样本必然是正态分布(2)样本平均数的平均数等于总体平均数(3)样本平均数的方差等于总体方差除以样本 容量n(4)n越大,样本平均数越趋近于正态分布14精编课

8、件例:样本均值的抽样分布【例例例例】设设一一个个总总体体,含含有有4 4个个元元素素( (个个体体) ) ,即即总总体体单单位位数数N N= =4 4。4 4 个个个个体体分分别别为为X X1 1=1=1、X X2 2=2=2、X X3 3=3=3 、X X4 4=4=4 。总体的均值、方差及分布如下总体的均值、方差及分布如下总体分布总体分布总体分布总体分布1 14 42 23 30 0.1.1.2.2.3.3均值和方差均值和方差均值和方差均值和方差15精编课件现现从从总总体中抽取体中抽取n n2 2的的简单简单随机随机样样本,在重复抽本,在重复抽样样条件下,条件下,共有共有4*4=164*4

9、=16个个样样本。所有本。所有样样本的本的结结果果为为w3,4w3,3w3,2w3,1w3w2,4w2,3w2,2w2,1w2w4,4w4,3w4,2w4,1w4w1,4w4w1,3w3w2w1w1,2w1,1w1w第二个观察值第二个观察值w第一个第一个w观察值观察值w所有可能的所有可能的n=2的样本(共的样本(共16个)个)16精编课件计计算出各算出各样样本的均本的均值值,如下表。并,如下表。并给给出出样样本均本均值值的抽的抽样样分分布布w3.5w3.0w2.5w2.0w3w3.0w2.5w2.0w1.5w2w4.0w3.5w3.0w2.5w4w2.5w4w2.0w3w2w1w1.5w1.0

10、w1w第二个观察值第二个观察值第一个第一个观察值观察值w16个样本的均值个样本的均值X X样本均值的抽样分布样本均值的抽样分布样本均值的抽样分布样本均值的抽样分布1.01.00 0.1.1.2.2.3.3P P ( (X X ) )1.51.53.03.04.04.03.53.52.02.02.52.517精编课件样本均值的分布与总体分布的比较 = 2.5 2 =1.25总体分布总体分布总体分布总体分布1 14 42 23 30 0.1.1.2.2.3.3抽样分布抽样分布抽样分布抽样分布P P ( (X X ) )1.01.00 0.1.1.2.2.3.31.51.53.03.04.04.03

11、.53.52.02.02.52.5X X18精编课件大数定律及中心极限定理不重复抽样:(1)总体是正态分布,样本必然是正态分布(2)样本平均数的平均数等于总体平均数(3)样本平均数的方差等于总体方差除以样本 容量n(4)n越大,样本平均数越趋近于正态分布19精编课件抽样平均误差(1)均值重复抽样:不重复抽样:20精编课件抽样平均误差(1)比例重复抽样:不重复抽样:21精编课件影响抽样误差大小的因素是:总体被研究标志的变异程度。 在其他条件不变的情况下,总体标志的变异程度愈小,则抽样误差也愈小;总体标志的变异程度愈大,则抽样误差也愈大。抽样单位数的多少。 在其他条件不变的情况下,抽样单位数愈多,

12、抽样误差愈小;抽样单位数愈少,抽样误差愈大。抽样的方法。 在其他条件不变的情况下,重复抽样的抽样误差大于不重复抽样。抽样的组织形式。 抽样误差的大小与样本单位数的平方根成反比:如果抽样误差要减少二分之一,则样本单位数必须增大到4倍。22精编课件例、从某校1000名学生中简单随机抽取50名学生,称得平均体重为50千克,若已知总体标准差为10千克,计算重复抽样及不重复抽样下抽样平均误差。解:重复抽样条件下, 不重复抽样条件下, 在样本量相同的情况下,不重复抽样的平均误差要小于重复抽样的平均误差。23精编课件第第3节 总体平均数和体平均数和总体比例的估体比例的估计抽样估计必须包括三要素:1)估计值2

13、)估计值的误差范围3)概率保证程度(置信度)24精编课件一、点估计点估计(Point estimate) 点估计也称定值估计,常用点估计方法有矩估计,极大似然估计。样本均值是总体均值的点估计量,样本方差s2是总体方差2的点估计量,样本比例p是总体比例P的点估计量。优良估计量的标准: 无偏性 有效性 一致性25精编课件区间估计区间估计就是根据样本求出总体未知参数的估计区间,并使其可靠程度达到预定要求。(1 1) 总体方差总体方差2 2已知时已知时由于 ,所以对于给定的置信度1-,有即 可见,极限误差的计算公式为则总体均值的置信区间为26精编课件例:从某大学学生中随机抽取例:从某大学学生中随机抽取

14、100100名名调查调查体重情况。体重情况。经经称量和称量和计计算,得到平均体重算,得到平均体重为为5858千克。根据千克。根据过过去的去的资资料知道大学生体料知道大学生体重的重的标标准差是准差是1010千克。在千克。在95%95%的置信水平下,求的置信水平下,求该该大学学生平大学学生平均体重的置信区均体重的置信区间间。解:已知 =58,=10,z/2=1.96,n=100 =10/10=1(千克) =1.961=1.96(千克) 置信下限为58-1.96=57.04, 置信上限为58+1.96=59.96故所求置信区间为(57.04,59.96)千克。27精编课件 (2 2 2 2) 总总体

15、方差体方差体方差体方差2 2 2 2未知未知未知未知时时由于 t(n-1),对于给定的置信度1-,有置信下限 置信上限 在大样本下,总体均值的置信区间为28精编课件例:某保例:某保险险公司投保人年公司投保人年龄设龄设某保某保险险公司投保人年公司投保人年龄龄呈正呈正态态分布,分布,现现从从中抽取中抽取1010人,其年人,其年龄龄分分别为别为:3232,5050,4040,2424,3333,4444,4545,4848,4444,4747岁岁。试试以以95%95%的置信水平估的置信水平估计该计该保保险险公司投保人的平均年公司投保人的平均年龄龄。解:当置信度为95%时, =2.2622 2.654

16、4=6.00(岁) 因为40.7-6.00=34.7 40.7+6.00=46.7所以该保险公司投保人的平均年龄的置信区间为(34.7,46.7)岁。 29精编课件总总体比例的区体比例的区体比例的区体比例的区间间估估估估计计在大样本条件下,若np5,n(1-p) 5,则样本比例趋近于正态分布。对于给定置信度,有总体比例的置信区间为小样本条件下,不作介绍。30精编课件例:总体比例的区间估计【例例例例】某某城城市市想想要要估估计计下下岗岗职职工工中中女女性性所所占占的的比比例例,随随机机抽抽取取了了100100个个下下岗岗职职工工,其其中中6565人人为为女女性性职职工工。试试以以95%95%的的

17、置置信信水水平平估估计计该该城城市市下下岗岗职职工工中中女女性性比比例例的的置置信区间信区间解解解解:已已知知 n n=100=100,p p65% 65% , , 1 1- - = = 95%95%,z z /2/2=1.96=1.96该该城城市市下下岗岗职职工工中中女女性性比比例例的的置置信信区间为区间为55.65%74.35%55.65%74.35% 31精编课件例:某厂例:某厂对对一批一批产产品品进进行行质质量量检验检验,随机重复抽取,随机重复抽取样样品品100100只,只,样样本合格品率本合格品率为为9595,试计试计算把握程度算把握程度为为9090的合格品率置的合格品率置信区信区间

18、间。解:已知n=100,p=95%,1-=90%,查表得z/2=1.96 =0.0218 p=z/2 =1.960.0218=0.0359或3.59% 95%-3.59%=91.41%,95%+3.59%=98.59%故该批产品合格率的置信区间为(91.41%,98.59%)32精编课件第第5节 样本容量的确定本容量的确定 在重复抽样下,所以,必要抽样单位数在不重复抽样下,必要抽样单位数 33精编课件例:某市进行职工家庭生活费抽样调查,已知职工家庭平均每人每月生活费收入的标准差为110元,允许误差范围10元,概率把握程度95%,试确定应抽选的户数。 解: 34精编课件【例例例例】拥拥有工商管理

19、学士学位的大学有工商管理学士学位的大学毕业毕业生年薪的生年薪的标标准差大准差大约约为为20002000元,假定想要估元,假定想要估计计年薪年薪95%95%的置信区的置信区间间,希望,希望边际误边际误差差为为400400元,元,应应抽取多大的抽取多大的样样本容量?本容量?解:35精编课件影响必要抽影响必要抽影响必要抽影响必要抽样样数目的因素数目的因素数目的因素数目的因素(1)允许误差范围。当其它条件不变时,允许误差愈小,必要的抽样单位数就需要愈多;反之,允许误差愈大,抽样单位数就可以愈少。(2)总体方差2。其他条件不变的情况下,总体方差2愈大,总体单位的差异程度愈大,则样本单位数应愈多;反之,样

20、本单位数可愈少。(3)抽样估计的可靠程度1-。当其他条件不变时,抽样估计的可靠程度愈高,z/2数值愈大,抽样数目就必须愈多;反之,抽样估计的可靠程度愈低,抽样数目就可以愈少。(4)抽样方法。相同条件下,由于采用重复抽样比不重复抽样的误差大,所以,前者应比后者多抽一些样本单位。 除上述因素之外,抽样组织方式也是影响抽样单位数的一个原因 。36精编课件本章小本章小结1.1.总体分布、样本分布、抽样分布总体分布、样本分布、抽样分布2.2.单总体参数推断时样本统计量的分布单总体参数推断时样本统计量的分布3.3.参数估计的一般问题参数估计的一般问题4.4.一个总体参数的区间估计一个总体参数的区间估计5.

21、5.样本容量的确定样本容量的确定37精编课件期末考试大纲第九章 抽样与抽样估计抽样调查中的基本概念;总体均值与成数的简单估计;必要样本量的计算不作考试要求。38精编课件知识重点:抽样方法抽样方法 重置抽样 不重置抽样注意: 不重复抽样所得样本对总体的代表性较大,抽样误差较小,所以实践中通常采用不重复抽样。39精编课件抽样的组织方式简单随机抽样:分层抽样:整群抽样:系统抽样也称机械抽样。40精编课件误差: 误 差登记性误差代表性误差系统性误差随机性误差41精编课件抽样平均误差(1)均值重复抽样:不重复抽样:42精编课件抽样平均误差(2)比例重复抽样:不重复抽样:43精编课件影响抽样误差大小的因素

22、是:总体被研究标志的变异程度。抽样单位数的多少。抽样的方法。 抽样的组织形式。44精编课件(1 1) 总体方差总体方差2 2已知时已知时总体均值的置信区间为区间估计区间估计其中极限误差为45精编课件 (2 2 2 2) 总总体方差体方差体方差体方差2 2 2 2未知未知未知未知时时总体均值的置信区间为其中极限误差为46精编课件总总体比例的区体比例的区体比例的区体比例的区间间估估估估计计总体比例的置信区间为47精编课件第第5节 样本容量的确定本容量的确定 在重复抽样下,所以,必要抽样单位数在不重复抽样下,必要抽样单位数 48精编课件影响必要抽影响必要抽影响必要抽影响必要抽样样数目的因素数目的因素

23、数目的因素数目的因素(1)允许误差范围。当其它条件不变时,允许误差愈小,必要的抽样单位数就需要愈多;反之,允许误差愈大,抽样单位数就可以愈少。(2)总体方差2。其他条件不变的情况下,总体方差2愈大,总体单位的差异程度愈大,则样本单位数应愈多;反之,样本单位数可愈少。(3)抽样估计的可靠程度1-。当其他条件不变时,抽样估计的可靠程度愈高,z/2数值愈大,抽样数目就必须愈多;反之,抽样估计的可靠程度愈低,抽样数目就可以愈少。(4)抽样方法。相同条件下,由于采用重复抽样比不重复抽样的误差大,所以,前者应比后者多抽一些样本单位。 除上述因素之外,抽样组织方式也是影响抽样单位数的一个原因 。49精编课件

24、练习:某电子元件厂生产A型号的电子管,现从10000件产品中,抽取100件进行检验,结果是60件合格。计算合格品率的抽样平均误差。50精编课件练习:对一批电子元件进行耐用性能的检查,随机重置抽样方法选取100件作耐用测试,所得结果的分组资料如下:耐用时数(小时)组中值(x)件数(f)900以下 875 1900950 925 29501000 975 6100010501025 35105011001075 43110011501125 9115012001175 31200以上1225 1合计10051精编课件要求:在95.45%的可靠程度下对该批电子元件的平均耐用时数作出估计。概率保证程度

25、为95.45%,t值为2。52精编课件估计区间的下限:1055.510.38=1045.12小时估计区间的上限:1055.510.38=1065.88小时 所以,这批电子元件的平均耐用时数在1045.12小时至1065.88小时之间,可靠程度为95.45%。53精编课件以上例的资料,设电子元件的耐用时间在1000小时及以上为合格品,以95.45%的概率估计该批电子元件的合格率。54精编课件区间估计:估计的下限:91%5.72% = 85.28%估计的上限:91%5.72% = 96.72% 所以,这批电子元件的合格品率在85.28%至96.72%之间,可靠程度为95.45%。55精编课件近2年期末试题(计算题)1、某企业采用简单随机重复抽样,在1000件产品中抽查200件,其中不合格品10件,要求:(1)求抽样平均误差;(5分)(2)以95.45%的置信度对该批产品不合格率进行区间估计。 (5分)56精编课件2、某企业有1500个工人,用简单随机重复抽样的方法抽出50个工人作为样本,调查其产量水平,资料如下,根据以前经验,标准差为35,要求:(1)计算样本平均数和抽样平均误差。(5分) (2)94.45%的可靠性估计该厂工人的月平均产量的区间。 (5分)产量(件)520 530540550560580600 660工人数(人)46910864357精编课件

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号