抽样与抽样分布课件

上传人:M****1 文档编号:569242634 上传时间:2024-07-28 格式:PPT 页数:70 大小:2.28MB
返回 下载 相关 举报
抽样与抽样分布课件_第1页
第1页 / 共70页
抽样与抽样分布课件_第2页
第2页 / 共70页
抽样与抽样分布课件_第3页
第3页 / 共70页
抽样与抽样分布课件_第4页
第4页 / 共70页
抽样与抽样分布课件_第5页
第5页 / 共70页
点击查看更多>>
资源描述

《抽样与抽样分布课件》由会员分享,可在线阅读,更多相关《抽样与抽样分布课件(70页珍藏版)》请在金锄头文库上搜索。

1、2024/7/28统计学院统计学院1第六章第六章 抽样和抽样分布抽样和抽样分布本章重点本章重点:1.1.简单随机抽样;简单随机抽样; 2.2. 的抽样分布;的抽样分布;3.3. 的抽样分布;的抽样分布; 4.4.其他组织形式的抽样;其他组织形式的抽样;5.5.正态分布原理。正态分布原理。本章难点本章难点: 抽样分布原理。抽样分布原理。 2024/7/28统计学院统计学院2第六章第六章 抽样和抽样分布抽样和抽样分布统计实例(统计实例(Statistics in Practice) 我国某家用电器公司是国内空调最大的生产厂家之一,我国某家用电器公司是国内空调最大的生产厂家之一,2004年时其空调年

2、销售就年时其空调年销售就已达到已达到700万台,销售额为万台,销售额为120亿元。这家低亿元。这家低调、在外界看来有些神秘的家电企业,尽管不作声张,极少炒作,调、在外界看来有些神秘的家电企业,尽管不作声张,极少炒作,甚至喊出甚至喊出“不想做行业老大不想做行业老大”的话,之后的话,之后3年来却成长势头迅猛,年来却成长势头迅猛,增长率一直增长率一直40%以上,赢利率极高。为了避免当今家用电器行业以上,赢利率极高。为了避免当今家用电器行业低价利薄的局面,实现多条腿走路,以在新一轮竞争中保持优势,低价利薄的局面,实现多条腿走路,以在新一轮竞争中保持优势,该电器集团决策人又提出了进军汽车行业的战略目标。

3、为此他要该电器集团决策人又提出了进军汽车行业的战略目标。为此他要求公司营销部对国际国内各大汽车生产厂家生产能力、销售额、求公司营销部对国际国内各大汽车生产厂家生产能力、销售额、营利能力、市场占有率等方面作调查分析。营利能力、市场占有率等方面作调查分析。 作为公司营销部负责人来说,他必须思考怎样去采集汽车生作为公司营销部负责人来说,他必须思考怎样去采集汽车生产厂家的这些经济机密数据?获得这些数据后,应采用什么方法产厂家的这些经济机密数据?获得这些数据后,应采用什么方法作数据分析与推断。这必然会用到统计推断的知识。作数据分析与推断。这必然会用到统计推断的知识。2024/7/28统计学院统计学院3第

4、六章第六章 抽样和抽样分布抽样和抽样分布 从这一章开始便进入推断统计学的学习内容,它会节省人们从这一章开始便进入推断统计学的学习内容,它会节省人们的时间和财物来达到认识对象的最佳限度。的时间和财物来达到认识对象的最佳限度。 现实世界包含的素材集合非常庞大,从中提取需要的信息现实世界包含的素材集合非常庞大,从中提取需要的信息非常困难。如:非常困难。如:选民人数:每个候选人的支持率是多少?选民人数:每个候选人的支持率是多少?产品:不合格率是多少?产品:不合格率是多少?环境:污染程度如何?环境:污染程度如何?市场:品种、价格、质量状况、购买力等情况的了解。市场:品种、价格、质量状况、购买力等情况的了

5、解。 在这一章里,你将会了解到样本是怎样抽取的,样本统计在这一章里,你将会了解到样本是怎样抽取的,样本统计量是怎样分布的,如何根据样本统计量对总体参数做估计。量是怎样分布的,如何根据样本统计量对总体参数做估计。2024/7/28统计学院统计学院4第六章第六章 抽样和抽样分布抽样和抽样分布第一节第一节第一节第一节 抽样及抽样组织形式抽样及抽样组织形式抽样及抽样组织形式抽样及抽样组织形式例例 某某养养猪猪场场共共有有存存栏栏肉肉猪猪10000头头,现现欲欲了了解解这这批批肉肉猪猪平平均均每每头头毛毛重重,如如果果将将每每头头肉肉猪猪都都过过秤秤去去秤秤而而获获取取数数据据将将是是不不合合算算的的。

6、我我们们可可以以按按照照“等等机机会会原原则则” 从从中中抽抽出出100头头肉肉猪猪称称其其重重量量,计计算算这这100头头猪猪的的平平均均每每头头毛毛重重,以以达达到到我们期望的目的。我们期望的目的。本本例例中中存存栏栏肉肉猪猪1000010000头头组组成成的的总总体体,则则称称为为全全及及总总体体,它它是是指指在在统统计计抽抽样样中中所所要要了了解解的的研研究究对对象象整整体体,又又称称为为母母体体,当当我我确确定定了了研研究究目目标标时时,它它具具有有惟惟一一性性。一一般般全全及及总总体体的的单位总数用单位总数用N N表示,称作表示,称作总体容量总体容量。2024/7/28统计学院统计

7、学院5第六章第六章 抽样和抽样分布抽样和抽样分布本例中所抽出的本例中所抽出的100100头肉猪组成的总体,则称为头肉猪组成的总体,则称为样本总体样本总体,它是,它是指在统计抽样中按照指在统计抽样中按照“等机会原则等机会原则” 从从全及总体全及总体的的N(10000)N(10000)中抽中抽出的部分单位出的部分单位( (每个单位称作样本单位每个单位称作样本单位) )所组成的整体,简称样本,所组成的整体,简称样本,又称子样。一般样本总体的单位总数用又称子样。一般样本总体的单位总数用n(100)n(100)表示,称作样本容表示,称作样本容量。样本总体则不具惟一性,它的可能个数与量。样本总体则不具惟一

8、性,它的可能个数与N N、n n及抽样方法有及抽样方法有关。通常关。通常n30n30,则不论是否已知总体分布状态,样本平均数,则不论是否已知总体分布状态,样本平均数的分布趋近正态分布,而且其分布比总体分布更集中,即的分布趋近正态分布,而且其分布比总体分布更集中,即 其中其中 为样本平均数的方差,为样本平均数的方差, 为总体方差为总体方差定理:设定理:设X是具有期望值为是具有期望值为 ,方差为,方差为 的任意总体,则的任意总体,则样本平均数的抽样分布,将随着样本平均数的抽样分布,将随着n的增大而趋于正态分布,分的增大而趋于正态分布,分布形式(参数)为布形式(参数)为 N ( )-中心极限定理中心

9、极限定理2024/7/28统计学院统计学院49第六章第六章 抽样和抽样分布抽样和抽样分布正态分布正态分布正态分布正态分布140 150 160 170 180 1900.50.40.30.20.1身高身高(以已知总体为例以已知总体为例)2024/7/28统计学院统计学院50调整:调整:“频率密度频率密度”(频率(频率/组距)组距)“频率频率”; 直方或直方或 折线覆盖下的面积折线覆盖下的面积= = 1 1140 150 160 170 180 190身高身高0.050.050.040.040.030.030.020.020.010.012024/7/28统计学院统计学院51当组数当组数n无穷大

10、,折线无穷大,折线曲线。曲线。身高身高140 150 160 170 180 1900.050.040.030.020.012024/7/28统计学院统计学院52注:参数注:参数 、 不同不同分布的形状与位置不同。分布的形状与位置不同。2024/7/28统计学院统计学院53 x1 x2-Z 0 Z容易证明得到容易证明得到2024/7/28统计学院统计学院54162 170 178-z /2 0 z /22024/7/28统计学院统计学院55 第四节第四节 的抽样分布的抽样分布 样本比例样本比例 的所有可能取值的概率分布的所有可能取值的概率分布一、一、 的期望值和标准差的期望值和标准差P-总体比

11、例总体比例1. 1.期望期望期望期望2. 2.标准差标准差标准差标准差的标准差又称比例的标准误的标准差又称比例的标准误的标准差又称比例的标准误的标准差又称比例的标准误计算式如下:计算式如下:有限总体有限总体无限总体无限总体根据中心极限定理,当样本容量根据中心极限定理,当样本容量n很大时,可视很大时,可视 的分布为正态的分布为正态分布。条件:分布。条件:2024/7/28统计学院统计学院56第六章第六章 抽样推断抽样推断 注:注: (1)可用样本成数方差代替总体成数方差;)可用样本成数方差代替总体成数方差; (2)可用样本成数)可用样本成数 代替总体成数代替总体成数P; (3)有若干个)有若干个

12、P值时,值时,P取最接近取最接近0.5的的P值;值; (4)无)无P值时,取值时,取P=0.5 (此时方差最大此时方差最大)2024/7/28统计学院统计学院57第六章第六章 抽样推断抽样推断 例:一批食品罐头60,000桶,随机抽查300桶,发现有6桶不合格,求合格率的抽样平均误差。 解:已知样本的合格率= 重复抽样: 不重复抽样:2024/7/28统计学院统计学院58第六章第六章 抽样和抽样分布抽样和抽样分布 第五节第五节 其他抽样组织形式其他抽样组织形式 抽抽样样组组织织形形式式是是指指在在抽抽样样时时对对总总体体的的加加工工整整理理形形式式。根根据据对对总总体体的的加加工工整整理理形形

13、式式不不同同,在在抽抽样样调调查查中中抽抽样样的的组组织织方方式式很很多多,除除简简单单随随机机抽抽样样外外,还还有有类类型型抽抽样样、等等距距抽抽样样、整整群群抽抽样样、多多阶阶段段抽抽样样等等其其他他抽抽样样组织形式。组织形式。 2024/7/28统计学院统计学院59第六章第六章 抽样推断抽样推断一、类型(分层)抽样一、类型(分层)抽样1 .概念 先将全部总体单位按主要标志进行分组(类),再按随机原则在各组进行纯随机抽样。 2 .抽样数目在各组的确定(1 )类型平均抽样 适用前提是各组单位数相等或差异不大的情况下。(2)不等比例抽样: i/ =ni/n 离差越大,抽得越多,反之亦反。 (但

14、(但(但(但 事先不知道)事先不知道)事先不知道)事先不知道)2024/7/28统计学院统计学院60第六章第六章 抽样推断抽样推断*(3)等比例抽样:先将全部总体单位分类,再按同一比例在各类抽取样本单位。即:n1/N1= n2/N2= = n/N 样本与总体比例一致 。 例:2024/7/28统计学院统计学院61 特点:特点:类型抽样是应用于总体内各单位在被研究标志类型抽样是应用于总体内各单位在被研究标志上有明显差别的抽样,如研究农作物产量时,耕地有上有明显差别的抽样,如研究农作物产量时,耕地有平原、丘陵和山地等;研究职工的工资水平时,各行平原、丘陵和山地等;研究职工的工资水平时,各行业之间有

15、明显的差别。业之间有明显的差别。类型抽样实质上是把统计分组类型抽样实质上是把统计分组和抽样原理有机结合的抽样组织方式。和抽样原理有机结合的抽样组织方式。通过分组,可通过分组,可以使组中具有同质性,组间具有差异性,然后从各组以使组中具有同质性,组间具有差异性,然后从各组中简单随机抽样。这样可以保证样本对总体具有更高中简单随机抽样。这样可以保证样本对总体具有更高的代表性,所以计算出的抽样误差就比较小。类型抽的代表性,所以计算出的抽样误差就比较小。类型抽样应掌握的主要原则是:样应掌握的主要原则是:分组时应使组内差异尽可能分组时应使组内差异尽可能小,使组间差异尽可能大。小,使组间差异尽可能大。第六章第

16、六章 抽样和抽样分布抽样和抽样分布2024/7/28统计学院统计学院621、2、3、i、Ki+2Ki+(n-1)Kn二、等距抽样二、等距抽样 等等距距抽抽样样又又称称为为机机械械抽抽样样或或系系统统抽抽样样。它它是是先先将将总总体体各各单单位位按按某某一一标标志志顺顺序序排排列列,然然后后按按照照固固定定的的顺顺序序和和相相同同的的间间隔隔来来抽抽取取样样本本单位的抽样组织方式。单位的抽样组织方式。 设设全全及及总总体体有有N个个单单位位,现现在在需需要要抽抽取取一一个个容容量量为为n的的样样本本,可可以以将将总总体体单单位位N按按一一定定标标志志排排队队,然然后后将将N划划分分为为n个个单单

17、位位相相等等的的部部分,每一部分都包含分,每一部分都包含K个单位,即个单位,即N/n=K。 在在第第一一部部分分K个个单单位位中中(顺顺序序为为1、2、3、i、K )随随机机抽抽取取一一个个单单位位i,而而在在第第二二部部分分中中抽抽取取第第i+K单单位位。第第三三部部分分中中抽抽取取第第i+2K单单位位在在第第n部部分分抽抽取取第第i+(n-1)K单单位位,共共n个个单单位位组组成成一一个样本,而且每个样本的间隔均为个样本,而且每个样本的间隔均为K,这种抽样方法称等距抽样。,这种抽样方法称等距抽样。2024/7/28统计学院统计学院63等距抽样的随机性表现在抽取第一个样本单位上,当第一等距抽

18、样的随机性表现在抽取第一个样本单位上,当第一个单位确定后,其余各个单位的位置也就确定了。等距抽个单位确定后,其余各个单位的位置也就确定了。等距抽样可以分为无关标志排序抽样和有关标志排序抽样两类。样可以分为无关标志排序抽样和有关标志排序抽样两类。 无关标志排序抽样是无关标志排序抽样是指排序的标志与被研究的标志无关指排序的标志与被研究的标志无关,如:观察学生考试成绩用姓氏笔划;观察产品质量按生产如:观察学生考试成绩用姓氏笔划;观察产品质量按生产的先后顺序等。无关标志排序可以保证抽样的随机性,它的先后顺序等。无关标志排序可以保证抽样的随机性,它实质上相当于简单随机抽样。实质上相当于简单随机抽样。 有

19、关标志排序抽样是有关标志排序抽样是指排序的标志与被研究标志相关指排序的标志与被研究标志相关。 在对总体各单位的变异情况有所了解的情况下,也可以在对总体各单位的变异情况有所了解的情况下,也可以采用有关标志进行总体单位排列,使各单位的排列顺序和采用有关标志进行总体单位排列,使各单位的排列顺序和它的变量数值大小保持密切的关系。它的变量数值大小保持密切的关系。第六章第六章 抽样和抽样分布抽样和抽样分布2024/7/28统计学院统计学院64如:农产量抽样调查,可利用各县或各乡当年估计如:农产量抽样调查,可利用各县或各乡当年估计亩产或最近三年平均亩产标志排队,抽取调查单位;亩产或最近三年平均亩产标志排队,

20、抽取调查单位;又如职工家计调查,可按职工平均工资排队,抽取又如职工家计调查,可按职工平均工资排队,抽取调查企业或调查户。调查企业或调查户。 由此可见,按有关标志排序实质上是运用类型由此可见,按有关标志排序实质上是运用类型抽样的一些特点,有利于提高样本的代表性。抽样的一些特点,有利于提高样本的代表性。 但也但也必须注意到,等距抽样在排序时,第一个样本单位必须注意到,等距抽样在排序时,第一个样本单位的位置确定后,其余单位也随之确定,因此要避免的位置确定后,其余单位也随之确定,因此要避免抽样间隔和现象本身的周期性节奏相重合,引起系抽样间隔和现象本身的周期性节奏相重合,引起系统性的影响。统性的影响。第

21、六章第六章 抽样和抽样分布抽样和抽样分布2024/7/28统计学院统计学院65三、整群抽样三、整群抽样 整整群群抽抽样样又又称称为为分分群群抽抽样样或或集集团团抽抽样样。它它是是将将总总体体划划分分为为若若干干群群,然然后后以以群群为为单单位位从从中中按按简简单单随随机机抽抽样样方方式式或或等等距距抽抽样样方方式式抽抽取取部分群,对中选群中的所有单位一一进行调查的抽样组织方式。部分群,对中选群中的所有单位一一进行调查的抽样组织方式。 第六章第六章 抽样和抽样分布抽样和抽样分布ABCDEFGHIJKLNOPLHPD1、按某种标志或要求将总体区分为若干群(、按某种标志或要求将总体区分为若干群(R)

22、,),群内单位数群内单位数群内单位数群内单位数(M)相等相等相等相等;2、采取、采取不重复抽样方式不重复抽样方式不重复抽样方式不重复抽样方式从从R群随机抽出群随机抽出r群,尔后对样本群进行群,尔后对样本群进行全面调查全面调查全面调查全面调查以推断总体。以推断总体。总总总总体体体体群群群群数数数数R R样样样样本本本本群群群群数数数数r r2024/7/28统计学院统计学院66 在大规模的抽样调查中,如果总体单位多且分布在大规模的抽样调查中,如果总体单位多且分布区域广,缺少进行抽样的抽样框,或者在按经济效益区域广,缺少进行抽样的抽样框,或者在按经济效益原则不宜编制这种抽样框的情况下,宜采用整群抽

23、样原则不宜编制这种抽样框的情况下,宜采用整群抽样方式。方式。 整群抽样中的群主要是自然形成的,如按行政区整群抽样中的群主要是自然形成的,如按行政区域、地理区域划分群。整群抽样和其他抽样组织方式域、地理区域划分群。整群抽样和其他抽样组织方式比较,在相同的条件下,抽样误差较大,代表性较低。比较,在相同的条件下,抽样误差较大,代表性较低。在统计工作实践中采用整群抽样时,一般都要比其他在统计工作实践中采用整群抽样时,一般都要比其他抽样方式抽样更多的单位,借以降低抽样误差,提高抽样方式抽样更多的单位,借以降低抽样误差,提高抽样结果的准确程度。抽样结果的准确程度。第六章第六章 抽样和抽样分布抽样和抽样分布

24、2024/7/28统计学院统计学院67四、多阶段抽样四、多阶段抽样 多阶段抽样又称多级抽样。它是将抽取样本单位的过程划分为几多阶段抽样又称多级抽样。它是将抽取样本单位的过程划分为几个阶段,然后逐阶段抽取样本单位的抽样组织方式。个阶段,然后逐阶段抽取样本单位的抽样组织方式。 如果先将总体进行分组,从中随机抽出一些组,然后再从中选如果先将总体进行分组,从中随机抽出一些组,然后再从中选的组中随机抽取总体单位,称为二阶段抽样,如整群抽样随机抽出的组中随机抽取总体单位,称为二阶段抽样,如整群抽样随机抽出群,再从群中随机抽出样本单位就是二阶段抽样。如果将总体进行群,再从群中随机抽出样本单位就是二阶段抽样。

25、如果将总体进行多层次分组,然后依次在各层中随机抽取,直到抽到总体单位,就多层次分组,然后依次在各层中随机抽取,直到抽到总体单位,就称为多阶段抽样,如我国农产量调查就是采用多阶段抽样调查,即称为多阶段抽样,如我国农产量调查就是采用多阶段抽样调查,即先从省中抽县,然后从中选县抽乡,乡中抽村,再由中选村中抽地先从省中抽县,然后从中选县抽乡,乡中抽村,再由中选村中抽地块,最后从中选的地块中抽取小面积的样本单位。块,最后从中选的地块中抽取小面积的样本单位。 当总体单位很多且分布广泛,几乎不可能从总体中直接抽取总当总体单位很多且分布广泛,几乎不可能从总体中直接抽取总体单位时,常采用多阶段抽样。体单位时,常

26、采用多阶段抽样。其优点在于:其优点在于: 首先,便于组织抽样。它可以按现有的行政区划或地理区域划首先,便于组织抽样。它可以按现有的行政区划或地理区域划分各阶段的抽样单元,从而简化抽样框的编制。分各阶段的抽样单元,从而简化抽样框的编制。2024/7/28统计学院统计学院68 其次,可以获得各阶段单元的调查资料,即根据最初级资料可进其次,可以获得各阶段单元的调查资料,即根据最初级资料可进行逐级抽样推断,得到各级的调查资料。如农产量调查,可根据样行逐级抽样推断,得到各级的调查资料。如农产量调查,可根据样本推断地块资料,根据地块资料可推断村的资料,然后依次推断乡、本推断地块资料,根据地块资料可推断村的

27、资料,然后依次推断乡、县等。县等。 第三,多阶段抽样的方式比较灵活,各阶段抽样的组织方式可第三,多阶段抽样的方式比较灵活,各阶段抽样的组织方式可以前述四种为依据进行选择。一般在初级阶段抽样时多用类型抽样以前述四种为依据进行选择。一般在初级阶段抽样时多用类型抽样和等距抽样,在次级阶段抽样时多用等距抽样和简单随机抽样。同和等距抽样,在次级阶段抽样时多用等距抽样和简单随机抽样。同时,还可以根据各阶段的不同特点,采用不同的抽样比。如方差大时,还可以根据各阶段的不同特点,采用不同的抽样比。如方差大的阶段,抽样比大一些;方差小的阶段,抽样比小一些。而且多阶的阶段,抽样比大一些;方差小的阶段,抽样比小一些。

28、而且多阶段抽样在简化抽样工作的同时,抽样单位的分布较广,具有较强的段抽样在简化抽样工作的同时,抽样单位的分布较广,具有较强的代表性。代表性。 2024/7/28统计学院统计学院69 案例分析题案例分析题 改革开放改革开放3030多年,我国成为当之无愧的市场经济大多年,我国成为当之无愧的市场经济大国。作为市场繁荣的景观之一,各种形式的广告通过多种国。作为市场繁荣的景观之一,各种形式的广告通过多种渠道不时向我们袭来。为了简短的广告词,厂家和商家都渠道不时向我们袭来。为了简短的广告词,厂家和商家都煞费苦心。有的聘请名人代言,有的列举言之凿凿的数据。煞费苦心。有的聘请名人代言,有的列举言之凿凿的数据。

29、在难以计数的广告中,有不少广告词坚守诚信,受众从中在难以计数的广告中,有不少广告词坚守诚信,受众从中能得到真实的商品信息。但也有人在广告词中罗列虚假的、能得到真实的商品信息。但也有人在广告词中罗列虚假的、模糊的、无意义的数据,用模糊的、无意义的数据,用“数据迷雾数据迷雾”误导消费者。这误导消费者。这类包含类包含“数据迷雾数据迷雾”的广告很具有欺骗性。如:某款手机的广告很具有欺骗性。如:某款手机的广告词里写到,这款手机的广告词里写到,这款手机“超长待机超长待机780780小时,一个月小时,一个月只需充一次电!只需充一次电!” 请分析造成上述广告请分析造成上述广告“数据迷雾数据迷雾”的原因大概有哪

30、些的原因大概有哪些?2024/7/28统计学院统计学院70 答题要点:答题要点: (1 1)搜集这些数据采用了哪种统计调查方法?如果)搜集这些数据采用了哪种统计调查方法?如果是抽样调查,样本的选择是否遵循是抽样调查,样本的选择是否遵循“随机原则随机原则”,样本容,样本容量是否合理、是否有偏倚?量是否合理、是否有偏倚? (2 2)即使遵循)即使遵循“随机原则随机原则”,780780小时是特殊环境下小时是特殊环境下的理论待机时间,还是正常使用条件下的待机时间?的理论待机时间,还是正常使用条件下的待机时间? (3 3)即使在同样的条件下,)即使在同样的条件下,780780小时是均值、中位数,小时是均值、中位数,还是最大值?如果它是均值,标准差又是多少?没有告知还是最大值?如果它是均值,标准差又是多少?没有告知标准差的待机时间,其代表性不得而知。标准差的待机时间,其代表性不得而知。 (4 4)从统计学的角度来看,测试环境下待机时间的)从统计学的角度来看,测试环境下待机时间的下限是消费者更应注意的。下限是消费者更应注意的。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号