抽样与抽样估计－金锄头文库

资源描述

《抽样与抽样估计》由会员分享，可在线阅读，更多相关《抽样与抽样估计（5页珍藏版）》请在金锄头文库上搜索。

1、第五章抽样与抽样估计教学目的与要求：参照教学大纲。教学重点：抽样误差、区间估计的方法、样本容量的确定、抽样组织形式等教学难点：抽样平均误差的概念及计算、区间估计的几种方法、各种不同抽样组织形式的特点第一节抽样调查中的基本概念一、抽样推断的一般概念抽样推断是在根据随机原则从总体中抽取部分实际数据的基础上，运用数理统计方法，对总体某一现象的数量性作出具有一定可靠程度的估计判断。抽样推断的特点：它是由部分推算整体的一种认识方法；它是建立在随机取样的基础上。它是运用概率估计的方法；抽样推断的误差可以事先计算并加以控制。抽样推断的主要内容为：参数估计和假设检验二、抽样的基本概念1、全及总体

2、和样本总体全及总体是我们所要研究的对象，又称母体，简称总体，它是指所要认识的，具有某种共同性质的许多单位的集合体。总体单位的总数称为总体容量，一般用 N 表示。样本总体则是我们所要观察的对象，样本总体又称子样，简称样本，是从全及总体中随机抽取出来，代表全及总体的那部分单位的集合体。样本总体的单位数称为样本容量，通常用小写英文字母n 来表示。对于一次抽样调查，全及总体是唯一确定的。而样本是不确定的，具有随机性，一个全及总体可能抽出很多个样本总体，样本的个数和样本的容量有关，也和抽样的方法有关。根据总体各个单位的标志值或标志属性计算的，反映总体某种属性或特征的综合指示称为总体指标，也称总

3、体参数。常用的总体指标有总体平均数（或总体成数）、总体标准差（或总体方差）。由样本总体各单位标志值计算出来反映样本特征，用来估计全及指标的综合指标称为统计量（抽样指标）。统计量是样本变量的函数，用来估计总体参数，因此与总体参数相对应，统计量有样本平均数（或抽样成数）、样本标准差（或样本方差）。2、样本容量和样本个数样本容量是指一个样本所包含的单位数。通常将样本单位数不少于3 0个的样本称为大样本，不及3 0个的称为小样本。社会经济统计的抽样调查多属于大样本调查。样本个数又称样本可能数目。指从一个总体中可能抽取的样本个数。一个总体有多少样本，则样本统计量就有多少种取值，从而形成该统计量的

4、分布，此分布是抽样推断的基础。3、抽样框抽样框是包括全部抽样单位的名单框架。编制抽样框是实施抽样的基础。抽样框的好坏通常会直接影响到抽样调查的随机性和调查的效果。抽样框的形式：（1）名单抽样框，即列出全部总体单位的名录一览表，如职工名单，企业名单。（2）区域抽样框，按地理位置将总体范围划分为若干小区域，以小区域位抽样单位。（3）时间表抽样框，将总体全部单位按时间顺序排列，把总体的时间过程分为若干个小的时间单位，以此时间单位为抽样单位。如对流水线上 24 小时内生产的产品行质量检查时，以 5分钟为一个抽样单位，可将全部产品分为 288 个抽样单位并按时间顺序排列。4、抽

5、样误差在抽样调查中，误差的来源有登记性误差和代表性误差两大类。登记性误差是指在调查和汇总过程中由于观察、测量、登记、计算等方面的差错或被调查者提供虚假资料而造成的误差。任何一种统计调查都可能产生登记性误差。代表性误差是只用样本指标推断总体指标时，由于样本结构与总体结构不一致、样本不能完全代表总体而产生的误差。可分为系统误差和随机性误差两种。系统误差指由于非随机因素引起的样本代表性不足而产生的误差。随机误差有称偶然性误差，指遵循堆积原则抽样，由于随机因素引起的代表性误差。抽样误差是指由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构，而引起抽样指标和全及指标之间的绝对

6、离差，又称为随机误差。影响抽样误差的因素有：总体各单位标志值的差异程度；样本的单位数；抽样的方法 ; 抽样调查的组织形式。1、抽样实际误差。抽样实际误差是指某一具体样本的样本估计指与总体参数的真实指之间的离差。由于总体参数是未知数，因此，每次抽样的实际抽样误差是无法计算的。它是一个随机变量。2、抽样平均误差。抽样平均误差是反映抽样误差一般水平的指标，它的实质含义是指抽样平均数（或成数）的标准差。即它反映了抽样指标与总体指标的平均离差程度。其作用首先表现在它能够说明样本指标代表性的大小。平均误差大，说明样本指标对总体指标的代表性低；反之则说明样本指标对总体指标的代表性高。抽样平

7、均误差的计算：重复抽样：不重复抽样：3、抽样极限误差。抽样极限误差是指一定概率下抽样误差的可能范围，也称为允许误差。一般用表示抽样极限误差。基于理论上的要求，抽样极限误差需要用抽样平均误差或为标准单位来衡量。即把极限误差 x或p相应除以或，得出相对的误差程度 t 倍， t 称为抽样误差的概率度。这个问题将在参数估计方法中详细说明。于是有：第二节抽样分布下面讨论以简单随机重复抽样为对象，在此条件下所得的样本称为简单随机样本，它满足两个条件：1. 样本单位之间相互独立； 2. 每个样本单位都与总体同分布。样本统计量的概率分布就是抽样分布，因为样本指标是一随机变量，而每个随机变量都有概率分布

8、。例如，总体有N个单位，从总随机抽取 n个单位进行调查，可抽取个样本，从而可得到个不尽相同的样本平均数，经整理，将样本平均数的全部可能取值及其出现的概率依序排列，就得到样本平均数的概率分布，即平均数的抽样分布。同理，可得样本成数的抽样分布和样本标准差的抽样分布。抽样分布反映样本指标的分布特征，是抽样推断的重要依据。在抽样推断中，许多场合下统计量服从正态分布或以正态分布为渐近分布，所以正态分布（见第四章）是最常用的。此外还有几种比较重要的抽样分布形式需稍作了解。一、分布设，是独立同分布的随机变量，且每个随机变量都服从标准正态分布，即，则随机变量的分布称作自由度为 n 的分布，记为

9、。若样本，来自于正态总体，可以证明，统计量其中，二、t 分布设X与Y随机变量相互独立，而且，丫，则随机变量服从自由度为 n的t分布，记为t（n）。若样本，来自于正态总体，可以证明，统计量其中，当样本容量充分大时， t 分布趋近于标准正态分布。三、F 分布设X与Y分别服从自由度为，的分布，且相互独立，则统计量性质：（ 1），则，；（2）若是 F 的分布函数，有若样本X:，和Y: ,分别来自于正态总体、，可以证明，统计量特别地，当两个正态总体的方差相等时，就有第三节抽样估计的基本方法抽样估计就是利用实际调查计算的样本指标值来估计相应的总体指标数值。抽样估计有点估计和区间估计两种。

10、一、点估计参数点估计的基本特点：根据总体指标的结构形式设计样本指标作为总体参数的估计量，并以样本指标的实际值直接作为相应总体参数的估计值。点估计的优良标准是无偏性、一致性和有效性。二、区间估计顾名思义，区间估计就是用一个区间去估计未知参数。它要根据样本估计量以一定的可靠程度推断总体参数所在的区间范围。设总体参数为,为由样本确定的两个统计量，对于给定的（0 V V 1 =，有则称（ , ）为参数的置信度为的置信区间。该区间的两个端点 , 分别称为置信下限和置信上限，通称为置信限。为显著性水平，则称为置信度。置信度表示区间估计的可靠程度或把握程度，也即所估计的区间包含总体真

11、值的可能性。置信度为的置信区间也就表示以的可能性（概率）包含了未知总体参数的区间。（一）总体均值的区间估计1. 总体方差已知时，正态总体均值的区间估计如果总体服从正态分布，那么的抽样分布仍是正态分布，变量则服从标准正态分布。根据前面区间估计的定义，可以构造均值的置信区间，对于给定的显著性水平， =即在给定的显著性水平下，总体均值在的置信水平下的置信区间为：（， + ）同时，由前定义可知，抽样极限误差可按如下公式来确定：称为概率度，是重复抽样条件下样本平均数的抽样平均误差。若采用不重复抽样方法，则应该以下式计算：例5.1 某企业从长期实践得知，某产品直径是一随机

12、变量，服从标准差为 0.05 的正态分布。从某日产品中采取重复的方法随机抽取 6个，测得其直径分别为 14.8， 15.3， 15.1， 15， 14.7， 1 5.1 （单位：厘米）。在 0.95 的置信度下，试求该产品直径的均值的置信区间。解：已知 =6 ， =0.95, 查正态分布表得 = =1.96 当 =0.95 时， =1.96 是一个常用的值，希望读者记住。样本均值抽样平均误差抽样极限误差=1.96 X 0.02=0.04所求的置信区间为：15 - 0.04 15+0.04 即（14.96 , 15.04 ） emo我们有95%的概率保证该种产品的直径的平均长度在14.9

13、615.04cm之间。2. 总体方差未知时，总体均值的区间估计（小样本）上述构造总体均值置信区间的方法，只有在总体方差已知时才能应用。但是总体平均数未知而总体方差已知的情况是不多见的，一般情况是两者均未知。根据抽样分布定理小样本条件下，如果总体是正态分布（或近似服从正态分布）的，总体标准差未知而需要用样本标准S来代替，则随机变量。给定置信度，构造总体均值的置信度为的置信区间给定概率，抽样极限误差为：例5.2 某商场从一批袋装食品中随机抽取 10袋，测得每袋重量（单位：克）分别为789、780、794、762、802、813、770、785、810、806，要求以 95%的把握程度，估计这

14、批食品的平均每袋重量的区间范围及其允许误差。解：已知 =10样本平均数样本标准差已知 =0.95 ，查分布表得， = ，故允许误差为：总体平均重量的置信区间为：791.1 12.26克即778.84803.36克。当样本容量相当大时，即是总体分布形式未知或总体为非正态分布，此时样本均值近似服从正态分布，估计总体均值的方法与上述第一种方法相同。例 5.3 某大学从该校学生中随机抽取 100人，调查到他们平均每天参加体育锻炼的时间为 26 分钟，样本方差为 36。试以 95%的置信水平估计该大学全体学生平均每天参加体育锻炼的时间。解：已知 =100 ， =26 ， =36 ， =95%

15、， =1.96 ，总体均值的 95%置信区间为：（， + ）=（26 1.96 ，26+1.96 ）=（ 26 1.176 ，26+1.176 ）即为（ 24.824 ， 27.176 ）分。故全校学生平均每天参加体育锻炼的时间在24.8427.16分钟之间。（二）总体成数的区间估计在许多实际问题中，常常需要估计总体中具有某种特征的单位占总体全部单位的比例。例如，全部产品中合格品的比例；一批种子的发芽率；职工收入中工资收入所占比例等。我们称总体中具有某种特征的单位占总体全部单位的比例为总体比例，记为；称样本具有该种特征的单位占样本全部单位的比例为样本比例，记为。在第五章中曾讨论了样本比例的抽样分布，并指出在大样本条件下，若和都大于 5，则的抽样分布近似服从平均值为、方差为的正态分布。因而可以用 Z 统计量来构造总体比例的置信区间，即但是，在实际工作中往往时未知的，我们所要估计的也正是这个总体比例，所以，就需要用样本比例来代替。这样，在的置信水平下，总体比例的置信区间为：（）例 5.4 某厂对一产品的质量进行抽样检验，采用重复抽样抽取样品 200只，样本优质品率为 85%，试计算当把握程度为 90%时优质品率的区

展开阅读全文

抽样与抽样估计

最新文档