{品质管理抽样检验}抽样调查-第2章简单随机抽样

资源描述

《{品质管理抽样检验}抽样调查-第2章简单随机抽样》由会员分享，可在线阅读，更多相关《{品质管理抽样检验}抽样调查-第2章简单随机抽样（95页珍藏版）》请在金锄头文库上搜索。

1、2.1 定义与符号,一、定义,简单随机抽样：从含有N个单元的总体中随机抽取n个单元组成样本。,1.若抽样是放回的,则所有可能的样本有,个，每个样本被抽中的概率为，这种抽样方法称为放回简单随机抽样。,2.若抽样是不放回的,则所有可能的样本有,法称为不放回简单随机抽样。,1.简单随机抽样是等概抽样,即每个总体单元都有相同的入样概率; 2.随机抽取是有严格要求的,不是随便抽取，必须按照某一随机原则进行。,注意,【例 2.1】设总体有5个单元（1,2,3,4,5)，按,放回简单随机抽样的方式抽2个单元，则所有可,(放回简单随机抽样所有可能的样本),【例 2.2】设总体有5个单元（1,2,3,4,

2、5)，按,不放回简单随机抽样的方式抽2个单元，则所有可,(不放回简单随机抽样所有可能的样本),在实际工作中，更多地采用不放回简单随机抽样，所以以下讨论的简单随机抽样一般都指不放回简单随机抽样.,二、符号,大写字母表示总体单元的标志值：如,小写字母表示样本单元的标志值：如,调查的总体目标量主要有：,比例 P；两个总体总量的比率 R。,对估计精度进行计算时，要涉及到总体方差和,样本方差等。下面分别列出：,总体方差,样本方差,还有一些其他符号,分别说明如下:,总体,，,样本,将左边式子中的大写字母改为小写字母。,到的总体指标的估计。如,估计量的方差用V表示，如,标准差用S表示，如,2.2

3、简单估计量及其性质,无论调查对象是何种总体参数，其实所有估计量通常都是样本均值的某种线性组合，因此在抽样中不管讨论何种估计的基本性质，都只围绕样本均值进行。而对样本均值这个核心估计量的研究则分为两个方面：,一方面是求样本均值对所有可能样本的数学期望（检验估计量是否无偏）。,另一方面是求样本均值对所有可能样本的方差（检验估计量误差的大小）。,为了讨论简单估计的性质，首先我们来看两个引理：引理一从大小为N的总体中抽取一个样本量为n的简单随机样本，则总体中每个特定单元的入样概率为：,两个特定单元都入样的概率为：,引理一的证明：在N个单元中取n个单元为样本，共有个样本。在个样本

4、中，包含某个特定单元的样本数为：每个样本被抽中的概率为：。,同时包含两个特定单元的样本数为每个样本被抽中的概率为:,引理二从总体规模为N的总体中抽取一个样本量为n的简单随机样本。若对总体中的每个单元，引进随机变量如下：,由二项分布可知：,所以，不难推出：,下面我们用两种与数理统计中不同的方法来证明这一性质。思考：为什么不能用数理统计中常用的方法？,有了这些准备，我们很容易证明,根据前面提到的关于的定义，有下式,证明：对于一个大小为N的总体，样本量为n的,其他几个估计量的无偏性可容易推出：,1、对于总体总量,2、对于总体比例,有限总体校正系数。,证明方法一,即,证明方法

5、二:由定义,而,因此有,即,证明:将改写成:,由前面性质1证明用过的对称论证法有:,由性质2有:,下面我们从关系式,可以推出其他几个估计量的方差,总体总量的估计量方差是总体均值方差的直接推导，下面我们来推导总体比例估计量的方差。,设N个样本单元中有N1个具有某一特性,即有N1个单元取值为1,有N-N1个单元取值为0.,同理对样本方差有,因此,同样下面我们从关系式,可以推出,从式可以看出，影响估计量方差的因素有：,分析见教材P38,39,N通常很大，当f0.05时，可将1-f近似取为1，这时影响估计量方差的主要因素是样本量n和总体方差。的大小是我们无法改变的，因此，要提高估计量的精度就

6、只有加大样本量。,注意,【例2.3】我们从某个N=100的总体中抽出一个大小为n=10的简单随机样本，要估计总体平均水平并给出置信度95%的置信区间。,解：依题意，N=100,n=10,f=,样本均值为：,样本方差为：,因此，总体平均值的估计为：,的方差为：,的方标准差为：,s,的置信度95%的置信区间为：,即 2.4295，7.5705.,V（,注意:不放回时的方差为放回时的约1-f倍，而,1-f1,因此不放回抽样的估计精度比放回抽样的,估计精度高。,【例2.4】我们从某个N=100的总体中抽出一个大小为n=10的简单随机样本，要估计总体总量并给出在置信度95%的条件下，估计量的相

7、对误差。,解依题意，N=100，由例2.3可知：,因此，对总体总量的估计为：,=1005=500 。,0,其标准差为：,因此，在置信度95%的条件下（对应的,t=1.96),的相对误差为：,【例2.5】,解：已知 n=200, a=130, 1-f1,某超市开张一段时间之后，为改进销售服务环境，欲调查附近几个小区居民到该超市购物的满意度。该超市与附近几个小区居委会取得联系，在整体中按简单随机机样，抽取了一个大小为n=200人的样本。调查发现对该超市购物环境表示满意或基本满意的居民有130位，要估计对该超市购物环境持肯定态度居民的比例，并在置信度95%条件下，给出估计的绝对误差和置信区间。假定

8、这时的抽样比可以忽略。,在置信度95%的条件下，估计的绝对误差为：,的95%置信区间为：,0.65,2.3 比率估计量及其性质,用样本均值作为总体均值的简单估计量，具有无偏等很多优良性质，且完全不依赖其它总体信息。但是，若我们有与调查变量相关的其它信息（通常称为辅助变量信息）可以利用，则估计的精度可以大大提高。这就是我们下面要讲的比率估计和回归估计。,一、估计的概念,设主要变量为：Y 辅助变量为：X 两变量的比率为：,总体均值的比估计：,其中,二、比率估计的特点及注意事项,1、使用比估计首先要知道辅助变量的总体均值（或总体总量），调查时，既要观测主要变量的值还要观测辅助变量的值；

9、 2、辅助变量必须与主要变量高度相关且整体上应相当稳定； 3、比估计虽然不是无偏的，但其精度要高于简单估计量很多。,下面我们看一个简单估计与比估计对比的例题,【例】,对以下假设的总体（N=6），用简单随机抽,样抽取 n=2 的样本，比较简单随机抽样比率估计及简单估计的性质。,解：,对这个总体，我们列出所有可能的,个样本，以比较简单估计与比率估计的性质。,由此，可以算出：,总结 1、从计算表格中可以看出，均值的比估计很稳定，而均值的简单估计则波动剧烈。 2、虽然比率估计是有偏估计，但偏倚不大，而估计量方差要比简单估计的方差小得多。 3、比估计是一种很好的估计量，是提高估计精度的最有效

10、的途径。 4、思考：比估计为什么能大幅度地提高估计精度？,对于简单随机抽样, n较大时,比率估计具有以下性质：,关于比率估计我们要说明（或证明）以下几个问题： 1、均值的比率估计不是无偏的； 2、偏倚是怎么产生的； 3、均值比率估计的均方误差； 4、均方误差的估计。,第一个问题可从上面的例题给予说明：,第二个问题我们可以从下面的表达式说明：,这里是常量，是随机变量。估计量不是随机变量的线性函数。因此，估计量的偏倚是由R 的有偏性造成的.,第三个问题，我们来证明R估计的偏倚,因此,因而偏倚主要来自于等式右边的第二项,由,因此，偏倚的主要项为：,同样我们可以推出：,对上述方差分别给出样本估

11、计式如下：,【例2.2】某县在对船舶调查月完成的货运量进行调查时，对运管部门登记的船舶台帐进行整理后获得注册船舶2860艘，载重吨位154626吨。从2860艘船舶中抽取一个n=10的简单随机样本，调查得到样本船舶调查月完成的货运量及其载重吨位如表（单位：吨），要推算该县船舶调查月完成的货运量。,因此,对该县船舶在调查月完成货运量的比率估计为:,方差的估计为:,=2.10617,标准差的估计为:,如果用简单估计对货运量进行估计,则,由此,得到比率估计量设计效应为:,对于本问题,比率估计量比简单估计量的效率高!,【例2.3】在一项工资研究中，人们发现IT行业中，从业者的现薪与起薪之间相关系数

12、高达0.88，已知某IT企业474名员工的平均起薪为17016.00元/年，现根据对100个按简单随机抽样方式选出的员工现薪的调查结果，估计该企业员工的现薪平均水平。已知：,【解】 1、在简单估计条件下，,的95%的近似置信区间为：,此处教材有误(P51),2、在比率估计条件下，,的95%的近似置信区间为：,下面我们从理论上来比较简单估计与比率估计的误差,比率估计量精度高于简单估计量的充要条件是：,也就是说，,比率估计比简单估计更为精确。,尤其是当时，只要相关系数，比率估计就要优于简单估计。,比率估计的其他问题看教材P53,2.4 回归估计量及其性质,一、回归估计的定义,的回归估

13、计量（regression estimatior)的定义为：,如果=0，则回归估计量就是简单估计量；,归系数,稳定在某个数值上，取最近一次调查,性质2 对于简单随机抽样回归估计量，作为,的方差分别为：,协方差。,的样本估计量为：,我们对上式两端关于求导数，得：,三、为样本回归系数的情形,如果需要通过样本来确定，很自然地，,我们会想到用总体回归系数的最小二乘估计，,也就是样本回归系数：,这时简单随机抽样回归估计量,是有偏的。但当样本量,n充分大时，估计量的偏倚趋于零。因此，类似,比率估计量，回归估计量也是渐近无偏的。,且有,的一个近似估计为：,【例4.5】(续P72的例4.2)利用回归估计量推

14、算该县船舶调查月完成的货运量.,解:根据例4.2中的计算结果可得样本回归系数:,从而,因此，该县船舶调查月完成的货运量的回归估计为：,为了估计，先计算回归残差方差：,所以,对于同一个题，我们来比较三种估计量的误差差异,与例4.2的结果比较，对于本问题回归估计优于比率估计，而比率估计又优于简单估计；回归估计优于比率估计的原因是回归直线可以不通过原点。比较上述估计量的优劣，一般是通过比较它们的均方误差或方差大小来进行。,关于简单估计、比率估计、回归估计的估计量方差比较,简单估计量：,比率估计量：,回归估计量：,由此可以看出(在不考虑偏倚的情况下）有以下结论：,2.比率估计量优于简单估计

15、量的条件是:,3.回归估计量优于比率估计量的条件是:,在不考虑偏倚时，回归估计总是优于比率估计,1.回归估计量总是优于简单估计量，除非即一般而言有,如果不忽略偏倚，全面考虑比率估计和回归估计的均方误差MSE，那情况会怎么样呢？下面我们通过教材P61.表213的实际例题来分析比较。(略,看教材),2.4 简单随机抽样的实施,一、样本量的确定原理我们知道n的大小会影响抽样误差，因为如果 n越接近N，则抽样误差就会越接近于零，这一点也清楚地体现在下面的式子里。,三个因素决定 n,在上式中，N是已知的，S是无法知道的，所以要考考虑影响n的重点应该是抽样误差。习惯上，不以作为调查精度指标，而是用置信度和绝对误差限度替代抽样误差,根据双侧分位点的定义有,下面我们分别观察等式右端各部分对n的影响。,置信度对样本量n的影响,绝对误差限度d对样本量n的影响,这里,总体方差对样本量n的影响,这里,下面我们把置信度设为：绝对误差设为：总体方差设为：来观察总体规模N对样本量n的影响,总体规模N对样本量n的影响,二、样本量的确定步骤,第一步：确定委托单位认可的估计精度水平，包括绝对误差d和置信水平；第二步：按照保守原则（宁大勿小），实施对总体方差的预估；第三步：根据上述给定的估计

展开阅读全文