抽样样本量确定－金锄头文库

资源描述

《抽样样本量确定》由会员分享，可在线阅读，更多相关《抽样样本量确定（88页珍藏版）》请在金锄头文库上搜索。

1、样本量的确定,本讲主要内容,如何计算简单随机抽样的样本量确定如何实现分层抽样中各层样本单位数的分配,样本容量的确定,样本量=费用+精度（函数）,确定样本容量，需要处理好预定的精度与现有经费，同时也要考虑资源和时间等限制条件，最终的样本量确定是在上述因素之间的权衡关系。,分层抽样分配样本的标准,总的样本容量事先确定估计值要求达到的精度预先给定,影响调查样本容量的因素,调查估计值所希望达到的精度调查估计值所能允许的误差。估计量的抽样方差较小，估计值是精确的估计值的精度越高，所需的样本容量就越大影响精度的因素也同样影响着样本容量的大小所研究指标在总体中的变异程度总体的大小样本设计

2、和所使用的估计量无回答率,客户提供的经费能支持多大容量的样本整个调查持续的时间有多长调查需要多少访员能招聘到的访员有多少,除了估计值的精度以外，调查实际操作的限制条件也许是影响样本容量的最大因素。,1给定精度水平下样本容量的确定,样本容量的大小与调查估计值所要求的精度紧密相关,数据是通过抽样而不是普查收集的，就会产生抽样误差。精度是由抽样方差来测量的。随着样本容量的增加，调查估计值的精度也会不断提高。,标准误差误差界限变异系数,抽样方差的几种计量方法,抽样调查中样本容量的确定，也经常会使用一种或多种这样的计量方法来对精度进行说明。,非抽样误差,非抽样误差会对调查估计值的精度产生

3、显著的影响非抽样误差的大小与样本容量的大小却没有很大的关系确定样本容量，就不必将这些误差作为影响因素加以考虑为确保调查结果的准确性，应该消除非抽样误差，至少应尽可能使之最小化,由于我们将在某一给定误差界限下，阐述样本容量确定的过程，所以有必要复习一下置信区间的概念。,对于具有正态分布的估计量来说，95%的置信区间意味着在同样的条件下，反复抽样100次所得的100个样本中，有95个样本的估计值所确定的区间包含总体真值，这个区间以样本的估计值为中心，半径为1.96倍的标准误差。,置信区间,2误差界限,误差界限是标准误差的倍数标准误差是估计量抽样方差的平方根乘数因子取决于在调查估计中所希望

4、达到的置信水平（或称置信度）,对于估计值 t, 在给定其标准误差 t的情况下, 置信区间的公式可以表示为：(t-zt t+zt),这里 zt是误差界限， z是对应于某一置信水平的标准正态分布的分位点值该z值可从标准正态分布表中查得，大多数统计学教材中都附有这样的统计表,常用的z值包括,对于 90% 的置信度，对应的z值为 1.64 对于 95% 的置信度，对应的z值为 1.96 对于 99% 的置信度，对应的z值为 2.56,3多大的抽样方差是可接受的,调查估计值能容忍多大的不确定性？。常用的95%的置信度、5%的误差界限对我们的调查目标是否适宜估计值是否需要更高（或更低）精度

5、如果调查结果将用于进行一项有重大意义或有较大风险的决策，那么，估计值可能需要较高的精度；如果我们只是简单地希望取得所研究总体某个特征的感性认识，那么，稍低一点的精度就可以满足要求了,多大抽样方差是可以接受,是否需要对调查的子总体（或称作域）进行估计？调查结果可能需要包括一些细分的数据这些数据称为子总体估计值（或域估计值）为使数据满足调查要求，应该确定合适的精度与调查估计值有关的抽样方差有多大？,对于不同的子总体，对精度的要求可能有所不同例如，在一次全国范围的抽样调查中，对国家层次的数据，调查主办者可能需要3%的误差界限；但对于省级层次的估计值，5%的误差界限可能就可以满足要求；

6、而对于省级以下层次的估计值，10%的误差界限可能就足够了。,在这种情况下，通常对每个研究域都进行分层，并单独计算各层的样本容量将各个研究域中所有层的样本容量相加，便得到了调查所需的总样本容量,调查估计值有关的抽样方差有多大,为达到调查结果要求的精度，最小的调查估计值是什么？假设我们进行比例估计。其中，一些指标的比例可能是P=50%或更高，但是其它指标的比例则可能较低，如P=5% 或者 P=10% 事实上，P可以是P=0 到 P=1.0之间的任一数值。在确定调查估计值所需的精度时，应该考虑当某个既定精度达到时所得的最小估计值。如果最小的估计值是 P=5%，那么误差界限就应该小于

7、5%。,例如：某公司决定，如果公司所在的地区中，至少有P=4%的人群对某一种产品存在需求，那么该公司就决定生产这种产品。因此，该公司的市场调研部准备对当地的居民一项调查，以便估计他们在这种产品上的消费需求。对于P=4%5%水平左右的调查估计值就不太合适，应规定更小的误差界限，如小于或等于0.01、 0.02等，这时候置信区间应该是（ 0.05 0.01）或（ 0.05 0 .02）。,Table 1 样本容量和在P=0.5时运用简单随机抽样估计P值得到的误差界限,最佳的解决办法,不应为追求最小的误差界限而选择最大可能的样本可以接受一个较大的误差界限，同时有效地利用现有资源在此基础上，

8、获得具有相对较高精度的估计结果采用一个较小的样本而不是大样本而节省下来的费用，可以用来修正其它影响调查结果精度的因素例如减少无回答率（如回访拒答者、实施小型的试点调查、培训访员，等等），这样做可能更有效率,4总体的变异程度,调查总体中，我们所研究的项目或指标，对于不同的个人、住户或企业，得到的估计结果可能会有很大的不同。虽然我们不能控制这种变异性，但它的大小却影响到了给定精度水平下，研究项目所必需的样本容量。,我们来看假设有一个首次开展的调查，试图估计对某企业提供的服务持满意态度的顾客比例。对“顾客满意”这一指标，设置两个可能的值：满意或者不满意。,表2 列出了持满意和不满意态度的顾客

9、可能占的比例的组合,要精确地测量总体中具有高度变异性或不经常出现的特征是很困难的。要对这样的变量提供精确的估计值，需要较大的样本容量。当研究的特征具有最大的变异程度时，调查需要的样本容量也最大。对于只取两个值的特征，则当这两个值在总体中以5050的比例出现时，特征的变异程度最大。,总体的变异程度,如果所研究特征的真实变异程度大于确定样本容量时我们估计的变异程度，那么，调查估计值的精度就会低于期望的精度。相反，如果所研究特征的真实变异程度与我们所估计的变异程度相比要小，那么，与调查目标所要求的估计值相比，抽样调查得到的估计值会更加精确。,确保达到调查要求的精度,对某一

10、特征的总体变异程度进行保守估计如果事先不知道调查中要测量特征变异程度的数据，假定研究特征具有最大的变异程度对于只有两个可能取值的变量，应该假设总体中该变量的变异程度为两个取值5050平分。,建议在计算所需样本容量,多个测量的指标,抽样调查时，测量指标（或称项目，特征）通常不止一个，有时数目是很大的每个指标的变异程度可能都不相同对某一指标来说足够大的样本，对变异程度较大的另一个指标来说可能就有些偏小为确保样本容量对所有的研究指标都足够大，应该根据具有最大变异程度或被认为最重要的那个指标，确定样本容量。,5.总体的大小,总体所起的作用视它规模的大小而有所差异小规模总体的大小

11、将起重要作用对于中等规模的总体，其作用中等重要大总体的规模对样本容量确定则不起作用,在样本容量确定的过程中,表3: 显示了不同规模的总体在P=0.5时，使用简单随机抽样，且以误差界限为0.05、置信度为95%的标准估计P 所需的样本容量,对于小规模总体，通常必须调查较大比例的样本，以取得所期望的精度。因此，实际操作中，对小规模总体经常采用普查而不是抽样调查。,计算样本容量时，通常假定采用的抽样方式为简单随机抽样(SRS)。所以，如果样本容量计算公式假定为简单随机抽样。,6样本设计和估计量,分层抽样得到的估计值通常比相同规模的简单随机抽样更精确，或者至少一样精确。整群抽样得到的估计值，其

12、精度通常低于使用同一估计量进行估计时的简单随机抽样的估计值的精度,设计效果因子,一般来说，当样本容量的计算公式假定为简单随机抽样SRS，但使用的是更复杂的选样方式时，达到既定精度所需的样本容量应该乘以设计效果因子。,设计效果=对于同样规模的样本容量，给定样本设计下估计量的抽样方差对简单随机抽样估计量的抽样方差的比率。,对于简单随机抽样设计，设计效果 = 1 对于分层抽样设计，设计效果 1 对于整群抽样设计，设计效果 1,7回答率,所有的调查都会遇到无回答的困扰即：由于某些原因，不能获得被抽中样本单位的信息当一个被调查单位的所有或几乎所有的数据都缺失时，我们就称之为完全无回答（或称单位

13、无回答）某次调查的回答率是用调查得到的有效问卷数占预期样本容量的一个百分比来表示的完全无回答会减少有效样本的数量，从而会增加抽样误差，并进而降低估计值的精度,例如，如果初始样本容量是400，而通过上述途径估计的回答率为75%，那么选择的样本容量就应该为：,根据预计的回答率调整样本容量,一个最简单的例子没有无回答的简单随机抽样样本容量的计算公式,简单随机抽样下，通常使用误差界限和估计量的标准误来确定所需的样本容量。,在无放回简单随机抽样情况下总体均值估计量的标准误差的表达式,其中，S 是总体的标准差,如果误差界限设为e，那么：,解n，得：,这里Z是对应于某一置信水平的标准正态分布的分

14、位点值。,其中，总体方差S2是最不容易得到的，通常需要根据过去对类似总体所做的研究作近似计算。,为确定n，需要知道,期望的误差界限e 置信水平对应的标准正态分布的分位点值 Z 总体规模 N 总体方差 S2,求比例样本容量的确定,下面用一个例子，说明估计比例问题时样本容量的确定过程。在这一例子中，所需的精度是根据误差界限确定的，所研究的指标取两个值，即P和1-P。,在这种情况下，对于大总体，且估计量服从正态分布时， P的总体方差为：,若总体真值已知，那么直接将它代入上面的等式就可以得到样本容量若总体真值未知，而且也没有以前的信息可以利用，那么可以P=0.5 用，因为这时的方差最大，可

15、以求得一个比较保守的样本容量,计算比例估计样本容量的详细步骤,先计算初始样本容量，然后根据总体的大小、设计效果和回答率分别对它进行调整，最后求得最终的样本容量。,第1步：计算初始样本容量,注意，公式（1）使用了有限总体校正因子n/N，对总体规模进行校正。如果忽略这个因子，初始样本容量n1就可以按下列公式计算：,如果e 和 P都不用比例表示，而用百分数表示， n1 的计算公式同样成立。,第2步：使用下列等式对总体的大小进行调整,第3步：设计效果调整样本容量,如果样本设计不是采用简单随机抽样，那么可以使用下列公式，即用抽样设计效果对样本容量进行调整：,其中，是设计效果，并且有：在简单随机抽样设

16、计下，B = 1，在分层抽样设计下， B 1，在整群抽样设计下， B 1。,根据无回答再次进行调整，以确定最终的样本容量n,其中， r = 估计的回答率。,第4步：无回答调整样本容量,样本容量确定的例子,下面用实例说明样本容量的计算过程。例 1. 某杂志出版商希望得到读者对该杂志综合满意程度的估计值。通过邮寄调查，出版商可以联系到所有的2500个订户。但是，由于时间的限制，出版商决定使用简单随机抽样进行电话调查。请问应访问多少个读者？,如果真实的总体比例落在总体比例的样本估计值的0.10范围内，则该出版商将感到满意。换句话说，误差界限e为0.10 。出版商希望调查估计值的置信度为95%，这就意味着20次抽样中只有1次，所得的样本估计值确定的置信区间不包含总体真值P，而且，Z=1.96。使用简单随机抽样SRS。估计回答率为65% ，即r =0.65。由于事先没有关于顾客满意度真实比例P 的可利用的信息，因此，我们假定方差取最大的情况，即假设 P=0.5。,假设,样本容量的计算步骤,第

展开阅读全文