第10节抽样估计与样本量确定

资源描述

《第10节抽样估计与样本量确定》由会员分享，可在线阅读，更多相关《第10节抽样估计与样本量确定（43页珍藏版）》请在金锄头文库上搜索。

1、1,开篇案例“百脑汇”调研中的样本计划问题,“百脑汇”在中国华北几个省市经营连锁电脑超市，它希望获得更多关于其现有客户特点方面的信息。接受调研委托的李文博士指派班上的王洪同学为样本计划小组的负责人。通过与“百脑汇”的市场部经理乔兰的初次会谈，王洪了解到调研的一个主要目的是分别按人口和心理因素来估计“百脑汇”的客户构成和比例。此外，确认总体估计值不超过实际值的50，可靠度为95。为了达到这些要求，王洪和他的小组正努力寻找计算所需样本容量的方法。,2,101 引言,估计就是根据从样本中收集的信息对总体未知量进行推断的过程。抽样估计涉及的重要问题：一个样本单元的设计权数问题。抽样估计，包括

2、总体总量、均值和比例以及抽样误差的估计。样本量的确定构成抽样设计程序的重要步骤和内容。同时，样本量的确定与样本估计值的精度密不可分。,3,102 加权及权数调整,设计权数设计权数是指每个样本单元所代表的调查总体的单元数，它是由抽样设计所决定的，通常以wd表示。确定设计权数是估计的第一步。加权估计设计权数其实就是样本单元的入样概率的倒数。假如入样概率是1/10，那么每个入选样本代表总体中的10个单元，此时设计权数即为10。不同样本单元的设计权数可能不同，这取决于抽样设计。因此，加权估计应区分等概率抽样的加权和不等概率抽样的加权。,4,等概率抽样的加权,当每个单元都有相同的入样概率时，所

3、有样本单元的设计权数都相同，这种抽样就是自加权设计。 SRS抽样和SYS抽样都属于自加权设计，比例分层抽样也是自加权设计。另外， PPS等也可以设计为一个自加权抽样。对于自加权抽样设计，如果无需对权数调整，则在计算比例、均值等估计量时可将其忽略，对总值估计也仅需将样本总值乘上某个倍数。(例P215),5,不等概率抽样的加权,自加权设计并不总是可行的。如，在使用分层抽样进行一个全国调查时，可能需要采用纽曼分层。当所采用的抽样设计不是等概率时，正确地使用设计权数就显得尤为重要。例102 有关各层总体数和样本数资料见表10-1。对于这项调查，被调查者的设计权数是多少呢？,6,设计权数的调整,

4、上述等概率抽样的加权和不等概率抽样的加权都是加权的基本形式。权数估计常会遇到更真实和复杂的情况：考虑无回答的情况，然后对权数做出调整；考虑来自其他渠道的、更具权威性的某些辅助信息，将它们合并到权数中。,7,对无回答的权数调整,单元无回答是指一个样本单元几乎所有的数据都缺失。简单的处理办法是忽略它。然而，如果发现忽略单元无回答是不适当的，则应该对权数进行调整。即，设计权数无回答调整因子=无回答的调整权数无回答调整因子是原样本单元的权数和与给出回答的单元的权数和的比值。对于自加权设计，该比值可用原样本的单元数与给出回答的单元数的比值来表示。无回答权数调整应区分两种不同情况：等概率抽样

5、不等概率抽样,8,对无回答的权数调整(SRS),例103 从一个N=100人的总体中抽取一个n25人的简单随机样本。记回答单元的数量为nr，结果显示只有20个人提供了所需的信息。那么，此时无回答的调整权数是多少？,步骤1：计算设计权数。入样概率p为：P=n/N=25/100=1/4 故，每个样本单元的设计权数为4。步骤2：计算无回答调整因子。由于在n25人中只有nr=20人提供了所需的信息，最终样本量应为20。假定回答单元不仅能代表回答单元且能代表无回答单元，计算无回答调整因子为： n / nr = 25/20 = 1.25 步骤3：计算无回答的调整权数。无回答的调整权数wnr等于设

6、计权数与无回答调整因子的乘积：,9,对无回答的权数调整(STR),例104 对于一项公共交通系统调查，总体由1100人组成，并按城乡分为两个层。分层及样本数据如表10-2所示。那么，回答者的权数是多少？,表10-2 公交系统调查的分层数据,步骤1：各层的设计权数为：城市层 wd,1N1/n1=5 农村层 wd,2N2/n2=2 步骤2：调整以弥补无回答。各层的无回答调整因子计算如下：城市层：n1 / nr,1=200/150=1.33 农村层：n2 / nr,2=50/40=1.25 步骤3：无回答的调整权数等于设计权数与无回答调整因子的乘积：城市层：农村层：,10,使用辅助信息调整权

7、数,为什么要使用辅助信息来调整权数呢？首先，使调查的估计值与已知总体总值相匹配。例如，使用最新的人口普查数据来调整估计值，以确保这些估计值(如年龄、性别分布等)的一致性。二是为了提高估计值的精度。将辅助信息与抽样设计相结合，将有助于提高估计的精度。要想在调查设计阶段使用辅助信息，抽样框中的所有单元都必须具备这个辅助信息。否则，就只能在数据收集上来后，在估计阶段利用辅助信息提高估计值的精度。,11,使用辅助信息调整权数,例105 为得到某公司职员是否有吸烟习惯的信息，进行了一项调查。从N=780人的名录中抽出了一个n=100人的简单随机样本。在收集有关吸烟习惯信息时，收集了每个回答者的年

8、龄和性别情况，且100人都做出了回答，由此得到样本数据的分布如表10-3所示：,表10-5 利用辅助信息对抽样调查估计值的调整,表10-3 某公司吸烟习惯抽样调查数据,表10-4 根据某公司吸烟习惯抽样计算的估计值,12,103 抽样分布与抽样误差,抽样调查的目的是要对总体做出推断。了解统计推断的理论基础，首先注意区分三种不同性质的分布：总体分布样本分布抽样分布同时，特别注意总体分布与抽样分布的关系。,13,三种不同性质的分布,总体分布：总体各单位的观察值所形成的频数分布，总体分布通常是未知的。样本分布：一个样本中各个观察值所形成的频数分布就叫做样本分布。当样本容量n逐渐增大时，样

9、本分布逐渐接近总体的分布。抽样分布：样本统计量的抽样分布，是指在重复选取容量为n的样本时，由该统计量的所有可能取值形成的相对频数分布。抽样分布是一种理论分布。抽样分布提供了样本统计量长远而稳定的信息，是进行推断的理论基础。,表10-6 各种分布的均值、比例和标准差的符号表示,14,样本均值的抽样分布,样本均值的抽样分布，是指在重复选取容量为n的样本时，由样本均值的所有可能取值形成的相对频数分布。例106设一个总体，含有4个元素，即总体单位数N =4。4个个体分别为x1=1, x2=2, x3=3, x4=4。则总体分布如图10-1。现在从总体中有放回地抽取n2的简单随机样本，则样本均值

10、的抽样分布如图10-2。,15,均值抽样分布的规律,16,样本比例的抽样分布,样本比例的抽样分布，是在重复抽取容量为n的样本时，由样本比例的所有可能取值形成的相对频数分布。比较样本比例的分布与总体分布，得出如下结论：当样本容量足够大时，样本比例的抽样分布近似地服从正态分布，样本比例的数学期望等于总体比例，即E(p)=；在重复抽样条件下，样本比例的方差为总体方差的1/n，即样本比例的中心极限定理设从比例为、方差为 2的一个任意总体中随机抽取容量为n的样本，当n足够大(n 30)时，样本比例的抽样分布近似服从比例为、方差为(1-)/n的正态分布。,17,正态分布及标准值Z,正态分布有以下几

11、个重要特征：正态曲线呈钟形，曲线下的面积等于1，表明它包括了所有的调查结果。在正态曲线下任意两个变量值之间的面积，等于在这一范围内随机抽取一个观察对象的概率。例如，任意抽取一个样本单元，IQ分数落在55-145之间的概率是99.72%，即图10-3中正态曲线下55-145之间的面积。所有的正态分布在平均数1个标准差之间的面积相同，都占曲线下方面积的6826。这是正态分布的比例性，为统计推断提供了基础。一个正态分布的特殊性由其平均数和标准差决定。,18,标准正态分布,标准正态分布是一种平均值等于0、标准差等于1的正态分布(如图10-4)。研究者可以将任何正态变量X转换为标准正态变量值(

12、标准值)Z。计算方法就是，用将要进行转换的值中减去均值，然后再除以标准差。即求出标准值Z之后，就可以查阅正态分布表(附录B-2)，得到Z值的标准正态分布曲线下的面积(概率)。,式中，x 变量值；平均数的假设或预期值；变量的标准差。,19,104 参数估计,参数估计就是根据从样本中收集的信息对总体参数进行推断的过程。样本估计量 (如样本均值、比例等)都是随机变量，在具有特定概率(抽样)分布的样本之间有所变化。参数估计就是根据推断理论所阐明的抽样分布与总体分布之间的关系，由样本统计量的具体值估计总体参数(如总体均值、比例和方差等)。参数估计有两种估计方法：点估计区间估计,20,总体参

13、数的点估计,点估计就是用样本的估计量直接作为总体参数的估计值。例如，用样本均值直接作为总体均值的估计，或者用两个样本均值之差直接作为总体均值之差的估计。点估计是容易做到的，但是，点估计没有给出估计值接近总体参数程度的信息。当样本均值与总体均值不完全相同时，样本均值与实际总体均值就存在着差距，形成抽样误差。,21,总体参数的区间估计,区间估计：在点估计的基础上，对总体参数的区间或范围进行估计。区间估计不仅要说明区间大小，还要说明点估计值在区间内的概率，即置信度。置信度是一个百分比，用来说明结果正确的长期概率。被估计的区间则被称为置信区间。根据样本统计量的抽样分布理论，总体参数的区间范围是

14、在一定的概率度下，由样本统计量加减抽样误差而得到。,22,总体均值的区间估计,在SRS抽样情况下，样本统计量的抽样分布均服从正态分布。可使用正态分布统计量Z来描述总体均值的区间估计，将总体均值区间估计表达为：,= ,在上式中，代表一定置信度下的Z值。注意，应除以2，以便确定均值的每一边所包含曲线下区域的百分比。代表样本均值的标准误，当未知，用S来估计，样本均值的标准误：当已知，样本均值的标准误的估计公式：,23,总体均值的区间估计,t-分布若调查从总体中随机抽取一个很小样本(n 30)，则样本均值的抽样分布服从自由度为(n-1)的t-分布(较正态分布平坦和分散) 。随着自由度增大，

15、t分布也逐渐趋于正态分布。在上述假设条件下，使用 t 分布统计量(附录B-3)来估计总体均值的置信区间。,t分布条件下总体均值置信区间的估计方法与正态分布条件下非常类似，只是查t分布表需要考虑自由度为(n-1)。,统计量 t(n-1),总体置信区间 = ,24,总体均值的区间估计例题,例107 某银行收集到由36信用卡用户组成的随机样本，得到各用户年龄(周岁)数据如下 23，35，39，27，36，44；36，42，46，43，31，33，42，53，45，54，47，24，34，28，39，36，44，40，39，49，38，34，48，50，34，39，45，48，45，32。试建立信用

16、卡用户年龄90%的置信区间。,25,总体比例的区间估计,总体比例的区间估计假定总体服从二项分布。二项分布是指重复进行 n 次试验，出现“成功”的次数的概率分布。总体比例的抽样分布仍然可以由正态分布来近似，即适用中心极限定理。使用正态分布统计量Z来描述总体比例的区间估计，将总体比例区间估计表达如下：,= p ,在上式中，代表一定置信度下的Z值。注意，应除以2，以便确定比例的每一边所包含曲线下区域的百分比。代表样本比例的标准误，当未知，样本比例的标准误的估计式：当已知，样本比例的标准误的估计式：,26,总体比例的区间估计例题,例108 某商业公司想要估计经常光顾其大型购物中心中女性所占的比例，随机地抽取了400名经常性顾客，发现其中260名为女性。试以95%的置信水平估计经常光顾该大型购物中心中女性比例的置信区间。,27,总体方差的区间估计,在重复选取容量为n的样本时，由样本方差的所有可能取值形成的相对频数分布，构成样本方

展开阅读全文

第10节 抽样估计与样本量确定

第10节抽样估计与样本量确定