抽样调查-第2章简单随机抽样

资源描述

《抽样调查-第2章简单随机抽样》由会员分享，可在线阅读，更多相关《抽样调查-第2章简单随机抽样（95页珍藏版）》请在金锄头文库上搜索。

1、 2 1定义与符号一定义简单随机抽样从含有N个单元的总体中随机抽取n个单元组成样本 1 若抽样是放回的则所有可能的样本有个每个样本被抽中的概率为这种抽样方法称为放回简单随机抽样 2 若抽样是不放回的则所有可能的样本有法称为不放回简单随机抽样 1 简单随机抽样是等概抽样即每个总体单元都有相同的入样概率 2 随机抽取是有严格要求的不是随便抽取必须按照某一随机原则进行注意例2 1 设总体有5个单元 1 2 3 4 5 按放回简单随机抽样的方式抽2个单元则所有可放回简单随机抽样所有可能的样本例2 2 设总体有5个单元 1 2 3 4 5 按不放回简单随机抽样的方

2、式抽2个单元则所有可不放回简单随机抽样所有可能的样本在实际工作中更多地采用不放回简单随机抽样所以以下讨论的简单随机抽样一般都指不放回简单随机抽样二符号大写字母表示总体单元的标志值如小写字母表示样本单元的标志值如调查的总体目标量主要有比例P 两个总体总量的比率R 对估计精度进行计算时要涉及到总体方差和样本方差等下面分别列出总体方差样本方差还有一些其他符号分别说明如下总体样本将左边式子中的大写字母改为小写字母到的总体指标的估计如估计量的方差用V表示如标准差用S表示如 2 2简单估计量及其性质无论调查对象是何种总体参数其实所有估计量通常都

3、是样本均值的某种线性组合因此在抽样中不管讨论何种估计的基本性质都只围绕样本均值进行而对样本均值这个核心估计量的研究则分为两个方面一方面是求样本均值对所有可能样本的数学期望检验估计量是否无偏另一方面是求样本均值对所有可能样本的方差检验估计量误差的大小为了讨论简单估计的性质首先我们来看两个引理引理一从大小为N的总体中抽取一个样本量为n的简单随机样本则总体中每个特定单元的入样概率为两个特定单元都入样的概率为引理一的证明在N个单元中取n个单元为样本共有个样本在个样本中包含某个特定单元的样本数为每个样本被抽中的概率为同时包含两个特定单元的样本数为每个样本被抽中的概率

4、为引理二从总体规模为N的总体中抽取一个样本量为n的简单随机样本若对总体中的每个单元引进随机变量如下由二项分布可知所以不难推出下面我们用两种与数理统计中不同的方法来证明这一性质思考为什么不能用数理统计中常用的方法有了这些准备我们很容易证明根据前面提到的关于的定义有下式证明对于一个大小为N的总体样本量为n的其他几个估计量的无偏性可容易推出 1 对于总体总量 2 对于总体比例有限总体校正系数证明方法一即证明方法二由定义而因此有即证明将改写成由前面性质1证明用过的对称论证法有由性质2有下面我们从关系式可以推出其他几个估计量的方差总体总量的

5、估计量方差是总体均值方差的直接推导下面我们来推导总体比例估计量的方差设N个样本单元中有N1个具有某一特性即有N1个单元取值为1 有N N1个单元取值为0 同理对样本方差有因此同样下面我们从关系式可以推出从式可以看出影响估计量方差的因素有分析见教材P38 39 N通常很大当f 0 05时可将1 f近似取为1 这时影响估计量方差的主要因素是样本量n和总体方差的大小是我们无法改变的因此要提高估计量的精度就只有加大样本量注意例2 3 我们从某个N 100的总体中抽出一个大小为n 10的简单随机样本要估计总体平均水平并给出置信度95 的置信区间解依题意 N 100

6、n 10 f 样本均值为样本方差为因此总体平均值的估计为的方差为的方标准差为 s 的置信度95 的置信区间为即 2 4295 7 5705 V 注意不放回时的方差为放回时的约1 f倍而 1 f 1 因此不放回抽样的估计精度比放回抽样的估计精度高例2 4 我们从某个N 100的总体中抽出一个大小为n 10的简单随机样本要估计总体总量并给出在置信度95 的条件下估计量的相对误差解依题意 N 100 由例2 3可知因此对总体总量的估计为 100 5 500 0 其标准差为因此在置信度95 的条件下对应的 t 1 96 的相对误差为例2 5 解已知n 200 a

7、 130 1 f 1 某超市开张一段时间之后为改进销售服务环境欲调查附近几个小区居民到该超市购物的满意度该超市与附近几个小区居委会取得联系在整体中按简单随机机样抽取了一个大小为n 200人的样本调查发现对该超市购物环境表示满意或基本满意的居民有130位要估计对该超市购物环境持肯定态度居民的比例并在置信度95 条件下给出估计的绝对误差和置信区间假定这时的抽样比可以忽略在置信度95 的条件下估计的绝对误差为的95 置信区间为 0 65 2 3比率估计量及其性质用样本均值作为总体均值的简单估计量具有无偏等很多优良性质且完全不依赖其它总体信息但是若我们有与调查变量相

8、关的其它信息通常称为辅助变量信息可以利用则估计的精度可以大大提高这就是我们下面要讲的比率估计和回归估计一估计的概念设主要变量为 Y辅助变量为 X两变量的比率为总体均值的比估计其中二比率估计的特点及注意事项 1 使用比估计首先要知道辅助变量的总体均值或总体总量调查时既要观测主要变量的值还要观测辅助变量的值 2 辅助变量必须与主要变量高度相关且整体上应相当稳定 3 比估计虽然不是无偏的但其精度要高于简单估计量很多下面我们看一个简单估计与比估计对比的例题例对以下假设的总体 N 6 用简单随机抽样抽取n 2的样本比较简单随机抽样比率估计及简单估计的性质解对这

9、个总体我们列出所有可能的个样本以比较简单估计与比率估计的性质由此可以算出总结1 从计算表格中可以看出均值的比估计很稳定而均值的简单估计则波动剧烈 2 虽然比率估计是有偏估计但偏倚不大而估计量方差要比简单估计的方差小得多 3 比估计是一种很好的估计量是提高估计精度的最有效的途径 4 思考比估计为什么能大幅度地提高估计精度对于简单随机抽样 n较大时比率估计具有以下性质关于比率估计我们要说明或证明以下几个问题 1 均值的比率估计不是无偏的 2 偏倚是怎么产生的 3 均值比率估计的均方误差 4 均方误差的估计第一个问题可从上面的例题给予说明第二个问题我们可以从下面

10、的表达式说明这里是常量是随机变量估计量不是随机变量的线性函数因此估计量的偏倚是由R的有偏性造成的第三个问题我们来证明R估计的偏倚因此因而偏倚主要来自于等式右边的第二项由因此偏倚的主要项为同样我们可以推出对上述方差分别给出样本估计式如下例2 2 某县在对船舶调查月完成的货运量进行调查时对运管部门登记的船舶台帐进行整理后获得注册船舶2860艘载重吨位154626吨从2860艘船舶中抽取一个n 10的简单随机样本调查得到样本船舶调查月完成的货运量及其载重吨位如表单位吨要推算该县船舶调查月完成的货运量因此对该县船舶在调查月完成货运量的比率估计为方差的估

11、计为 2 10617 标准差的估计为如果用简单估计对货运量进行估计则由此得到比率估计量设计效应为对于本问题比率估计量比简单估计量的效率高例2 3 在一项工资研究中人们发现IT行业中从业者的现薪与起薪之间相关系数高达0 88 已知某IT企业474名员工的平均起薪为17016 00元年现根据对100个按简单随机抽样方式选出的员工现薪的调查结果估计该企业员工的现薪平均水平已知解 1 在简单估计条件下的95 的近似置信区间为此处教材有误 P51 2 在比率估计条件下的95 的近似置信区间为下面我们从理论上来比较简单估计与比率估计的误差比率估计量精度高于简单估计量的

12、充要条件是也就是说比率估计比简单估计更为精确尤其是当时只要相关系数比率估计就要优于简单估计比率估计的其他问题看教材P53 2 4回归估计量及其性质一回归估计的定义的回归估计量 regressionestimatior 的定义为如果 0 则回归估计量就是简单估计量归系数稳定在某个数值上取最近一次调查性质2对于简单随机抽样回归估计量作为的方差分别为协方差的样本估计量为我们对上式两端关于求导数得三为样本回归系数的情形如果需要通过样本来确定很自然地我们会想到用总体回归系数的最小二乘估计也就是样本回归系数这时简单随机抽样回归估计量是有偏的但当样

13、本量 n充分大时估计量的偏倚趋于零因此类似比率估计量回归估计量也是渐近无偏的且有的一个近似估计为例4 5 续P72的例4 2 利用回归估计量推算该县船舶调查月完成的货运量解根据例4 2中的计算结果可得样本回归系数从而因此该县船舶调查月完成的货运量的回归估计为为了估计先计算回归残差方差所以对于同一个题我们来比较三种估计量的误差差异与例4 2的结果比较对于本问题回归估计优于比率估计而比率估计又优于简单估计回归估计优于比率估计的原因是回归直线可以不通过原点比较上述估计量的优劣一般是通过比较它们的均方误差或方差大小来进行关于简单估计比率估计回归估计

14、的估计量方差比较简单估计量比率估计量回归估计量由此可以看出在不考虑偏倚的情况下有以下结论 2 比率估计量优于简单估计量的条件是 3 回归估计量优于比率估计量的条件是在不考虑偏倚时回归估计总是优于比率估计 1 回归估计量总是优于简单估计量除非即一般而言有如果不忽略偏倚全面考虑比率估计和回归估计的均方误差MSE 那情况会怎么样呢下面我们通过教材P61 表2 13的实际例题来分析比较略看教材 2 4简单随机抽样的实施一样本量的确定原理我们知道n的大小会影响抽样误差因为如果n越接近N 则抽样误差就会越接近于零这一点也清楚地体现在下面的式子里三个因素决定n 在上式中

15、 N是已知的 S是无法知道的所以要考考虑影响n的重点应该是抽样误差习惯上不以作为调查精度指标而是用置信度和绝对误差限度替代抽样误差根据双侧分位点的定义有下面我们分别观察等式右端各部分对n的影响置信度对样本量n的影响绝对误差限度d对样本量n的影响这里总体方差对样本量n的影响这里下面我们把置信度设为绝对误差设为总体方差设为来观察总体规模N对样本量n的影响总体规模N对样本量n的影响二样本量的确定步骤第一步确定委托单位认可的估计精度水平包括绝对误差d和置信水平第二步按照保守原则宁大勿小实施对总体方差的预估第三步根据上述给定的估计精度和总体方差的预估

16、值并考虑总体N的大小以简单抽样及回答率100 为前提条件按下面的式子计算初始样本量n 第四步确定抽样方法并根据不同抽样方法的抽样效应deff对样本容量进行调整简单随机抽样的分层随机抽样的整群随机抽样的系统随机抽样的第五步判定有效回答率并根据有效回答率r对样本容量进行再调整第六步为了获得分组数据要考虑适当增加样本量第七步要考虑调查费用适当调整样本量三抽选方法首先将总体的N个单元从一到N编号每个单元对应一个号如果抽到某个号则对应的那个单元入样要选出n个单元入样通常有两种做法抽签法和随机数法 1 抽签法当总体不大时可以用均匀同质的材料制作N个签将它们充分混合然后一次抽取n个签或一次抽取一个签但不放回接着抽下一个签直到第n个签为止则这n个签上所示号码表示入样的单元号 2 随机数法一随机数表随机数表是由数字0 1 2 9组成的表每个数字都有同样的机会被抽中用随机数表抽取简单随机样本可用下面两种方法方法一根据总体大小N的位数确定在随机表中随机抽取几列如N 678 要抽取n 5的样本则在随机数表中随机抽取3列依次往下选出

展开阅读全文

抽样调查-第2章 简单随机抽样

最新文档

抽样调查-第2章简单随机抽样