抽样方法和抽样方案的制作

上传人:飞*** 文档编号:2789264 上传时间:2017-07-27 格式:PPT 页数:131 大小:1.69MB
返回 下载 相关 举报
抽样方法和抽样方案的制作_第1页
第1页 / 共131页
抽样方法和抽样方案的制作_第2页
第2页 / 共131页
抽样方法和抽样方案的制作_第3页
第3页 / 共131页
抽样方法和抽样方案的制作_第4页
第4页 / 共131页
抽样方法和抽样方案的制作_第5页
第5页 / 共131页
点击查看更多>>
资源描述

《抽样方法和抽样方案的制作》由会员分享,可在线阅读,更多相关《抽样方法和抽样方案的制作(131页珍藏版)》请在金锄头文库上搜索。

1、抽样设计和方法,北 京 广 播 学 院 新 闻 传 播 学 院调 查 统 计 研 究 所,二零零一年五月,沈 浩,本章内容,抽样设计的基本概念 两种抽样的基本形式 抽样的主要步骤 样本量的确定 统计量的修正,抽样设计的几个基本概念,总体样本与样本单位抽样误差抽样框,统计过程,总体,样本,统计量,计算统计量,抽样,描述,统计推断,抽样,总体,总体,样本,样本统计量 (X),总体参数估计,推断过程,抽样调查与普查,总体特征(参数),样本统计量,抽样,推断,样本均值X样本比例 P样本方差 S2样本相关 r,平均值比例方差2相关,统计方法误差,抽样调查就是从总体中抽取能代表总体的一部分/样本,然后根据

2、样本中所包含的信息对总体的状况进行估计和推算。,抽样调查与普查的比较,抽样调查花费较少 迅速地获取信息 -争取时效是非常重要的 总体太大,实际上无法实行普查 个别对象难以接触 实验是破坏性的 科学地抽样-样本具有代表性, -可控制抽样误差,抽样调查特点:,普查特点:,总体较小 总体差异(方差)较大 抽样误差较大,误差,抽样误差,非抽样误差,(可控制),两种基本的抽样形式,概率抽样 probability samples等概率抽样所有的样本单位所出现的机会是相同的。不等概率抽样可以计算每个样本单位所出现的概率。非概率抽样 non probability sample所有的样本单位所出现的机会是不

3、确定的。不能计算每个样本单位所出现的概率,因为选择样本的方法是非随机的。,按照随机/概率规律的原则,从总体中抽取样本,随机化原则基础上 增大样本量改变抽样的组织形式,提高抽样估计的准确性,概率抽样,抽样技术:理论、技术、经验、工程,明确调查目的,定义总体、抽样单元,选择抽样方案,确定、购置抽样框,确定样本量,制定实施细节和步骤,确定主要目标量的精度,两个基本原则: 实现抽样的随机性原则 等概率或不等概率 实现抽样效果最佳原则 固定费用,抽样误差最小 确定精度下,调查费用最小,抽样单元,为了便利地实现随机抽样,常常把总体划分为有限个互不重叠的部分,每一部分叫做一个抽样单元。,中国,北京,一级抽样

4、单元:省,二级抽样单元:区,四级抽样单元:家庭户,三级抽样单元:街道,三级抽样单元:居委会,五级抽样单元:被访者,朝阳区,官庄街道,广院居委会,17楼2门101室,男主人,抽样框,抽样框是包含全部抽样单元的资料,一般说来,普查可以提供抽样框资料表现形式名单、地图、统计年鉴等很多时候,很难获得完整的抽样框资料,用样本估计总体而产生的误差;抽样误差越小,估计的精度越高;一般用估计量的方差表示;可以计算并加以控制。,误差,在抽样调查中由于人为的差错所造成的误差。,抽样误差:,非抽样误差:,抽样方案设计的内容,明确调查目的,确定所要估计的目标参数;明确研究总体以及抽样单元;对主要目标量的精度提出要求;

5、选择抽样方案的类型;考虑费用,实施能力,计算样本量;制定调查实施的具体办法和步骤。,抽样方案设计的基本原则,随机性原则,抽样效果最佳原则,1、费用固定时, 选择抽样误差最小。2、精度固定时, 调查费用最小。,1、总体中所有个体 被抽中的机会相同。2、不允许主观挑选 调查对象。,简单随机抽样与非常简单随机抽样,简单随机抽样定义: 从含有N个抽样单元的总体中,一次抽取 n个单元,共有 种不同的结果,每种结果被抽到的概率都是1/ 。 无放回的抽样,不独立。从总体中逐个无放回地抽取个体,每次抽取到尚未在样本中的任何一个个体的概率都相等,直到抽足n个为止。,非常简单随机抽样定义: 总体中所有个体被抽种的

6、机会相同,并且n个个体是相互独立被抽取得。 有放回的抽样,独立从总体中抽取一个个体,记录,放回总体,抽取第二个个体,记录,放回总体,以此类推,直到抽足n个为止。,当n/N非常小时,有放回和无放回抽样几乎没有差别,简单随机抽样的实施方法,抽签法随机数字表(随机乱码表)随机正态数字表,样本量的确定,涉及到的一些基本概念: 费用 精度 误差 标准差(方差) 置信度(置信水平) 最大容许误差 最大容许相对误差 所要估计总体的比例 抽样方法 访问方法 拒访率,总体参数的区间估计,1-置信度下的总体均值的置信区间:,样本量的确定依赖对总体参数的估计,简单随机抽样时,总体均值的置信度为1-的置信区间,自由度

7、df=n-1,样本量足够大时,t分布可用相应的Z分布代替,最大允许绝对误差,最大允许相对误差,简单随机抽样时,总体比例的置信度为1-的置信区间,自由度df=n-1,样本量足够大时,t分布可用相应的Z分布代替,最大允许绝对误差,最大允许相对误差,非常简单随机样本,当P=0.5时,P(1-P)为最大,简单随机样本,样本量的确定,非常简单随机抽样最小样本量,如果估计的比例P很小的话,为保证精度,最好采用最大允许相对误差公式来计算所需的样本量.,置信度95%下,最小样本量,最常用、最简单的方法、有放回的按与抽样单元大小成比例的概率来抽取,PPS 抽样Sampling with Probability

8、Proportional to Sizes,按研究目的,事先人为规定的度量标准,可以是人数、总营业额、等级等,抽样调查的组织形式,简单随机抽样分层抽样整群抽样多级抽样二项抽样混合抽样系统抽样等距抽样,简单随机抽样的优缺点,优点: 是最基本的抽样方法 最符合随机原则 抽样误差容易计算 复杂抽样设计的基础 衡量其它抽样方法的标准,缺点: 对所有单元编号,十分复杂,有时不可行 所抽取的单元可能十分分散,实施困难 没有利用有关总体的一些已知信息,可能不是最有效的,本科生50%,专科生30%,研究生20%,总体N=10000,专科生n1=3000,本科生n2=5000,研究生n3=2000,抽样样本n=

9、1000,分层,专科生n1=300,本科生n2=500,研究生n3=200,样本1000人,分层抽样模拟,分层原则:层内差异小,层间差异大,分层抽样,分层抽样的优点,子总体内的抽样单元之间差异比较小,子样本具有较好的均匀 性,可能得到较高精度的估计量 有效消除特殊个体的影响 可对各层的特性加以比较 实施管理方便,分层的主要方法:采用聚类分析,确定如何分层?分层的指标,城镇居民储户,使样本近似于等概率样本,即每个城镇居民储户被抽中的机会近似相等,抽样设计的总思路,样本量在全国范围内共抽取50个城市每个城市8个储蓄所每个储蓄所调查50名储户全国共计调查20,000位储户,抽样设计的总思路,调查所需

10、的费用和操作的方便性,抽样方法分层与规模大小成比例的概率(PPS)等概率结合的多级混合抽样方法,抽样设计的总思路,抽样过程图示,城市,储蓄所,储户,第一阶段:抽取城市655个城市中抽取50个城市,第二阶段:抽取储蓄所每个城市抽取8个储蓄所,第三阶段:抽取储户每个储蓄所调查50位储户,抽样设计的总思路,抽样单元全国共有666个城市,其中有11个中小城市缺少相应的指标数据,略去故参与抽样的城市共有655个,第一阶段:抽取城市,抽样框中国城市统计年鉴1997,目 的:提高抽样精度分层指标:“96年城乡居民储蓄年末余额” “96年年末市区人口数” “职工平均工资” “社会消费品零售总额” “人口密度”

11、方 法: 用SPSS和SAS软件,把五个指标进行标准化,使各个指标的数量级相同,然后进行聚类分析,经反复测试,认为把655个城市分为五层比较合适。,第一阶段:抽取城市,城市分层,指 标:“市区人口数”,第一阶段:抽取城市,确定每层应抽取的城市的数目,每层中,按与“96年城乡居民储蓄年末余额”大小成比例的方法(PPS)来抽取城市,即储蓄余额越大的城市,被抽中的可能性越大,在各层中抽取城市,第一阶段:抽取城市,出于以下目的,对抽中的50个城市进行了部分调整: 1、为了操作的方便和保持前后一致,在可能的情况下, 使原来实施过调查的城市包括在这50个城市之中; 2、使50个城市在全国各省的分布均匀,代

12、表性更强。 3、考察每层所抽的样本与每层全部城市的多个指标的平均 值,使得平均值比较接近。,局部调整,第一阶段:抽取城市,第一阶段:抽取城市,最终被抽取的城市名单,各层中七个指标的样本均值与总体均值十分接近可以认为所抽取的50个城市较好地代表全国655个城市的情况,第一阶段:抽取城市,抽样效果评价,整群抽样,先把总体划分成R个群,然后以群为初级抽样单元,从中随机地抽取r个群,对抽中的群内的所有单元都进行调查。,整群抽样的特点,在调查组织工作方面方便抽样误差比较大,抽样原则: 为提高精度要尽可能扩大各层间的差异,而缩小层内的差异。,多级抽样,把整个抽样过程分成几个阶段完成。在大规模的社会调查中应

13、用广泛。一般分为三、四个阶段。,系统抽样,按照某种顺序给总体中N个单元编号随机抽取一个编号作为样本的第一个单元。样本的其它单元则按照某种确定的规则抽取最简单、最常用的是等距抽样,01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60,总体N=60,开始,(07 17 27 37 47 57),样

14、本n=6,等距=60/6=10,系统等距抽样模拟,系统抽样,最好编号是按照与研究目的有关变量来排列的要避免间距与研究现象固有的周期相重合,多阶段混合型抽样,目的:获得简单随机样本让个体(最后一级抽样单元)被抽中的概率基本上相等利用现成的统计软件统计分析,采取什么样的调查方式?估计经费是多少?估计的精度有什么要求?样本量是多少?采取什么样的抽样方法?样本框是否可以搞到,全吗?新吗?,概率抽样调查总结,非概率抽样,方便抽样 自愿者抽样 判断抽样 配额抽样 滚雪球抽样 修正的概率抽样,使用非概率抽样的最大问题: 由于用非概率抽样从总体中抽选单位可能会导致较大的偏差,我们不清楚能否对总体进行推断。,非

15、概率抽样,一种快速、简单易行并且经济的获得数据的方法,不需要完整的抽样框。,例如,在非概率抽样中访问员经常主观决定谁应该入样。由于访问员总是愿意选择总体中那些最容易接近和最友好的单位,使总体中很大一部分单位完全没有被抽中的机会,而这些单位与被抽中的单位间很可能有系统性的不同。这不仅将使调查结果出现偏差,而且由于带有选择平均单位和排除极端值的倾向,将错误地减少总体中明显的变异性。,非概率抽样,选择偏差以及缺乏抽样框,我们不可能计算出各个单位的入样概率。 无法得到可靠的估计值,也无法计算抽样误差。 样本要能对总体进行推断,必须假定样本对总体有代表性。 概率抽样通常需要假定总体指标服从某个模型, 或者是均匀地或者是随机地分布的。 非概率抽样,抽选单位的方法有偏差,做这种假定的风险是很大的。,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 质量控制/管理

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号