第3讲抽样与抽样调查

上传人:大米 文档编号:571425590 上传时间:2024-08-10 格式:PPT 页数:53 大小:308.50KB
返回 下载 相关 举报
第3讲抽样与抽样调查_第1页
第1页 / 共53页
第3讲抽样与抽样调查_第2页
第2页 / 共53页
第3讲抽样与抽样调查_第3页
第3页 / 共53页
第3讲抽样与抽样调查_第4页
第4页 / 共53页
第3讲抽样与抽样调查_第5页
第5页 / 共53页
点击查看更多>>
资源描述

《第3讲抽样与抽样调查》由会员分享,可在线阅读,更多相关《第3讲抽样与抽样调查(53页珍藏版)》请在金锄头文库上搜索。

1、第3讲 抽样与抽样调查3 抽样与抽样与抽样抽样调查调查3.1抽样与抽样与抽样调查抽样调查概述概述3.2概率概率抽样抽样3.3非概率非概率抽样抽样3.4抽样抽样设计设计3.5抽样误抽样误差及其控差及其控制制13.1 抽样与抽样调查概述3.1 抽样与抽样调查概述3.1.1抽样的术语3.1.2大数规律及抽样类型3.1.3 抽样调查23.1.1 抽样的术语总体(Population)。总体通常与构成它的元素(Element )共同定义:总体是构成它的所有元素的集合,而元素则是构成总休的最基本单位。或者说总体是抽样调查中所有调查对象的集合体,也称母体。样本(Sample)。样本就是从总体中按一定方式抽取

2、出的一部分元素的稽核(集合体)。 抽样(Sampling)。所谓抽样,指的是从组成某个总体的所有元素的集合中,按一定的方式选择或抽取一部分元素(总体的一个子集)的过程,或者说,抽样是从总体中按一定方式选择或抽取样本的过程。 抽样单位(Sampling Unit)。抽样单位就是一次直接的抽样所使用的基本单位。或者是进行信息收集和分析的基本单位。也称为分析单位。 抽样框(Sampling Frame)。抽样框又称作抽样范围,指的是一次直接抽样时总体中所有抽样单位的名单。33.1.1 抽样的术语总体参数(Parameter )。总体参数也称为总体值,它是关于总体中某一变量的综合描述或者说是总体中所有

3、元素的某种特征的综合数量表现。 样本统计量(Statistic )。也称为样本值,它是关于样本中某一变量的综合描述,或者说是样本中所有元素的某种特征的综合数量的表现。抽样误差(sampling error)。指样本统计数和总体参数之间的差异。 置信度Confidence Level。置信度又称为置信水平,它指的是总体参数值落在样本统计值某一区间内的概率,或者说,是总体参数值落在样本统计值某一区间中的把握性程度。它反映的是抽样的可靠性程度。 置信区间(Confidence Interval)。它是指在一定的置信度下,样本统计值与总体参数值之间的误差范围。置信区间反映的是抽样的精确性程度。43.1

4、.2 大数规律及抽样类型大数规律大数规律是随机现象出现的基本规律,它的一般意义是:尽管观察过程中每次取得的结果不同(因为具有随机性),但大量重复观察结果的平均数却几乎接近某个确定的数值。大数规律的意义在于:用样本统计量来推断总体参数。虽然样本误差在所难免,但只要样本容量足够大,计算出来的样本统计量就和总体参数非常接近。5大数规律的掷币试验大数规律的掷币试验 掷币次数出现正面次数出现正面的机会4040120002400020486019120120.50690.50160.50056抽样的类型 随机原则:指抽样时,在完全排除主观上人为选择的前提下,使总体中每一个单位有相同的被抽中的机会。遵从随机

5、原则的抽样叫随机抽样。根据抽取对象的具体方式,我们把抽样分为各种不同的类型。从大的方面衬各种抽样都可以归为概率抽样与非概率抽样两大类中。这是两种有着本质区别的抽样类型。概率抽样是依据概率论的基本原理,按照等概率原则进行的抽样因而它能够避免抽样过程中的人为误差,保证样本的代表性;而非概率抽样则主要是依据研究者的主观意愿、判断或是否方便等因素来抽取对象。它不考虑抽样中的等概率原则,因而往往产生较大的误差,难以保证样本的代表性。783.1.3 抽样调查抽样调查的概念抽样调查是指按照科学的原理和计算从要研究现象的全部分析单位中按随机原则,抽取部分单位进行调查,取得资料后,再根据样本的实际数据对总体的数

6、量特征作出具有一定可靠程度的估计和判断的方法。旨在以样本的资料来推断调查对象总体的相关统计数据。 93.1.3 抽样调查抽样调查的特点样本抽取的随机性样本容量的充分性抽样误差的控制性 103.2 概率抽样3.2 概率抽样概率抽样3.2.13.2.1概率抽样的概念与概率抽样的概念与程序程序3.2.2 3.2.2 概率抽样的类别概率抽样的类别及方法及方法113.2.1 概率抽样的概念与程序概率抽样的概念与程序概率抽样的含义:概率抽样又称随机抽样,即在抽样时,母体中每一个抽样单位被选为样本的几率相同。概率抽样的组织形式单阶段抽样:指只需一次抽样过程,包括:简单随机抽样、等距抽样、分层抽样、整群抽样。

7、多阶段抽样:指将总体分层,再逐层抽取样本的过程。123.2.1 概率抽样的概念与程序概率抽样的概念与程序概率抽样的程序界定总体。界定总体就是在具体抽样起那,首先对从中抽取样本的总体范围和界限作出明确的规定。 制定抽样框。这一步骤的任务就是依据已经明确界定的总体范围,收集总体中全部抽样单位的名单,并通过对名单进行统一编号来建立起供抽样使用的抽样框。决定抽样方案。实际抽取样本。评估样本质量。所谓样本评估,就是对样本的质量、代表性、偏差等等进行初步的检验和衡量。133.2.2 概率抽样的类别及方法3.2.2 概率抽样的类别及方法简单随机抽样系统抽样分层抽样整群抽样多段抽样PPS抽样户内抽样14简单随

8、机抽样简单随机抽样(Simple Random Sampling)。又称纯随机抽样,是概率抽样的最基本形式。它是按等概率原则直接从含有N 个元素的总体中抽取n 个元素组成样本(N n )。对于总体单位很多的情形,则采用随机数表来抽样。随机数表:表中的数码和排列都是随机形成的,没有任何一点规律性,故也称为乱数表。利用随机数表进行抽样的具体步骤是: 先取得一份调查总体所有元素的名单(即抽样框); 将总体中所有元素一一按顺序编号; 根据总体规模是几位数来确定从随机数表中选几位数码; 以总体的规模为标准,对随机数表中的数码逐一进行衡量并决定取舍; 根据样本规模的要求选择出足够的数码个数; 依据从随机数

9、表中选出的数码,到抽样框中去找出它所对应的元素。15 随机数表应用实例(2436人中选300人)随机数表中的号码选用的号码不选用的原因860722109405586097093433505007390152221007390152后面4位数大于2436后面4位数大于2436后面4位数大于2436后面4位数大于2436后面4位数大于2436后面4位数大于243616系统抽样(等距抽样)系统抽样(Systematic Sampling)。又称等距抽样或机械抽样。它是把总体的单位进行编号排序后,再计算出某种间隔,然后按这一固定的间隔抽取个体的号码来组成样本的方法。系统抽样的具体步骤是: 给总体中的每

10、一个个体按顺序编上号码; 计算出抽样间距,方法是用总体的规模除以样本的规模。 17系统抽样(等距抽样) 在最前面的K 个个休中,采用简单随机抽样的方法抽取一个个体,记下这个个体的编号(假设所抽取的这个个体的编号为A ) ,它称作随机的起点; 在抽样框中,自A 开始,每隔K 个个体抽取一个个体。即所抽取个体的编号分别为A,AK , A + 2K , , A + ( n -l ) K ; 将这n 个个体合起来,就构成了该总体的一个样本。18分层抽样分层抽样(Stratified Sampling) 又称类型抽样,它是先将总体中的所有单位按某种特征或标志(如性别、年龄、职业或地域等)划分成若干类型或

11、层次,然后再在各个类型或层次中采用简单随机抽样或系统抽样的办法抽取一个子样本,最后,将这些子样本合起来构成总体的样本。分层抽样的优点:一是在不增加样本规模的前提下降低抽样误差,提高抽样的精度。 二是非常便于了解总体内不同层次的情况,便于对总体中不同的层次或类别进行单独研究,或者进行比较。19分层抽样分层的标准: 以调查所要分析和研究的主要变量或相关的变量作为分层的标准 以保证各层内部同质性强、各层之间异质性强、突出总体内在结构的变量作为分层变量。 以那些已有明显层次区分的变量作为分层变量。20整群抽样整群抽样(Cluster Sampling) 它的抽样单位不是单个的个体,而是成群的个体。它是

12、从总体中随机抽取一些小的群体,然后由所抽出的若干个小群体内的所有元素构成调查的样本。整群抽样的优点: 可以简化抽样的过程,可以降低调查中收集资料的费用,同时还能相对地扩大抽样的应用范围。整群抽样的缺点: 样本的分布面不广、样本对总体的代表性相对较差,调查结果的偏差较大。21随机抽样四种类型比较类别使用范围抽样方式代表性简单随机抽样单位已经确定容易找到抓阄高等距抽样单位已排成序列表或者可以按某种顺序找到每几个抽一个较高分层抽样有关特征已经知道,可以辨认和找到先将总体分层,然后从每层中随机抽取最高整群抽样单位数量很大或范围不明确先将总体分群,然后随机抽取群最低22多段抽样多段抽样(Multista

13、ge Sampling)。 又称多级抽样或分段抽样,它是按抽样元素的隶属关系或层次关系,把抽样过程分为几个阶段进行。在社会调查中,当总体规模特别大,或者总体分布的范围特别广时,研究者一般采取多段抽样的方法抽取样本。多段抽样的具体做法是: 先从总体中随机抽取若干大群(组),然后再在这几个大群(组)内抽取几个小群(组),这样一层层抽下来,直至抽到最基本的抽样元素为止。确定每一级抽样的单位数目的因素: 一是各个抽样阶段中的子总体同质性程度;二是各层子总体的人数;三是研究者的所拥有的人力和经费。23PPS抽样PPS 的方法:先将各个元素排列起来,然后写出它们的规模,计算它们的规模在总体规模中所占的比例

14、,将它们的比例累计起来,并根据比例的累计数依次写出每一元素所对应的选择号码范围(该范围的大小等于元素规模所占的比例)。然后采用随机数表的方法或系统抽样的方法选择号码,号码所对应的元素入选第一阶段样本。最后再从所选样本中进行第二阶段的抽样。24表4-3 用PPS方法抽取第一阶段样本举例25户内抽样在介绍多段抽样时,有必要对社会调查中一种常用的“户内抽样”(Sampling within Household) 方法略作说明。举例来说,当研究者以家庭作为分析单位,以入户进行结构式访谈的方法收集资料,试图研究城乡家庭的结构、关系、生活方式或其他内容时,他们往往采用多段抽样的方法:从某一市(县)中抽取区

15、乡,再从区(乡)中抽取街(村),从街(村)中抽取居委会(居民组),然后从居委会(居民组)中抽取家庭户,最后从家庭户中抽取一位成年人作为调查对象。从这些调查对象那里得到的有关其家庭的资料,被用来描述这些家庭的特征和类型。在这种研究中,我们不仅需要抽出家庭户的样本,同时还要进行户内抽样从所抽中的每户家庭中抽取一个成年人,以构成访谈对象的样本。在抽取家庭中的成年人之前的每个抽样阶段中,我们可以采用前面所介绍的某种方法来操作。而这最后一个阶段的抽样则可以采取一种被称作“Kish选择法”的方式进行。根据这种方法,每户家庭中所有的成年人(比如说18岁以上者)都具有同等被选中的概率(机会)。26户内抽样Ki

16、sh方法的具体做法是:研究者先将调查表分为(编号为)A、B1、B2、C、D、E1、E2、F八种,每种表的数目分别占调查表总数的1/6、1/12、1/12、1/6、1/6、1/12、1/12、1/6。同时,印制若干套(1套8种)“选择卡”发给调查员,每人1套。“选择卡”的形式如表4-4。27表4-4 kish选择表A式选择表如果家庭中18岁以上人口数被抽选人的序号123456人以上111111B1式选择表如果家庭中18岁以上人口数被抽选人的序号123456人以上111122B2式选择表如果家庭中18岁以上人口数被抽选人的序号123456人以上111222C式选择表如果家庭中18岁以上人口数被抽选

17、人的序号123456人以上11223328D式选择表如果家庭中18岁以上人口数被抽选人的序号123456人以上122344E1式选择表如果家庭中18岁以上人口数被抽选人的序号123456人以上123335E2式选择表如果家庭中18岁以上人口数被抽选人的序号123456人以上122355F式选择表如果家庭中18岁以上人口数被抽选人的序号123456人以上12345629 调查员首先要对每户家庭中的成年人进行排序和编号,排序的方法是男性在前,女性在后;年纪大的在前,年纪小的在后。即最年长的男性排第一,次年长男性排第二,以此类推;最年长的女性排在最年幼的男性后面,其他女性也按年纪从大到小接着排列。如

18、表4-5 然后,调查员按照调查表上的编号找出编号相同的那种“选择表”,根据家庭人口数目从“选择表”中查出应选个体的序号,最后对这一序号所对应的那个家庭成员进行访谈。比如,某家庭18岁以上的成年人共有4 人祖母、父亲、母亲、儿子,其排序则为: 父亲; 儿子; 祖母; 母亲。若调查表为D 类,则应抽收祖母,而调查表为F类时,则就抽取母亲。30户内抽样按这种方法抽取被访对象的另一个好处是,它不仅可以使研究者收集到样本家庭的资料,同时也可以收集到由这些被访者所构成的个人样本的资料,这种资料可以用来描述这一地区所有成年人所构成的总体。因为由按这种方法抽出的人所组成的样本,在年龄、性别、文化程度等方面的分

19、布与总体的分布往往十分接近。31表4-5 家庭内成年人排序表序号年龄和性别特征1最年长的男性2次年长的男性. n最年幼的男性n+1最年长的女性n+2次年长的女性.n+m最年幼的女性323.3 非概率抽样方法3.3 非概率抽样方法3.3.1偶遇抽样3.3.2 判断抽样3.3.3 定额抽样3.3.4 雪球抽样333.3.1 偶遇抽样偶遇抽样(Accidental or Convenience Sampling)又称作方便抽样或自然抽样,是指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为调查对象,或者仅仅选择那些离得最近的、最容易找到的人作为调查对象。343.3.2 判断抽样判断抽样判断抽

20、样(Judgmental or Purposive Sampling)又称立意抽样,它是调查者根据研究的目标和自己主观的分析来选择和确定调查对象的方法。353.3.3 定额抽样定额抽样定额抽样(Quota Sampling )又称作配额抽样,它是一种比偶遇抽样复杂些的非概率抽样方法。进行定额抽样时,研究者要尽可能地依据那些有可能影响研究变量的各种因素来对总体分层,并找出具有各种不同特征的成员在总体中所占的比例。然后依据这种划分以及各类成员的比例去选择调查对象,使样本中的成员在上述各种因素、各种特征方面的构成和在样本的比例尽可能接近总体情形。363.3.4 雪球抽样雪球抽样 当我们无法了解总体情

21、况时,可以从总体中少数成员人手,对他们进行调查,向他们询问还知道哪些符合条件的人,再去找那些人并再询问他们知道的人。如同滚雪球一样,我们可以找到越来越多具有相同性质的群体成员。如果总体不大,有时用不了几次就会接近饱和状况,即后访问的人再介绍的都是已经访问过的人。例如,要研究退休老人的生活,可以清晨到公园去结识几位散步老人再通过他们结识其朋友,不用很久,你就可以交上一大批老年朋友。但是这种方法的偏误也很大,那些不好活动、不爱去公园、不爱和别人交往、喜欢一个人在家里活动的老人,你就很难把雪球滚到他们那里去,而他们却代表着另外一种退休后的生活方式。373.4 抽样设计3.4抽样设计3.4.1 抽样设

22、计的一般程序3.4.2样本的产生3.4.3样本的大小383.4.1 抽样设计的一般程序抽样设计的一般程序对总体进行分析对总体进行分析编制抽样框编制抽样框选择抽样方法选择抽样方法决定样本大小决定样本大小实际抽取样本实际抽取样本393. 样本的产生样本的产生界定总体和抽样框。如调查的总体为学年该校的全部在校生。分层。按年级分层样本抽取确定样本容量人,每年级抽人选择抽样方法:如用等距抽样法403. 样本的大小(规模)样本的大小(规模)影响样本大小的因素。样本的代表性要求:即样本能在多大程度上代表总体。总体的性质:总体规模一般地总体越大,样本也要求越大,但当总体规模达到一定程度时,样本大小几乎与总体大

23、小无关;总体单位越相似,样本容量就可以越小。抽样方法;不同的抽样方法应该有不同的样本容量研究代价;时间、费用和人力影响着样本的大小。41样本规模 样本规模(Sample Size)又称为样本容量,它指的是样本中所含个案的多少。 根据一些社会调查专家的看法,社会调查中的样本规模至少不能少于100 个个案。这是因为,在社会调查中,研究者不仅仅需要以样本整体为单位来计算平均数、标准差、相关系数等等统计量,同时,他们更经常地需要将样本中的个案按不同的指标划分为不同的类别,进而分析不同类别之间的差别,分析不同变量之间的关系。因此,要保证所划分出的每个子类别中都有一定数量的个案,就必须扩大整个样本的规模。

24、许多书中都给出了样本规模的计算公式。42例如,简单随机抽样中推论总体平均数的样本规模计算公式为其中,t为置信度所对应的临界值;为总体的标准差;为抽样误差。 而推论总体成数(或百分比)的样本规模计算公式为: 其中,p 为总体的成数或百分比;t,e含义同上。43在上述计算公式中,t可从标准正态分布表中查出,e是研究者根据需要事先确定的,但是总体的标准差、成数或百分比却往往是难以得到的。因此,在实际抽样过程中,研究者往往无法直接运用上述公式计算所需的样本规模,而只能采取某些变通的办法。比如,利用前人所作的关于同一总体的普查或抽样调查的资料,来计算或估计总体方差,由此得出推论总体均值的样本规模。在计算

25、推论总体成数(或百分比)的样本规模时,我们注意到,p(1-p)在p=1/2时达到最大值。 因此,即使我们对P 一无所知,也可以采取比较保险的办法,取p=0.5,这样,上式变为:44它可以保证样本规模足够大。表4-7 就是根据上面的公式所计算出的、在95的置信度(t=1.96 )条件下的最小样本规模。(表中为计算简便,取t= 2 。)45表4-6 95%置信水平下不同抽样误差所要求的样本规模46影响样本规模确定的因素影响样本规模确定的因素总体的规模估计的精确性要求总体的异质性程度调查者所拥有的经费、人力和时间47表4-7 根据总体同质性程度和精确性要求所需要的样本规模可接受的抽样误差(%) 所期

26、望的给与特定回答的总体百分比5或95 10或90 20或80 30 或70 40或60 50/501190036006400840096001000024799001600210024002500321140071193310661100411922540052560062557614425633637040061001782332672777731311711922048_1001311501569_7910411712310_8496100注:置信水平为95%;样本规模小于表中短横线上的数字时,难以进行有意义的分析。483.5 抽样误差及控制3.5抽样误差及控制3.5.1 误差及其分类3.

27、5.2系统误差及其控制3.5.3抽样误差及其控制493. 误差及其分类误差及其分类误差产生的原因:获得的信息不正确或不真实;定义和标准不严格、不确切、不适当;样本不能代表总体;部分数据对总体的估计将要产生的误差。误差的分类:系统误差抽样误差503. 系统误差及其控制系统误差及其控制系统误差种类:抽样设计误差(抽样框误差、调查对象范围误差、选样误差)测量误差(替代信息误差、访员误差、测量工具误差、数据处理误差、回答误差)系统误差的控制覆盖不周的控制;问卷设计误差的控制;访员误差的控制;访员舞弊的控制;拒答误差的控制;有意答错误差的控制;无意答错误差的控制;登记、计算、打印误差控制编码及设备误差控

28、制。51样本规模与样本误差抽样误差(Sampling Error)就是用样本统计值去估计总体参数值时所出现的误差。它是由于抽样本身的随机性所引起的误差。抽样误差主要取决于总体的分布方差和抽样规模。有关抽样规模和抽样误差之间的关系问题找们还应该注意两点.首先,对于比较小的一样本来说,样本规模上的很小的一点增加,便会带来精确性方面很明显的增加。其次,对于比较大的样本来说,同样增加那么多个个案,却收效甚微。52问题与讨论1、什么是抽样中的随机性?为什么概率抽样的方法能够保证样本对总体的代表性?2、分层抽样与整群抽样的具体操作方法是怎样的?二者之间有何异同?什么情况下应选用分成抽样?什么情况下则应选用整群抽样?3、如果条件允许,多段抽样中应尽可能扩大哪一级样本的规模?为什么?4、在实际社会调查中,有哪些因素影响到研究者对样本规模的确定?5、某市有300所小学,共240 000名学生,这些小学分布在全市5个行政区中。其中重点小学有30所,一般小学有240所,较差的小学有30所。现要从全市小学生中抽取1 200名学生进行调查,以了解全市小学生的学习情况。请设计一种抽样方案。6、从社会科学期刊中选择几篇调查研究报告,分析并评价这些调查研究中所采用的抽样方法。53

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号