《《传播研究方法》第八讲演示教学》由会员分享,可在线阅读,更多相关《《传播研究方法》第八讲演示教学(50页珍藏版)》请在金锄头文库上搜索。
1、复,为什么抽样? 经济、提高研究质量 抽样的类型: 概率抽样、非概率抽样 7种非概率抽样(Nonprobability Sampling),复习:概率抽样的逻辑和理论,代表性(Representativeness) 当选出的样本的各种集合特征大体接近于总体的集合特征时,样本就具有代表性。 样本不需要在每一方面都具有代表性,代表性只需局限于与研究的实质性需要相关的特征。 概率抽样的基本原则: 总体中的每一单位都有一个已知的、非零的被包含在样本中的概率,尽管对于总体的所有单位而言,选择的概率并非总是相同的。 EPSEM(Equal probability of selection method):
2、在这种样本设计中,总体中的每个成员都具有相等的被选进样本的机会。 概率抽样的独特优点: 虽无法完美地代表总体,但能避免各种偏见; 能够估计样本的精确度及代表性。,复习:概率抽样的逻辑和理论,代表性(Representativeness) 当选出的样本的各种集合特征大体接近于总体的集合特征时,样本就具有代表性。 样本不需要再每一方面都具有代表性,代表性只需局限于与研究的实质性需要相关的特征。 概率抽样的基本原则: 总体中的每一单位都有一个已知的、非零的被包含在样本中的概率,尽管对于总体的所有单位而言,选择的概率并非总是相同的。 EPSEM(Equal probability of selecti
3、on method):在这种样本设计中,总体中的每个成员都具有相等的被选进样本的机会。 概率抽样的独特优点: 虽无法完美地代表总体,但能避免各种偏见; 能够估计样本的精确度及代表性。,复习:概率抽样的逻辑和理论一些基本概念,总体(Population):我们感兴趣的、试图概括的群体或集合体。如:全国人口 要素(Element):构成总体的单位,也是样本所包含的内容。 在一个既定研究中,要素与分析单位往往是相同的。要素用于抽样,分析单位用于资料分析。 样本率(sampling ratio):样本个案数和总体之比,即n/N. 例:总体包含50,000人,研究者从中抽取150人作为样本,则样本率为,
4、150/50000=0.003 or 3%,复习:概率抽样的逻辑和理论一些基本概念,样本框(Sampling Frame) “总体”是个抽象的概念。 样本框:用于抽样的总体列表。如果样本能够代表总体,则其样本框必须包含所有(或几乎所有)的总体成员。 例:对组织的研究【成员名单即为样本框】 以电话黄页为样本框,复习:概率抽样的逻辑和理论一些基本概念,样本框(Sampling Frame) 样本框存在的四个潜在的缺陷 丢失:样本框中丢失了目标总体的某些人口单位 重复:某些单位在清单中登录了一次以上 不合格:样本框中有不属于目标总体的单位 整群登录:样本框中的单位以群体形式登录 样本框定义出现问题,
5、会导致非抽样偏倚: 样本框造成的偏倚; 无回答偏倚 测量误差【定义和测量工具的问题】,复习:概率抽样的逻辑和理论一些基本概念,参数(parameter):对总体中某变量的概括性描述。 统计值(statistic):对样本中的变量的概括描述,并被用来估测总体参数。,复习:概率抽样的逻辑和理论一些基本概念,抽样单位(sampling unit) 抽样过程中的基本单元。在简单随机抽样中,抽样单位是个体(individuals);在群集(cluster sampling)抽样中,抽样单位是由个体组成的群集。 层级(stratum): 样本的一个子集。层级的划分通常是研究所关心的某一变量为依据。同一层级
6、中的个案,就该变量而言,是同一的(homogeneous)。,复习:概率抽样的逻辑和理论,抽样要解决的两大问题: 如何选择一个用于代表总体的样本? 如何判断样本是否完好地代表了总体?,抽样偏倚/误差:在研究总体的值与期望值之间存在的差异。 抽样分布(Sampling Distribution): 一种估计量,如从许多样本计算的 ,围绕以它的期望值为中心的分布。 SB:抽样偏倚 :从研究总体中得到的均值 :均值的期望值,即对研究总体反复进行抽样得到的均值的平均值,抽样误差(Sampling Error),抽样分布,假设研究州立大学的学生对校方拟实行的一套学生管理条例的态度。研究总体为20,000
7、名该校注册学生,随机从中抽取100名学生为样本以估计总体的情况。 假设学生中有一半赞成,一半反对(研究者预先并不知道这一情况)。,三种假设的抽样所产生的结果,对学生名册上的每一个学生予以编号,使用随机数表选出其中的100位,询问其对于校规的态度。其中:48位学生赞同,52位不赞同; 以相同的方法选出另外100个样本。结果:51%赞同; 在第三组样本中,有52位学生持赞同态度。,抽样分布,如果扩大抽样数量,我们会发现,虽然抽样结果分布在一个相当大的范围内,但是大部分的抽样结果都出现在图中的50%附近。,抽样误差(Sampling Error),标准误:某抽样设计的期望误差程度;指出抽样结果集中在
8、总体参数附近多大的范围内。 其中一种测量方法: P、Q:二项变量的总体参数值 60%的学生赞成校规而 40%的学生反对,则P=60%,Q=60% N:每组样本包含的样本量【如n=100】 S:标准误,样本容量n:越大,S越小 样本同质性:p=0 or 1, S=0,正态曲线(Normal Curve),不论总体有何特质,当反复地从总体中抽取样本时,曲线的数值就接近正态曲线的形状。 大约34%的样本估计值会落在大于总体参数值一个标准误的范围内;另外34%的样本估计值会落在小于总体参数值一个标准误的范围内。,估测抽样误差:置信水平( Confident Level )和置信区间(Confident
9、 Interval),置信水平:总体参数落在一既定置信区间的估测概率。 例如:我们有95%的信心说35%-45%的投票者会支持候选人A。 置信区间:估测总体参数值的范围。 例如:我们有95%的信心保证样本统计值会落在与参数值相距正负5%的范围内。 置信区间扩大时,置信水平也会增加。 几乎所有样本估计值(99.9%)都会落在与真实值相距三个标准误的范围内。,估测抽样误差:置信水平( Confident Level )和置信区间(Confident Interval),当决定了允许的抽样误差范围后,便可依此范围计算所需要的样本量。,找出样本量和样本二项式分布值得交叉点,出现的数字代表当置信度为95
10、%时,以百分点(正负)所显示的抽样估计误差。,例:400名受访者样本中,60%回答是,40%回答否,抽样误差估计为正负4.9个百分点。则我们可以预测,当置信度为95%时,总体中回答“是”的比例落在55.1%-64.9%之间。,若希望有95%的信心让研究结果与总体参数值的差异在正负5%以内,那么样本容量至少要有40人。,传播研究方法,第八讲:抽样的逻辑(2),中国青年政治学院 赵菁 2015年11月5日,本讲概要,概率抽样的类型 第二次作业,抽样设计的类型,简单随机抽样(Simple random sampling, SRS) 系统抽样(Systematic sampling) 分层抽样(Str
11、atified sampling) 多级整群抽样(Multistage cluster sampling) 概率比例抽样(Probability proportionate to size, PPS),抽样设计的类型1. 简单随机抽样(Simple Random Sampling, SRS),通过对总体随机抽取而获得的样本。 方法: 第一步 编制包含所有要素的抽样框; 第二步 给名册中每一个要素一个号码; 第三步 确定所需样本数; 利用随机数表(random numbers table)选择要素 两个基本特征:1)同一概率;2)独立性 要求:有所有个体的名单,并且可以接触到所有个体。,例:简单
12、随机抽样,随机数表的使用方法,【要求】:假设要从800人的总体中用简单随机抽样方法选取50个人作为样本。 【步骤】: 将总体中所有的人编码(1-800); 确定所选择的随机数需要几位数字(3位,001-800) 翻到随机数表第一页: 如何从五位数字号码中产生三位数字号码?【建立原则】 按照什么顺序在表中选择号码? 从哪里开始选择?,1.超过800的数字 :忽略它; 2. 碰到同一个 号码:跳过第二 个重复的; 3. 依此进行, 选足50个随机数,问题: 1.成本高; 2. 不精确,等距抽样:系统化地选择完整名单中的每第K个要素组成样本。 例:从120个人(总体)中选出10个人(样本) 抽样间距
13、(sampling interval):两个被选择的要素间的标准距离。 总体大小/样本大小,120/10=12 【步骤】: 1. 将总体中所有要素编码; 2. (从1-12中)随机选择一个数字作为起点; 3. 每隔12个数字选一个作为样本,抽样设计的类型2. 系统抽样(Systematic random sampling),潜藏危机:周期性问题 如果要素名单是以与抽样间隔一致的循环方式排列的,系统抽样方法可能产生一个有重大偏误的样本。 例如:报纸抽样;公寓样本; 士兵名册抽样,抽样设计的类型2. 系统抽样(Systematic random sampling),随机起始:2 抽样间距:4 选入
14、样本:a,在抽样之前将总体分为同质性的不同群(或层)。每一子集就所研究的有关特征而言(如年龄、收入、种族等)是同一的。 之后可与简单随机抽样、系统抽样或整群抽样相结合,在每一子集中抽取随机样本,组成一个总的随机样本。 关键功能:将总体分成几个同质的次级集合(次级集合间有异质性),然后再从每个次级集合中抽出适当数量的样本。 次级集合除了在用来分层的变量方面具有同质性之外,在其他变量方面也可能具有同质性。E.g.按年级分类的样本会使年龄更具代表性;按性别分类的样本会在就业意愿方面显现出更好的代表性。,抽样设计的类型3. 分层抽样(Stratified random sampling),好处:提高代
15、表性、减少抽样误差 例如:对某大学本科生进行分层抽样: 将所有学生按年级加以分类; 分别从一年级、二年级、三年级、四年级的学生中,各抽出适当数量的要素组成样本。 对一个非分层的抽样样本来说,与学生所属年级相关的抽样误差将与其他变量的抽样误差一样大; 而对于分层的抽样方法而言,与学生所属年级相关的抽样误差将减少至零。,抽样设计的类型3. 分层抽样(Stratified random sampling),以职位分层,某综合医院的100个样本,好处:当我们所感兴趣的某类群体在总体中所占比例过小,简单随机样本很可能遗漏该类群体成员时,分层可以解决此问题。 研究者要从 20,000名大学生中抽出200个
16、样本 从注册处得知,20,000名学生中,2%的学生(400人)是离婚女性,且有一个不到5岁的孩子。 在一个有代表性的样本中,此群体应为4人,但简单随机抽样容易遗漏。 而分层抽样中,可以直接从这400人种选4人进入样本。,抽样设计的类型3. 分层抽样(Stratified random sampling),分层变量的选择方法: 依赖于现有的变量:性别、班级、院系、地域、选区 考虑与想要精确描述的变量相关的变量:性别、教育(不易获知)、城市、地理位置(南城、北城、西城、东城社会阶层相关)区域等,抽样设计的类型3. 分层抽样(Stratified random sampling),处理包含总体所有要素的名册,两种分层方法 将所有要素按照所使用的分层变量加以分类,成为不同的小团体;再按相对比例从各个小团体中抽出(随机方法或系统抽样法)适当数量的样本。 例如:二年级学生中GPA为3.5以上的学生占所有学生的1%,而我们要获取1000个学生样本;那么,可以在GPA3.5以上的大二学生中抽出10个作为样本的一部分。 先将学生进行分类;将所有不同类