教 育 研 究 方 法 导 论Introduction to Research Methods in Education滕 珺教育学部国际与比较教育研究院E-mail: tengjun1983@:5880-6702第六章第六章 抽样方法抽样方法第一节 抽样的意义第二节 非概率抽样第三节 概率抽样第四节 样本规模与抽样误差第一节第一节 抽样的意义抽样的意义一、相关的概念二、抽样的作用三、抽样的类型一、相关概念1.1.总体总体:是构成它的所有元素的集合是研究者感兴趣的群体,是研究者要将研究结果进行概化的目标2.2.样本样本:是为研究提供信息的总体中的一部分3.3.抽样抽样:选择愿意参与研究的个体的过程4.4.抽样单位抽样单位:一次直接抽样所使用的基本单位5.5.抽样框抽样框:抽样范围,一次直接抽样时总体中所有抽样单位的名单6.6.参数值参数值:总体值,关于总体中某一变量的综合描述7.7.统计值统计值:样本值,关于样本中某一变量的综合描述二、抽样的作用•提供了一种实现“由部分认识总体”的途径和手段;•节省人力、时间、经费三、抽样的类型(一)非概率抽样•主要依据研究者的主观意愿、判断或是否方便等因素抽取样本;•误差大,难以估计,代表性小,适合探索性研究。
•主要有:偶遇抽样、判断抽样、定额抽样、雪球抽样(二)概率抽样•依据概率论的基本原理,按照随机原则进行抽样;•主要有:简单随机抽样、系统抽样、分层抽样、整群抽样、多段抽样第二节 非概率抽样一、偶遇抽样•方便抽样或自然抽样,指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为对象,或者仅仅选择那些离得最近、最容易找到的人作为对象•或者说研究可以得到的一组个体.二、判断抽样•目的抽样,研究者根据研究目标和自己的主观分析来选择和确定他们认为可以提供所需要信息的人作为样本三、定额抽样•配额抽样,研究者根据可能影响研究变量的因素对总体分层,并计算出比例,然后取挑选对象•检验理论、解释关系、比较不同群体时,抽样标准是适合性,不是代表性四、雪球抽样•在无法了解总体情况时,从少数成员入手调查并询问其他符合条件的人,在找这些人所知道的人第三节第三节 概率抽样概率抽样一、概率抽样的程序二、简单随机抽样三、系统抽样四、分层抽样五、整群抽样六、多段抽样一、概率抽样的程序 随机抽取:总体中的每个个体都有同等的机会入选样本,而且每个个体的抽取都是独立的1.界定总体:范围与界限2.制定抽样框:收集总体中全部抽样单位的名单,并对名单统一编号。
注意,分段、分层抽样时则要分别建立起几个不同的抽样框3.决定抽样方案:确定抽样方法、样本规模、主要目标量的精确程度;4.实际抽取样本:按照选定方法从抽样框中抽取一个个抽样单位,构成样本;5.评估样本质量:质量、代表性、偏差 将可得到的反映总体中某些重要特征及其分布的资料与样本中的同类指标进行对比二、简单随机抽样 单纯随机抽样:按照等概率原则直接从含有N个元素的总体中随机抽取n个元素组成样本(N>n)•常用的方法:抽签、随机数字表•优点:可能产生代表性样本•缺点:不容易做1.编号难2.必须能够接触到被选中的个体3.成分比例难三、系统抽样•等距抽样或机械抽样,将总体的单位编号排序后,按照固定的间隔抽取个体组成样本的方法•步骤:1.制定抽样框2.计算抽样间隔:K=N/n3.在第一组K个个体中随机抽取一个个体A.4.在抽样框中每隔K个个体抽取一个个体.5.将N个个体合起来构成样本.•优点:简便易行•条件:抽样框应该是随机排列的.•注意2种情况:1.抽样框中的个体排列具有某种次序或等级2.抽样框中的个体排列具有与抽样间隔对应的周期性分布.四、分层抽样 类型抽样,将总体中的所有单位按照某种特征或标志划分为若干类型或层次,在每个类型或层次中采用简单随机抽样或系统抽样的方法抽取一个子样本,共同构成研究的样本.•优点:1.在不增加样本规模的前提下降低抽样误差,提高抽样精度,增大代表性2.便于了解总体内不同层次的情况,以及对总体中的不同层次进行单独研究或者进行比较.•注意:1.分层的标准问题2.分层的比例问题五、整群抽样•从总体中随机抽取一些小群体,将小群体的所有元素构成样本;•对小群体的抽取可采用简单随机抽样、系统抽样、分层抽样的方法。
•优点:1.简化抽样过程2.降低收集资料的费用3.扩大抽样范围•缺点:代表性比较差六、多段抽样•多级抽样或分段抽样,按照抽样元素的隶属关系或层次关系,把抽样过程分为几个阶段进行•步骤:1.以大群为单位编制抽样框2.抽取若干大群3.以小群为单位给每个大群编制抽样框4.分别从每个大群中抽取小群5.根据需要重复3、4步骤6.得到基本元素,构成研究样本•优点:方便易行第四节第四节 样本规模与抽样误差样本规模与抽样误差一、样本规模二、影响样本规模确定的因素三、抽样误差一、样本规模•样本容量,是指样本中所含个案的多少;•合理的样本容量应该是研究者在合理的时间和精力消耗下能够获得的尽可能大的样本;•统计学中,通常以30为界,30个个案及其以上为大样本,30个个案以下为小样本•统计学中的大样本于教育研究中的大样本不是一回事•在教育研究中,最小样本容量是:1.描述性研究中,n≥1002.相关研究中,n≥503.实验研究中,n≥30•为了进行不同类别之间的比较,必须扩大样本规模,至少在100个二、影响样本规模确定的因素1.总体规模:总体规模达到一定程度后,样本规模的改变很小2.抽样的精确性:•其他条件一定的情况下,置信度越高,推论的把握性越大,所要求的样本规模越大;•置信区间越小,抽样的精确度越高,样本值与总体值之间的误差越小,所要求的样本规模就越大。
3.总体的异质性程度:异质性大,所需要的样本规模大4.研究者所拥有的经费、人力和时间三、抽样误差•用样本值估计总体值时所出现的误差;•抽样误差是不可避免的,其大小可在抽样设计中加以控制;•抽样误差取决于总体的分布方差和抽样规模;•公司一般将规模控制在2000以内练习 某市有300所小学,共有240000名学生这些小学分布在全市5个行政区中其中,重点小学有30所,一般小学有240所,比较差的小学有30所现在要从全市小学生中抽取1200名进行调查,以了解全市小学生学习情况请设计一个抽样方案第七章 测量方法第一节 测量的概念与层次第二节 指数与量表第三节 效度与信度第一节 测量的概念与层次一、测量的定义二、测量的层次三、测验的定义一、测量的定义 测量就是依据某种法则给事物分派数字 ——史蒂文斯•测量是根据一定的法则,将某种事物或现象所具有的属性或特征用数字或符号表示出来的过程•测量的作用在于确定一个特定分析单位的特定属性的类别或水平测量的四个要素1.测量的客体:即测量的对象,“测量谁”?2.测量的内容:即测量客体的某种属性或特征,“测量什么”?3.测量的法则:怎么测量?即用数字或符号表达事物各种属性或特征的操作规则,或是某种具体的操作程序和区分不同特征和属性的标准。
4.数字或符号:如何表示?即用来表示测量结果的工具二、测量的层次(一)定类测量 类别测量或定名测量,是一种分类体系,即将研究对象的不同属性或特征加以区分,标以不同的名称或符号,确定其类别•数学特征是等于或不等于,测量层次最低•所分类别必须既具有穷尽性,又具有互斥性•对称性,指甲对乙的关系也就是乙对甲的 关系•传递性,指的是如果甲与乙同类,而乙与丙同类,那么甲一定与丙也同类(二)定序测量 等级测量或顺序测量,按照某种特征或标准将对象区分为强度、程度或等级不同的序列如名次,文化程度等•数学特征是大于或小于•具有对称性(类别区分)和传递性•还具有不对称性•数字只单纯表示大小(三)定距测量 等距测量或区间测量,既可以区分事物或现象之间的不同类别、不同等级,还能够确定它们之间不同等级的间隔距离和数量差别如智商,出生年份,温度等•它没有绝对零点;•数据可进行加减运算(四)定比测量•等比测量或比例测量,具有绝对零点,数据可进行加减运算,还能够进行乘除运算如收入、年龄、出生率等•测量层次不同,数据的数学特征不同,采用的统计方法不同•尽可能对教育现象进行高层次测量,因为高层次测量包含的信息更多,而且高层次测量的结果容易转化为低层次的测量结果,反之则不行。
三、测验的定义测验是测量一个行为样本的一种程序1.测验所测量的是行为,是被测者对测验题目所做出的反应,并不是直接测量了被测者本身的某种属性2.一个测验所包含的只是全部这类题目的一个样本3.测验是一种程序练习练习 对人们的婚姻状况、受教育年限、学术水平的测量属于哪一层次的测量?第二节第二节 指数与量表指数与量表一、指数和量表的概念二、李克特量表三、鲍格达斯社会距离量表四、语义差异量表一、指数和量表的概念•对概念的复合测量可以有两种主要的方式:指数(index)和量表(scale)•在教育研究中,这种复合测量可以将多项指标概括为一个分数,因而可以有效地缩减资料数量,并有效地区分出人们在这些概念或态度上的程度差别1 1、指数、指数•一个指数就是由多个不同的回答所构成的一个简单累加的分数•它是由一组有关事物的态度或看法的陈述构成,回答者发表对这些陈述同意或不同意的意见,然后按照某种标准将回答在全部陈述上的得分加总,就得到了该回答者对这一事物态度量化结果•在指数中,每一个具体陈述在对概念的测量中具有同等地位,占有同等的比重,即它们在反映人们的态度方面是“等值的”;彼此间不存在特定的顺序结构。
•表中每个陈述所表达的态度方向与记分的方向应该保持一致贝利生育意愿指数 同意 不同意1.结婚的主要原因之一是要生孩子 1 02.只生一个是错误的,因为独生子女是在孤独中成长,并且由于五 1 0兄弟姐妹而忧郁3.生育孩子是一个妇女所能具有的最深刻的经历之一 1 04.两种性别的孩子至少都有一个比仅有一种性别的孩子好 1 05.没有孩子的妇女决不会感到完全满足 1 06.男人直到他业已证明自己成为了孩子的父亲时,才算是“真正的男人”。
1 07.未结婚的、或者结婚了而没有孩子的男人可能是同性恋者 1 08.妇女的首要职责是做母亲,只有在不影响其母亲职责时,才谈得上她的事业 1 09.没有孩子的夫妇实在可怜 1 02 2、量表、量表 一个量表是一种具有结构强度顺序的复合测量,即全部陈述或项目都是按照一定的结构顺序来安排,以反映出所测量的概念或态度具有的各种不同的程度政治参与程度量表 是的 不是的1。
你进行过选民登记吗? 2你参加过投票吗? 3你为政治运动捐过款吗? 4你为政治运动工作过吗? 5你自己参加过竞选议员吗?二、李克特量表(Likert Scaling)•指数的一种特殊形式1932年美国社会心理学家李克特在原有指数形式上改进完成的•由一组对某事物的态度或看法的陈述组成,回答者对这些陈述的回答被分成“非常同意、同意、不知道、不同意、非常不同意”五类,或者“赞成、比较赞成、无所谓、比较反对、反对”五类•能够更清楚地反映人们在态度上的差别•提出了帮助研究者从量表中消除有问题的项目的方法•教育研究中用得最多的一种量表形式李克特量表的编制程序1.围绕要测量的态度或主题,以赞成或反对的方式写出与之相关的看法或陈述若干条(一般为20—30条)对每个陈述都给予五个答案,并根据赞成或反对的方向分别赋以1、2、3、4、5分2.在所要测量的总体中选择一部分对象(一般不少于20人)进行试测3.统计每位受测者在每条陈述上的得分以及每人在全部陈述上的总得分4.计算每一陈述的分辩力,删除分辩力不高的陈述,保留分辩力高的陈述,形成正式量表。
分辩力的计算方法1.根据受测对象的总分排序;2.取总分最高的25%和总分最低的25%的人,计算这两个部分人在每条陈述上的平均得分;3.将这两个平均得分相减,所得的差就是这条陈述的分辨力系数4.分辨力系数越大,分辨力越高;5.删除分辨力系数为负数的陈述;6.删除分辨力系数小者 非常同意 同意 无所谓 不同意 很不同意1、婚事应该尽量办得简单一些2、结婚是人生大事,婚事应该办得隆重、热闹、花再多钱也值得3、就是有钱,婚事也不应该大操大办4、为了不让别人笑话,就是借钱也要把婚事办得像个样子第三节 测量的信度与效度一、信度二、效度三、内部效度一、信度 信度(reliability)即可靠性,或一致性、稳定性,指采取同样的方法对同一对象重复进行测量时,其所得结果(分数)相一致的程度 大部分信度指标都以相关系数(r)表示1.再测信度:间隔一定的时间对同一组被试两次施测同一个测验,所得分数之间的相关系数2.复本信度:研究者在同一时间内,用同一工具的两种不同但是等价的形式对同一组被试施测,所得分数之间的相关系数3.折半信度或内部一致性信度:将每个人的测量情况分成两半(常常分为奇数题和偶数题),并发表计分,然后计算这两组分数之间的相关系数。
全部测验的信度可用:•斯皮尔曼-布朗公式:信度=2*一半测验的信度/(1+一半测验的信度)•KR20、KR21或ą系数信度的标准 对于用于研究目的的测验来说,信度系数应该至少等于0.70,并最好比它更高•标准化能力或学绩测验:>0.90•人格测验:>0.80•教师自编学绩测验:>0.60二、效度(validity)(一)工具(测量)效度(二)内部效度(三)外部效度(一)工具(测量)效度•效度也称测量的有效度或准确度,是指测量工具或测量手段能够准确测量出所要测量的变量的程度,或者说能够准确、真实地度量事物属性的程度•效度指的是测量标准或所用的指标能够如实反映某一概念真正含义的程度•效度是研究者基于其所收集到的信息所做出的具体推论的恰当性、有意义性和有用性•恰当性指推论应该是与研究目的相关的•有意义性指推论说明了以某种工具所获得的信息的一些意义•有用性指推论能够帮助研究者做出与其想要发现东西的相关程度•测量效度有3种类型:表面效度、准则效度和构造效度表面效度•也称内容效度、内容关联效度或逻辑效度,指测量的内容和形式或测量指标与测量目标之间的适合性和逻辑相符性•通常由专家来判断测验的内容和形式与所要测量的变量和被试样本的定义的一致性程度。
程序1.研究者在一张纸上写出他想测量的变量的定义;2.将定义、编制好的测验和未来样本的描述交给一个或几个专家;3.专家标记出没有测量到1个或几个目标变量的题目;4.专家标记出没有被任何题目所测量的目标变量;5.专家评价测验根据形式的恰当性;6.研究者根据专家意见重新修改,并将修改后的测验交给专家;7.如此反复多次,直到专家对测验中的所有题目都没有疑问为止准则效度•也称实用效度或效标关联效度,指用新编测验所得到的分数与其他工具(常常称为效标)所得到分数之间的关系•效标是一个判断标准,是指能够用来检验某一工具上的分数的第二工具•如学业能力测验与学年平均分•自尊问卷与老师对学生的自尊评价构造效度 也称构想关联效度,是指所获得的全部证据与理论上的预测一致的程度1.清晰地定义所测量的变量;2.基于某种潜在的理论,形成有关具有“许多”或“很少”的变量值的人,在某种特定情景中将如何表现的假设;3.对假设进行逻辑和实证的检验 如“诚实性”测验与拾金不昧 如“婚姻满意度”测验与主动承担家务(二)内部效度•内部效度指因变量的测量差异与自变量有直接关系,不是由某些其他偶然变量引起的。
•如在高中生中,接受探究式教学的人在批判性思维测验上比那些接受讲授式教学的人的平均得分更高那么得分上的这种差异是否是由方法上的差异造成的呢?(学生、课程、教师)影响内部效度的因素1.被试特征:选择偏向,如年龄、力量、成熟度、性别、种族、协调性、词汇量、速度、智力、宗教信仰、政治信仰等,几乎无穷尽2.被试的缺失:丢失被试因此,研究的实际样本并不是所以被挑选到的被试,而仅仅是那些我们能够从他们那里得到数据的人3.研究场所:地点因素的影响4.研究工具的使用: 1)工具的耗损:工具特性的变化,如允许对经过做不同解释、疲劳等 2)数据收集者特征:性别、年龄、语言模式 3)数据搜集者偏见:无意识地歪曲数据5.测验:警觉与努力、练习6.个人经历:意外事件的干扰7.成熟:被试的改变是由事件流逝引起的8.被试的态度:被试看待研究以及参与研究的方式9.回归:一般说,如果一组被试因为在前测中不寻常的低(或高)成绩蓓挑选出来的,那么在随后的测验中,他们将得到更接近于平均数的分数,而无论在者期间发生了什么事情10.操作:分派不同个体操作不同的方法;一些人对一种方法有偏爱练习如何解释内部效度与工具效度之间的区别?练习在下面每种情况中,存在哪种影响内部效度因素?1.教实验英语课程的老师和教常规英语的老师都对各自的学生进行了前测和后测。
2.志愿3年级学生阅读的8年级学生与那些没有参与活动的比较组的学生相比,在他们自己的阅读分数上表现出了更大的提高3.某经济落后地区一所学校的学习成绩最差的10%的学生,被选来参加一个内容丰富的特殊学习计划该计划包括特殊的游戏、额外的资料、特别的快餐、特别彩印的资料和新课本等在计划实施6个月后,学生们在成就测验上的分数明显提高(三)外部效度•当研究者想把某个特定研究的结论应用到研究中所使用的特定人群和环境之外的人群或环境时,需要对结果进行概化•科学的全部思想都建立在概化思想的基础上 外部效度是指研究结果可以从样本概化到总体的程度 进行概化要考虑:1.样本的特性2.进行研究的情境总体概化总体概化•总体概化是指研究结果可以被概化到目标总体的程度即样本代表总体的程度代表性)•代表性仅仅指总体的基本特征或有关特征有关特征是指那些被认为可能对结果有影响的因素•如研究阅读方法对学生成绩的影响,身高、眼睛颜色、弹跳能力等就被认为是无关的;而年龄、性别或视力则有关的•在随机样本情况下,既要保证研究对象是随机样本,又要保证操作各种处理的人的样本也是随机的•不能随机抽样时,研究者应该尽可能彻底地描述样本的特征(如年龄、性别、民族、社会经济地位等),或者进行重复研究。
生态学概化•生态学概化是指一个研究的结果能够扩展到其他环境或条件的程度•如新阅读教学对城市四年级学生的影响,其结论对于农村、郊区的学生就不一定合理•研究者必须清楚研究所处的环境条件或情境的本质这些条件的所有主要性质要与研究者想要将研究结果推广到的新环境的主要性质一致•重复研究思考 如果内部效度和外部效度有关系,那么是在哪些方面有关系?一项研究能否有内部效度而没有外部效度?或者一项研究能否有外部效度而没有内部效度?为什么?三、信度与效度的关系•一般而言,缺乏信度的测量肯定也是无效度的测量•具有很高信度的测量并不意味着同时也是高效度的测量•追求测量的信度往往会在一定程度上损害或降低测量的效度,分之亦然。