第五章-教育测量研究

资源描述

《第五章-教育测量研究》由会员分享，可在线阅读，更多相关《第五章-教育测量研究（55页珍藏版）》请在金锄头文库上搜索。

1、1,第五章教育测量研究,第一节教育测量概述,第二节教育测量工具的评价指标,第三节教育测量的实施,2,第一节教育测量概述,一、教育测量的定义二、教育测量的要素三、教育测量的可能性与特点四、教育测量的应用形式五、教育测量的主要类型六、教育测量的量表,3,一、教育测量的涵义,测量就是根据某种规则把所观察的对象的属性和特征予以数值化的过程，以表明被测对象通过作业和活动所达到的程度或量的多少。,4,教育测量是指对教育领域内的各种事物或现象，根据一定客观标准进行考核，并将考核结果用数量描述。狭义：包括对学生德、智、体各方面的测量，也包括对教师的教育教学效果、学校办学水平、学校办学效益

2、等方面的测量。,5,PS：通俗地说，就是根据一定的规则，给事物分派数字。1、2、3、4、5这些数字本身是没有数量或质量意义的，只是个符号。当我们规定1代表学业成绩的最低等级“不及格”；2代表“及格”；3代表“中等”；4代表“良好”；5代表“优秀”，这时1、2、3、4、5才具有实际意义，数字按规则被赋予了意义。,6,二、教育测量的要素,参照点指的是在测量工作中必须具有一个量的起点，这个起点就叫作测量的参照点。这是任何测量都必须具备的两个要素之一，测量所必须具备的要素包括参照点和单位。参照点有两种：一种是绝对参照点，即以绝对的零点作为测量的起点。比如长度和重量测量就是建立在以绝对的零点为参照点

3、的基础上的测量。另一种是相对参照点，即以人为确定的零点为测量的起点。如地势高度的测量，就是以海平面为测量的起点。最理想的参照点是绝对参照点。,7,测量的单位,不同测量的单位是不同的。理想的测量单位应当具备两个条件：一个是要有确定的意义，即对同一单位来说所有人的理解是相同的；二是要有相等的价值，即单位与单位之间的距离是相等的。但是教育与心理测量中的单位往往很难达到这个要求，它远不如其他测量中使用的单位成熟和完善。,8,测量的要素（1）测量客体。指测量的对象。测量的客体可以是人，也可以是教育研究中的事物或现象。（2）测量内容。指测量客体的属性和特征。测量内容可以是外显的，如学生的性别

4、、年龄、身高、体重等，也可以是内隐的，如学习兴趣、动机、态度、价值观等。（3）测量规则。指测量的法则或方法。也就是说，要构建一套如何分派数字或符号的准则，按准则对测量内容进行规范化、标准化的操作。（4）测量工具。指测量的指标体系。没有工具，测量难以进行。,9,三、教育测量法的可能性与特点,可能性：桑代克（1918年）“凡物的存在必有其数量” 麦柯尔（1923年）“凡有其数量的事物都可测量” （一）教育测量的结果是相对的学生不断成长变化；测量对象不同、测量工具不同，无法比较；（二）教育测量一般是间接测量测量心理属性，需要具体行为操作指标；（三）教育测量的客观性主要研究工具是测验，

5、遵循一定的标准和程序，不能凭主观经验进行。,10,四、教育测量的应用形式,（一）直接应用选取某个测验作为收集资料的工具，其测验结果就是研究的成果。例如，使用韦克斯勒智力量表测试学生智力水平。（二）综合应用例如，中小学生创造性气象与学业成绩的相关性研究,11,五、教育测量的主要类型,（一）根据测量的标准化程度：标准化测量、非标准化测量 1.标准化测量（standardized test）由专家学者或专门机构采用系统的科学程序编制的、在测验实施过程、评分手续、分数的解释上具有统一标准的，并对测验误差做了严格控制。编制和施测有一套标准程序。测验编制包括确定测验目的、科学命题、选取有代表性的

6、样本进行试测；根据数量化指标筛选测验题目；鉴定整个测验的信度和效度；建立常模、确定指导语、时限和施测条件；规定评分标准、分数转换和解释方法等。标准化测验所获得的测量结果比较客观、可靠、应用范围较广，一般测量调查应尽可能选用标准化的测验工具。,12,2.非标准化测量（教师自编测量）（non- standardized test ）指测量的编制和实施不按标准程序进行的测量，通常由教师或研究人员自编的、为临时测量所用的简单测量。如课堂测验、考试、等级评定量表等。这些测量是教师根据教学目标和自己的教学经验编制而成，它通常与日常教学工作紧密联系；测验内容与教材内容、教学进度一致；难易程度由教师把握；

7、针对性较强。编制省时、省力、灵活、方便。不足之处在于测验的客观性和标准化程度不如标准化测验，测验的实施和记分也不甚严格。,13,（二）根据测量的内容分类：学业成就测验、智力测验、能力倾向测验、人格测验等。 1.学业成就测验测被试经某种形式的学习或训练后对知识、技能的掌握程度或熟练水平。如识字量、阅读、算术测验等，成就测验可以是学科成就测验或综合成就测验。 2.智力测验测被试的智力高低，其结果常以智商（IQ）来表示，此类测验比较多，其中比较著名的有：斯坦福比纳智力测验、韦克斯勒儿童智力测验量表（WISC-CR）、瑞文推理测验等。,14,3.能力倾向测验测被试潜在的某种能力，以了解其发展的可

8、能性，预测个人能力发展倾向。如音乐、美术、体育、创造力、想象力、记忆力等方面的能力倾向测验。 4.人格测验测被试的需要、动机、兴趣、态度、气质、性格、人际关系等人格心理特征，较为著名的有明尼苏达多相个性测验（MMPI）、艾森克人格问卷（EPQ-R）、卡特尔16项人格因素测验（16PF）等。,15,（三）根据测量结果的评价标准分为：常模参照测验、目标参照测验。 1.常模参照测验常模参照测验是一种衡量被试相对水平的测验，是将被试的测验成绩与同类对象在同一测验上的平均分（常模）相比较，从而解释分数，确定被试在总体中的相对位置的测验方法。常模参照测验要有常模对照表。常模有地区性常模和全国性常模，

9、地区性常模只适用于特定的区域，如在城市获得的常模就不一定适用于农村或边远地区，而全国性常模适用于全国所有的同类个体。如，儿童的身高、体重就有全国性常模，中国儿童发展量表（3-6岁）就有全国性常模。只要我们将个体实际测量的数据与常模一对照，就可以知道个体所处的地位。,16,17,2.目标参照测验又称标准参照测验，是衡量被试实际水平的测验，将被试在测验上的分数与事先制定好的某种标准进行比较，看被试是否达到了目标规定的要求。目标参照测验的特点是依据标准，判断被试的达标程度，而不是将被试的成绩与他人成绩做比较。如，英语水平测试、毕业考试、动作技能测试、体育达标测试等。,18,（四）根据同时受测的人

10、数分类：个别测量、团体测量 1.个别测量指主试与被试一对一进行的测量（一个主试在同一时间内，只测验一个被试）。个别测量的可靠性比较高，主试能有效地观察控制被试的行为反应，但个别测量费时费力，短时间内难以获得大量的资料，并且对主试的要求较高。 2.团体测量指一个主试能同时对许多被试进行的测量。团体测量节省人力与时间，在短时间内能收集到大量的资料，效率较高，但被试的反应不容易控制，并且测量效果不及个别测量可靠。,19,（五）根据测量目的分类：诊断性测验、形成性测验和总结性测验。,20,测量需要有测量的工具，测量的工具应具有单位和参照点，并且有表示量数的方法，我们把这种工具称之为量表。如，

11、尺是度量长度的量表，血压计是测量血压高低的量表，智力测验是测量智商高低的量表。,六、教育测量的量表,21,量表的数据类型：称名数据顺序数据等距数据比率数据,点记数据,度量数据,22,（一）称名量表（类别量表）是根据事物的某一特点，对事物属性进行分类，用名称或数字来代表事物或性质，是给事物进行简单归类的一种量表形式。如：男生为1，女生为2 喜欢语文的学生为1，喜欢数学的学生为2 称名量表测量的结果不能运算，但可以做统计分析（如计算百分比、列联相关、卡方检验）,23,（二）顺序量表（等级量表）只有等级顺序而无等距的单位和绝对零点，只是按研究对象的某一种属性的顺序排列出等第次序。如：

12、根据学生的测验成绩排出名次，成绩最好的为1，成绩次之为2，再次之为3，依次类推。又如，对于生活水平，我们可以给出四个等级：贫困、温饱、小康、富裕。,24,（三）等距量表（间距量表）是具有相等的单位，但没有绝对零点的量表。等距量表的数量单位之间的间距是相等的，可以相加减。如：温度摄氏30度至32度与摄氏18度至20度的温差是相等的，都是相差2度。三个儿童在智商测验中分别得分105、110、115，在智商测验分数体系中，分数差距是相等的。等距量表在学校教育系统运用广泛，一般将百分制评分看作等距量表。,25,（四）比率量表（等比量表）除了具有类别、顺序、等距量表的特征外，还有一个具有实际

13、意义的绝对零点。可以加减乘除。零点是指测量的起点或参照点。有些零点是人定的，称相对零点，如摄氏零度，这里零度并不意味着没有一点温度，而是以人定的冰点为参照标准。像学生的考试成绩、智商的0分都是相对零点。有些零点具有实际意义，称绝对零点。如年龄、身高、经费开支等都有绝对零点，0岁、0米、0元中的“零”都表示真实的“无”，表示一点都没有。,上述四种量表的比较：,第二节教育测量的评价指标,27,28,一、测量的误差,系统误差由于仪器结构上不够完善或仪器未经很好校准等原因会产生误差。例如，各种刻度尺的热胀冷缩，温度计、表盘的刻度不准确等都会造成误差。由于实验本身所依据的理论、公式的近似性，或者

14、对实验条件、测量方法的考虑不周也会造成误差。例如，热学实验中常常没有考虑散热的影响，用伏安法测电阻时没有考虑电表内阻的影响等。由于测量者的生理特点，例如反应速度，分辨能力，甚至固有习惯等也会在测量中造成误差。以上都是造成系统误差的原因。系统误差的特点是测量结果向一个方向偏离，其数值按一定规律变化。我们应根据具体的实验条件，系统误差的特点，找出产生系统误差的主要原因，采取适当措施降低它的影响。,29,随机误差,在相同条件下，对同一物理量进行多次测量，由于各种偶然因素，会出现测量值时而偏大，时而偏小的误差现象，这种类型的误差叫做偶然误差。产生偶然误差的原因很多，例如读数时，视线的位置不正确，

15、测量点的位置不准确，实验仪器由于环境温度、湿度、电源电压不稳定、振动等因素的影响而产生微小变化，等等，这些因素的影响一般是微小的，而且难以确定某个因素产生的具体影响的大小，因此偶然误差难以找出原因加以排除。实验结果还表明，在确定的测量条件下，对同一物理量进行多次测量，并且用它的算术平均值作为该物理量的测量结果，能够比较好地减少偶然误差。,30,衡量教育测量的质量，可采用四个指标：信度主要对整个测量而言。效度难度主要对测量的项目而言。区分度,二、测量的条件,31,二、信度,信度（reliability）：指的是测量结果的稳定性和可靠的程度，亦即测量的结果是否真实、客观地反映了受测者

16、的实际水平。具体而言，可以从以下三方面来理解测量的信度：,1.信度指实测值和真值相差的程度 2.信度指统计量与参数之间的接近程度 3.信度指两次重复测验或等值测验之间的关联程度,32,1.信度指实测值和真值相差的程度,xTE （公式1-1） x表示实测值，T表示真值(是未知的，可以把多次测量的实测值的平均值作为真值的近似值)，E表示误差。 Ex-T （公式1-2）,33,试比较以下两次测量结果（只进行一次）的信度：用尺子量100cm高的一个儿童，得到1cm的绝对误差；量185cm高的一位运动员，也得得到1cm的绝对误差。要比较两种测量结果的信度，一定要看误差分数（E）对于真分数（T）所占的百分数是多少。这个百分数表示该实得分数（x）的相对误差。其计算式如下：相对误差E/T100% 公式（1-3）把上述两次测量（设为甲和乙）和绝对误差分数和真分数代入上式，得：相对误差（甲）1/100100%1% 相对误差（乙）1/185100%0.54% 据此，度量乙的信度要比度量甲的信度高。,34,统计量是指样本上的各种数字特征。（如样本平

展开阅读全文