教育测评与测量－金锄头文库

资源描述

《教育测评与测量》由会员分享，可在线阅读，更多相关《教育测评与测量（5页珍藏版）》请在金锄头文库上搜索。

1、0144教育测量与评价2012年6月期末考试指导第一章教育测量与评价的学科发展1. 测量的要素.测量的量具、测量的单位和测量的参照点，是测量的三个基本要素或三个基本条件。2. 教育测量和教育评价的定义教育测量：就是针对学校教育影响下学生各方面的发展，侧重从量的规定性上予以确定和描述的过程。教育评价：按照一定的价值标准和教育目标，利用测量和非测量的种种方法系统地收集资料信息，对学生的发展变化及其影响学生发展变化的各种要素进行价值分析和价值判断，并为教育决策提供依据的过程。3. 教育测量的特点由于教育测量主要是测量学生的内在心理特性，因此，它具有与物理测量不同的特点。主要有：间接性和推断性；测

2、量对象的模糊性和测量误差的不可避免性；量表具有多样性，结果具有相对抽象性。4教育评价的特点教育评价的特点包含如下几个共同的要点：第一，强调以教育目标为标准的价值判断过程。第二，强调用多种方法测量和非测量）系统收集资料与信息。第三，教育评价的内容既可以是教育计划，也可以是课程；既可以是学生的学习结果，也可以是某种教育现象、教学活动、教育目的或教育程序。第四，强调为学生发展和教育决策服务。第二章教育测量与评价的类型和功能1. 教育测量与评价的类型（1）按测评在教学中运用的时机分类：形成性测量与评价、诊断性测量与评价、终结性测量与评价。（2）按解释测评结果时的参照点分类：常模参照测量与评价、

3、标准参照测量与评价、潜力参照测量与评价。（3）按测量与评价的内容分类：智力测量与评价、能力倾向测量与评价、成就测量与评价、人格测量与评价。（4）按照测量与评价被试行为表现的性质分类：最佳行为测量与评价、典型行为测量与评价。6）其它分类：按测量对象可分为个别测量与评价和团体测量与评价；按测验材料可分为文字测验和非文字测验；按量具的标准化程度可分为标准化测验和非标准化测验。2. 教育测量与评价的主要功能（1）实现教育判断；（2）改进教师教学；（3）促进学生学习；（4）行使教育管理。第三章教育测量与评价的质量特性1. 信度的定义.信度，简单地说就是测量结果的可信程度，指的是测量结果的稳定性或一致

4、性程度。记为rxx。具体地说，测验的信度是指同一组学生用同一测验实施两次后所得分数的一致性，或者同一组学生经过一次测验后，用另一个同质的测验再测一次，这两次测验所得分数的一致性。2. 信度的估算方法（1）重测信度：也叫稳定性系数，指的是用同一个量表，对同一组被试施测两次所得结果的一致性程度，其大小等于同一组被试在两次测验上所得分数的相关系数。（2）复本信度：指的是两个平行测验测量同一批被试所得结果的一致性程度，其大小等于同一批被试在两个复本测验上所得分数的相关系数。（3）同质性信度也叫内部一致性信度指测验内部所有题目间的一致性程度。题目间的一致性有两层意思，其一是指所有题目测的是同一种心

5、理特质，其二是指所有题目得分之间都具有较高的正相关。（4 ）评分者的信度：指的是多个评分者给同一批被试的答卷进行评分的一致性程度4. 效度的定义效度是指测量结果的准确性和有效性的程度，亦即测量是否达到了预期的目的。每当进行教育、心理之类的间接测量的时候，必须考虑是否测量到了所要测量的东西，在多大程度上测量到了这些东西。也就是说，必须考虑测量的效度问题。在效度和信度之间，首先要重点保证是高效度，因为，高效度必然高信度；反之，则不然。特别是对于教育测量而言，效度问题显得更为重要。5. 效度的类型（1）内容效度：指测验目的代表所欲测量的内容和引起预期反应所达到的程度。也就是测量内容的代表性程度

6、（2）效标关联效度：又可称为经验效度或统计效度，是以测验分数和效标之间的相关系数来表示测验的效度的高低的。效标就是足以显示测验所欲测量的特性的变量或足以显示测验所欲预测的特性的变量，作为检定效度的参照尺度。效标关联效度又可分为同时效度和预测效度。同时效度是指测验与当前效标之间的关联程度；预测效度是指测验与将来的效标之间的关联程度。例如，用全国高考的成绩作为效标来检验高中毕业会考的成绩，计算两者之间的相关系数就是会考的同时效度；而用大学一年级的成绩作为效标来检验高考的成绩，计算两者之间的相关系数就是高考的预测效度。（3）结构效度：指一个测量能实际测量出理论上的构念或心理特性的程度。它的

7、目的在于用心理学的概念来说明分析测验分数的意义，也就是说从心理学的理论观点就测验的结果加以解释和探讨。这里的结构的含义是心理学理论所涉及的抽象而属假设性的概念、特性或变量，如智力、焦虑、机械能力倾向、成就、动机等。6. 难度.难度指被试完成测验或量表时所遇到题目的难易程度。测验题目的难度必须根据测验的目的确定和评价。（1）难度对测验的影响：影响测验分数的分布状态、影响测验的鉴别能力。（2）影响题目难度的因素：考查知识点的多少、考查能力的复杂程度或层次的高低、考生对题目的熟悉程度、命题的技巧、利用经验判断或者通过预测调整难度。7. 衡量测验质量的四个指标.作为教育测量的工具一测验，它的编制

8、是一项十分复杂的工作，它需要懂得一些教育测量基本知识和基本方法的人来完成。从教育测量的理论上来讲，一个良好的测验应该具备恰当的难度和区分度，具备较高的信度和效度，也就是说，测验的信度、效度、难度和区分度是衡量测验质量的基本指标。其中，前两个指标主要是对整个测验而言，后来两个指标主要是对测量的项目而言。&效度的分类.1974年美国心理学会发行的教育和心理测验的标准一书将效度分为三大类：内容效度、效标关联效度和结构效度。第四章编制教育测验的一般原理与方法1. 教育目标分类（1）布卢姆等人的教育目标分类法：教育目标分为认知领域、情感领域和动作技能三个领域。认知领域的目标细分为知识、理解、运用、分

9、析、综合和评析六个主要类别。情感领域的目标分为接受、反应、赋予价值、组织和形成品格五个类别。动作技能领域非常复杂，分类不完善，有克布勒1970）、辛普森（1972）、哈罗等人（1972）的分类。（2）加涅的教育目标分类法：教育目标分为智力技能、认知策略、言语信息、运动技能和态度五种能力。智力技能细分为辨别、概念、规则、高级规则四类。态度领域分为情感因素、认知因素和行为后果三个类别。认知策略、言语信息和运动技能不再细分。2. 布卢姆的认知领域的目标分类.分为六个类别，按照由低级到高级的难易程度形成一种递进的等级关系，前一类别是后一类别的基础，后一类别又涵盖了前面的类别。（1）知识/知道。

10、这是最低等级的认知目标。此处的知识是指对具体事物和普遍原理的回忆，对方法和过程的回忆，或者对一种模式、结构或框架的回忆。（2）领会。这是最低层次的理解，指个人把某种材料与其他材料联系起来，也不必弄清它的最充分的含义，便知道正在交流什么，并能够运用正在交流的这种材料和观点。（3）运用。运用是指将抽象的概念用于特定的和具体的情境。这些抽象的概念，可能是以一般的观念、程序的规则或概括化的方法等形式表现出来的，也可能是那些必须记住的和能够专门运用的原理、观念和理论。（4）分析。分析是指把材料分解成各个组成部分，弄清各部分之间的相互关系及其构成的方式，以指出那些用来传递意义或确定交流结果的技术和

11、手段。（5）综合。综合是指将各种要素和组成部分组合起来，以形成一个整体。它是对各种要素和组成部分等进行加工的过程，是一个用这种方式将它们组合起来，以构成一种原先不那么清楚的模式或结构的过程。（6）评价。评价是指为了某种目的，对观念、作品、答案、方法和资料的价值及符合准则的程度作定量和定性的判断。准则既可以是内在证据，如逻辑上的准确性、一致性等，也可以是外部准则，如根据挑选或回忆出来的相应领域的最高标准等。3. 测验题目类型与测量功能.若根据被试作答的范围和评分方法不同，又可分为主观性试题和客观性试题。客观性试题主要包括选择题、匹配题和供答题中的填空题、简答题等，一般适用于测量知识的掌握

12、、理解、应用、分析几个层次的教学目标。客观题的评分标准客观、具体，但是它所能考查的内容具有一定的局限性。主观性试题主要包括论述题、操作题和作文题等。它们适合于测量较高层次的教学目标，尤其是适合于测量综合、评价等目标层次。4. 题目反应理论与经典测验理论.题目反应理论认为，一个人的行为举止就好像处于自身某些心理品质的定量控制之中，可以通过一组题目定量地估计个体在每一种特质上的位置。反之，可用所估计到的特质的量去预测和解释个体在相应情境中将会产生的行为反应。与经典测验理论相比，题目反应理论在以下方面取得突破。第一，参数比较稳定。经典测验理论使用的题目分析法所得的题目统计量数受样本的抽样影响较

13、大。而题目反应理论的方法具有局部独立和参数独立等特点，题目参数估计是独立于被试样本和题目样本，因而后者的参数比较稳定。第二，能力的比较。经典测验理论对被试能力间的比较只能在相同的测验或平行复本的情况下进行。而题目反应理论是自适性测验或电脑自适应测验，它的处理较方便且灵活。第三，平行复本难实现。经典测验理论最基本的概念是测验的信度。而信度的设定来自平行复本的假设。但事实上平行测验是很难达到的，被试不可能在两次测验中得到完全相同的结果。影响测验结果的因素很多，如遗忘、学习新知识技能、动机及焦虑程度等。经典测验理论常依赖平行复本的假设，所以研究者在现实实施中只能接受下限的信度估计或具偏差的信

14、度估计。第四，缺乏预测力。经典测验理论无法预测被试在一个新的测验中可能的表现。而题目反应理论使用概率的观念来表示被试能力与项目的关系表示具有某种能力的被试答对某题的概率P。第五，测量标准误。经典测验理论是假定所有被试的测量标准误都是相等的。事实上，不难发现，不同能力组表现在测验上的稳定性是不同的。如施测几个复本，可能高能力组比中能力组稳定性高。良好的测验模式应能针对某一测验得分或被试能力进行精确的估计，不同的得分或能力有其不同的概率误差，而非统一的测量标准误。除此之外，经典测验理论在测验的设计、偏误题的认定、测验的等值问题上还没有得到满意的解决。第五章教育测验的常模及其建立方法1. 教

15、育测量数据的特点.教育测量的数据，本质上不同于物理测量的数据，不能直接套用相应于物理测量数据的方法：（1）教育科学研究中绝大部分数据属于等级变量。（2）教育测量的多数数据从本质上说是主观的。（3）教育测量的数据还具有随机性。（4）教育测量的数据也具有模糊性。2. 常模参照测验与标准参照测验.在教育与心理测验中，可依据解释测验分数的参照点不同，把测验分成常模参照测验和标准参照测验。即参照测验的常模，对测验的分数进行解释与评价的测验，称为常模参照测验；参照测验的“标准”，对测验的分数进行解释与评价的测验，称为标准参照测验。第七章制定教育评价表的一般方法和步骤1. 教育评价表/教育评价表是根据教

16、育教学的特性编制而成的，它由评价指标、评价项目条目）、评价标准、评定等级、指标权重等构成。它是进行教育测量与评价的工具，为了使评价的结果更为可靠，需要对教育评价表进行更深入的研究。2. 教育评价表的构成要素（1）评价指标：就是根据评价的目标，由评价指标的设计者分解出来的，能够反映评价对象某方面本质特征的具体化、行为化的主要因素，是对评价对象进行价值判断的依据。（2）指标权重：就是表示每项评价指标在指标体系中所占的重要性程度，并赋予相应的值，这个数值就叫做对应指标的权数，或叫做权重。（3）评价标准：衡量评价对象达到评价指标要求的尺度，是由强度和频率、标号、标度三个要素构成的。3. 常见的指标权重分配方法（1）关键特征调查法关键特征调查法是先请被调查者从所提供的备择指标中找出最关键、最有特征的指标，再对指标进行筛选并求出其权重的方法。其操作步骤包括：提出备择指标。请被调查者从备择指标中找出一定数量的关键指标。计算人数和百分比。按一定的规则选取指标。

展开阅读全文