(完整版)教育测验与评价.doc

资源描述

《(完整版)教育测验与评价.doc》由会员分享，可在线阅读，更多相关《(完整版)教育测验与评价.doc（3页珍藏版）》请在金锄头文库上搜索。

1、第一节教育测验一、教育测验的概念(一)概念界说测量是给事物的某种属性给定数值的过程，回答了“有多少”的问题。教育测量包括了从身体身体素质到兴趣态度等多个方面。测验是对于知识水平、情意状态、运动技能等的数量化测定，有广义和狭义之分。狭义的测验仅指一份测验卷子，而广义的测验指编制试题、施测、评分到报告成绩的全过程。在教育领域，测验只是测量的一种形式，主要用来测量学生的学业成绩和心理特点。如果说测量回答了“有多少”的问题，只考察量的大小，测验则回答了“某个人做的怎么样”的问题，包含了对测验结果的解释和评判。规范的考试是教师在教学过程中编制试题、评定学生学业成绩的过程，如期中、期末考试。它与测验的区

2、别有两种看法。第一种是从教育测量学中引出，认为测验更为规范，从试题编制、实施测验测验到评分过程都有严格的程序，而考试则是教师可自行安排，相对灵活，技术要求不高的测验形式。另一种观点与第一种正好相反，认为测验比较随意，而考试则较为正式。本书主要采用第一种观点。评价是对某种教育活动的价值判断。评价包含定性描述或价值判断，更多的时候是两者兼而有之。(二)测验的功能测验具有以下功能：(1)激励功能；(2)诊断功能。诊断性测验主要考察两个方面，一个是看基础打得好不好，可否满足学习某种新知识的需要，另一个是看理解和掌握上有什么错误及其原因所在，它为教学提供了丰富的反馈信息，使教师能及时调整教学；(3)区分

3、和选拔功能。升学考试就体现了测验的选拔功能，如高考；(4)评定功能。二、测验的类型从测验目的上考虑，可以分成安置性测验、形成性测验、诊断性测验和总结性测验。从测验内容上考虑，可以分成成就测验和学能测验。从规范程度上区分，可以分成标准化测验和教师自编测验。从结果解释所参照的标准区分，又可以分成常模参照性测验和标准参照性测验。(一)安置性测验、形成性测验、诊断性测验和总结性测验安置性测验的根本目的是分班、分组。安置性测验涉及的范围比较窄，难度也比较低。形成性测验针对某一教学单元而设计，在教学过程中进行，其目的不在于评定学生，而是为了调控教学。诊断性测验能够反映学习中常见的错误，诊断学习困难，特别是

4、找到困难的成因。诊断性测验的目的是发现问题，评分不作为正式成绩。总结性测验用于对学生学习情况的阶段性总结分析。在一个段落或一门课结束后，教师会编制一套试题，全面考察学生的掌握情况。现行小学学科测验多采用闭卷形式，有时候也要求学生完成实践性课题。(二)标准化测验和教师自编测验标准化测验在试题编制、施测和评分过程中有着严格的规范。标准化测验是由测验专家和教师共同编制的，试题质量较有保障。最典型的标准化测验是智力测验，如“比奈智力量表”。教师自编测验是教师自己编制的测验，是在教学过程中针对教学实际引用现代测验原理编制的。教师自编测验针对性、灵活性强，能反映实际教学中遇到的特殊问题。(三)成就测验和学

5、能测验成就测验是对学生学业成绩的检查，常结合具体学科而设。学校平时的课堂测验，期中、期末考试等，都是成就测验。学能测验，又称学能倾向测验，它考察学生在课程学习中所获得的能力，与学业成就有较大关系。学能测验不局限于某门课程，关心各门课程都需要具有一般能力，主要包括文字推理测验和数字推理能力测验。学能测验一般在小学毕业前进行，能在一定程度上预测学生的发展潜力。学能测验与成就测验的区别在于，成就测验针对具体的教学内容而定，着重考察知识的掌握情况；而学能测验的测验内容比较宽泛，侧重于能力考察。(四)常模参照性测验和标准参照性测验常模参照性测验是按照在特定群体中的相对位置决定成绩的好坏。选拔性考试一般是

6、典型的常模参照性测验，如高考。常模参照性测验要在所定教学内容中，选出一些能区分出学生水平的题目，它不一定要面面俱到，但应该能拉开分数距离。题目难度以中等为宜，特别难和特别简单的题目要少一些。标准参照性测验是考察是否达到了预先规定的标准，类似于各种执照考试，如驾驶执照考试。这种测验只关注考生是否达到了应该达到了应该达到的水平，而不去管别的考生怎么样。确定“合格”或“掌握”的标准是标准参照性测验能否取得成功的关键。标准参照测验往往是针对某几个特殊的知识点而设计，题目覆盖面广，并尽可能把所学的重要知识都反映出来。标准参照性测验不去刻意拉开学生间的距离，题目该难就难，该易就易，完全随知识点的要求而定。

7、常模参照性测验和标准参照性测验的区别是：前者着重同学间的比较，后者关心有没有达到预定的学习目标。常模参照性测验适用于选拔性考试和总结性评定；而标准参照性测验适用于诊断和发现学生的不足，从而为改进教学提供反馈信息。三、良好测验的标准好的测验都应当符合一定的要求，通常用实用性、信度、效度、难度和区分度等指标衡量测验质量。1实用性实用性反映了试题的基本质量，其基本要求是便于组织，便于实施，节时省力。(便于组织。(2)测验便于实施。(3)容易评分。(4)结果要容易解释。2可信度可信度又称信度，指测验结果的前后一致程度，表示了分数的稳定性和可靠性。具体要求是，先后两次用同样的试卷测查同一批学生，则两次测

8、验的分数应该比较相近；对同样的答卷组织两次评分，评分结果相近。如果上述评分结果相差悬殊，就表示可信度很低。评分的客观性常用评分者信度来说明。3有效性有效性在测量学上也称为测验的效度，指一个测验能测到预先想测的知识和能力的程度。估计测验效度的方法主要有两种：(1)内容效度，反映了题目对所考察内容的代表性问题。(2)效标关联效度，反映了测验分数和所选择的效标分数之间的一致程度。和信度相比，测验的效度更为重要。因为效度高的测验信度一定高。4难度难度即测验的程度，提供了试题平均通过率的信息。一份试卷的难度取决于每一道题的难度。难度用全体被试在某题的得分率(P)表示。如果全部通过，难度为1；如果谁都没有

9、通过，难度为0。难度值在0到1之间，难度值越大，表示题目越容易。高分段人数少，低分段的人数多，表示难度较高。高分段的人数多，低分段的人数少，表示难度较低。难度中等时，最容易拉开考生间的档次。不同的测验对难度有不同的要求，如选拔性考试难度以中等为宜，否则很难筛选。一般来说，某一道试题答对的学生少于20%时便是过深，答对的多于80%时则是偏浅。5区分度区分度是测验能否拉开分数距离的指标。试题的区分度也称为鉴别力，表示某道题目能够将不同程度的学生鉴别开来的能力。试题难度直接影响区分度，特别难的题目大家都不会做，特别容易的题目大家都会做，这两种题目区分度都很低。反之，中等难度的试题的区分度比较高，难度

10、为0.5的题目，区分度最大。四、测验的编制和实施(一)确定试题内容在选择试题内容时，应设计测验蓝图。测验蓝图包括确定测验目的、测验内容以及编制双向细目表等内容。(1)确定知识点。(2)确定认知水平。(3)设计双向细目表。双向细目表是由教学内容和教学目标构成的的。(二)选择试题类型课堂测验的题型有客观题和论文题两种。客观题包括填空、判断正误和多项选择等题型。论文题包括简答题和论述题。因为客观题和论文题各具优缺点，所以搭配使用效果最佳。(三)评分计分方法可分为等级分和百分制两类。等级分在中国隋唐一代就广为使用，百分制则是20世纪初教育测量学的发展产物。等级制的计分方法除五分制和A、B、C、D、E外，还有许多变形。使用等级分的好处是避免了在同一分数等级上同学间的攀比，会减轻过分的分数竞争。但缺点在于，等级分比较粗略，不容易反映个体间细微的差别，评分尺度也较难把握。在评分时，教师要注意到自己对学生的看法可能会影响到评分过程。和百分制相比，等级制能避免“分分计较”的学习心理，减轻学生的考试负担。(四)测验分数的解释分数只有经过解释具有实际意义。解释分数时，既可以和其他同学的学习表现相比较，也可以和考核标准相对照。分数的意义是在比较中获得的。如同样考85分的两个同学，其分数值虽然相同，但反映出的水平和存在的问题并不完全相同。

展开阅读全文

(完整版)教育测验与评价.doc

最新文档