测验等值测验等值主讲:谢小庆一、为什么进行测验等值研究为什么进行测验等值研究测验、考试被作为一种尺度来对人的心理特质进行测量这种尺度应该具有稳 定性不同的考试版本之间应该具有一致性对于同一个测量对象,不能用这个版 本测量得到一个度量,用另一个版本测量却得到相差很大的另一个度量尽管我们 在命题过程中总是尽量保持考试难度的稳定性,但不同试卷之间在难度、信度、分 数分布方面的差别很难完全避免的这种差别不仅会影响到测验的质量,影响到评 价标准的客观性,而且会使参加考试时间不同、使用试卷不用的考生受到不公平的 对待这样,就需要将具有不同难度、分数分布的试卷的分数转换到一个统一的量 尺之上,采用统一的量尺对应考者进行测量这种将一个测验的不同版本的分数统 一在一个量表上的过程即等值(equating) 如果不进行等值处理化,不同时间举行的考试的成绩之间不具备可比性,评价 标准或证书授予标准会受到试卷难度起伏的影响一些水平不高的考生可能会由于 运气好遇到较容易的试卷而通过考试获得相应资格,一些水平较高的考生可能会由 于运气不好遇到较难的试卷而未通过考试并未能获得相应资格这种状况,不仅影 响到选拔效率和人员素质,而且对考生也是很不公平的。
等值研究的意义并不局限于保证考试公平今天,为了避免命题和试卷编制中 的盲目性和偶然性,许多考试机构都在致力于建设题库实现基于项目反应理论 (Item Response Theory,简称 IRT)的题目参数等值是建设科学化、大规模题库的 前提基于经典测验理论(Classical Tesing Theory,简称 CCT)之上的等值方法只 能实现不同试卷之间的等值,满足“试卷库”建设的需要,很难实现在统一的量尺 上标定试题难度和区分度的任务,很难满足大规模题库建设的需要 实现计算机化自适应性考试是许多考试的发展方向,也是摆在许多考试机构面 前的重要课题计算机化自适应性测验开发中的一个核心环节就是在统一的量表上 标定试题参数,实现各个考生所回答的不同题目之间的等值二、等值的定义二、等值的定义一般说,等值是将一个测验的不同版本的分数统一在一个量表上的过程如果 一个考生在参加不同版本的考试时,他的成绩不会受到影响,那么,我们可以认为 这两份试卷是等值的在实际进行等值处理时,需要对等值的操作定义在等值概 念中,应该包括等价性、对称性、样本组间一致性等涵意㈠㈠等价性等价性 Lord 首先提出等值的等价性(equity)概念(1980,第 195 页)。
根据 Lord 的等价性 概念,一组能力相同的考生组在测验 X 上的真分数分布经等值转换后,应该与他 们在测验 Y 上的真分数分布相同这种等价性可以表达为:定义 T 为真分数,x 为测验 X 上的分数,y 为测验 Y 上的分数,为 x 在)(xey测验 Y 上的等值分数,G 为累积分布函数,则等价性的含义是对于所有的真分数 T 有:(1))|()| )((TyGTxeGy这一等价定义意味着具有相同水平的考生在测验 X 和测验 Y 上的观察分数的 平均数、标准差、分布形态完全一样正如 Lord 指出,只有在测验 X 和测验 Y 完 全相同的情况下,这种等价性才可能实现在测验实践中,两份试卷不可能被编制 得完全相同如果能够编制出完全相同的两份试卷,也没有必要再进行等值处理 因此,Kolen 和 Brennan 认为, “如果以 Lord 的等价性作为标准,等值处理既不可 能,也无必要1995,第 11 页)因此,Morris 于 1982 年提出了一个可能实现的等价 性定义: 定义 E 为一个变量的期望,则等价性的含义是对所有的真分数有:(2))|()| )((TyETxeEy上式中的用法与式(1)中相同。
这一定义被称为“一阶等价(first order )(xeyequity)”或“弱等价(weak equity)” 这一等价定义意味着具有相同水平的考生在 测验 X 和测验 Y 上的观察分数的平均数相等 无论是经典测验理论中的“真分数”还是 IRT 中的“潜在特质” ,都是无法直 接把握的在实际的等值中,我们经常以基于对一组人的观察之上的观察分数来定 义等价性:(3))())((yGxeGy这一定义意味着,如果一组考生在测验 X 上的观察分数分布与在测验 Y 上的 观察分数分布相同,我们就认为测验 X 与测验 Y 等值 在下面所介绍的等值方法中,有些是基于公式(2)所定义的等价性之上,如 Levine 真分数等值方法;有些是基于公式(3)所定义的等价性之上,如等百分位方 法㈡㈡对称性对称性 对称性又称可逆性,是指等值转换关系是双向的对于两个平行测验 X 和 Y,如果测验 Y 上的 60 分等值于测验 X 上的 50 分,那么 X 上得分 50 分也一定等 值于 Y 上的 60 分这种对称性的要求将回归方法排除在等值方法之外等值问题 并不单单是个回归问题通常,X 对 Y 的回归与 Y 对 X 的回归并不一致,回归关 系不具有对称性。
㈢㈢样本组间一致性样本组间一致性等值处理的结果应该不受到进行等值处理所采用的考生样本组的影响根据不 同的样本组建立起来的测验 X 与测验 Y 之间的等值关系应该基本一致例如,两个测验版本之间的等值关系对于男生样组和女生样组应该是一样的 在实际的等值过程中,等值的这一含意往往难以满足等值结果或多或少要受 到等值样组的影响,有时影响会很大一般说,真分数等值模型较少受到等值样组 的影响,而观察分数模型则较多受到等值样组的影响因此,在等值过程中,应该 尽量使样组对于测验的对象群体具有好的代表性kolen,1995,第 12 页)三、三、横向等值和纵向等值横向等值和纵向等值根据等值的应用性质,可以将等值分为横向等值(horizontal equating)和纵向等 值(vertical equating)一般说,等值是在测验的平行版本之间建立联系,这种联系 属于横向的联系因此多数的等值属于横向等值有的时候测验被用来建立发展量 表,一组水平不同的测验被用来刻划考生的发展水平在这些不同水平的测验之间 建立联系的过程被称为纵向等值例如,中国汉语水平考试(HSK)包括基础、初等、 中等、高等等不同水平的考试;一个小学生言语发展量表可能包括分别适用于一至 六年级的六个不同水平的测验。
以统计方法在这些不同水平的测验之间联系的过程 即纵向等值 由于这些测验本来不属于相同水平,不是真正意义上的“等值” ,所以,有些 研究者不使用“纵向等值”的概念而是使用“纵向量表化(vertical scaling)”的概念 (kolen,1995,第 12 页) 今天,在教育测量与心理测量的文献中, “纵向等值”概念仍 然被广泛使用四、等值问题的研究状况四、等值问题的研究状况在心理测量学领域中,等值问题的研究开展较晚虽然从 50 年代就有一些零 星的研究,但 80 年代才引起比较广泛的注意(R. L. Brennan,ACT,1987) 在 70 年代、80 年代出版的有关心理测量的教科书中几乎见不到关于等值问题的讨论, 甚至一些 90 年代出版的大学心理测量学教科书中都未涉及测验的等值问题直至 90 年代后期,关于等值问题的系统性文献也十分罕见(Livingston, ETS,1996,第 369 页) 近年来,心理测量学家们对测验等值问题给予越来越多的关注,不仅提 出了许多等值方法,而且围绕等值问题展开了多方面的研究这些研究主要集中在 下面几个方面1、不同等值设计之间的比较 2、不同理论模型之间的比较 3、不同等值系数估计方法之间的比较 4、关于造成等值误差因素的研究 5、关于等值误差估计方法的研究在我国,迄今等值是测验研究中最薄弱的一个环节,许多重要的考试都尚未 实现统计等值。
五、影响等值误差的因素五、影响等值误差的因素象测验误差不可避免一样,等值误差也是不可避免的影响等值误差的主要因素包括: ①被等值测验的同质性; ②被等值测验之间的难度差别; ③被等值测验分数的分布特点,包括偏度、峰度等; ④被等值测验的单维性; ⑤锚题对测验的代表性,或锚题分数与测验分数的相关; ⑥用于等值估计的考生样本的容量; ⑦用于等值估计的考生样本分数分布的相似性; ⑧测验长度; ⑨锚题数量; ⑩锚题在测验中的位置 实际的影响因素可能更多等值还会受到测验所关注的分数段、测验目的对分 数精确性的要求水平、测验分数的应用、计算条件等多种因素的影响六、等值数据的收集六、等值数据的收集测验等值过程包括两个阶段,一个是等值数据的收集,一个是等值数据的处理 (见图一)图一:等值方法图一:等值方法多种等值数据资料的收集方法可以分为两大类,一类是采用以“人”为媒介的 共同组设计,即让一组人接受不同的测验版本;另一类是以“题目”为媒介的“锚 测验”设计,即在不同测验版本中含有共同的题目1共同被试组设计共同组设计(common-subject equating design)中包括单组设计(single-group design)、平衡随机组设计(counterbalanced random-group design)和等组设计(equivalent-group design)等几种不同的等值设计。
图二:各种等值数据收集方法的图示图二:各种等值数据收集方法的图示 —————————————————————————————— ⒈单组设计 样组测验 X测验 Y P1√√2平衡随机组设计 测验 X测验 Y 样组第一次 第二次第一次 第二次 P1√√ P2√√⒊等组设计 样组测验 X测验 Y P1√ P2√⒋锚测验随机组设计 样组测验 X测验 Y锚测验 V P1√√ P2√√⒌锚测验不等组设计 样组测验 X测验 Y锚测验 V P1√√ Q1√√⒍部分预先等值设计测验 X 的各部分测验 Y 的各部分样组X1X2X3Y1Y2Y3 P1√√√√ P2√√√√ P3√√√√7. 题目预先等值设计测验 X 的各个题目测验 Y 的各个题目样组X1X2…XnY1Y2…Yn P1√√√√P2√√√√ …Pn√√√√注:P1 是从总体 P 抽取的随机组,Q1 是从总体 Q 抽取的随机组 “√”表示收集数据,没有“√”的项目 表示不收集数据 ——————————————————————————————————2共同题设计 共同题等值设计(common-item equating design)包括锚测验随机组设计(anchor- test-random-group design)、锚测验非等组设计(anchor-test-nonequivalent-group design)、 部分预先等值设计(section pre-equating design)、题目预先等值设计(item pre-equating design)等几种不同的等值设计。
七、等值数据处理的主要方法七、等值数据处理的主要方法1基于基于经经典典测验测验理理论论的等的等值值模型模型1.平均数等值 平均数等值(equimean equating) 是最简单的等值转换模型,用于共同组设计的 情况这时,两个不同版本在较短时间内先后施测于同一组考生我们可以认为这 组考生的水平在两次考试之间没有变化,在两个测验中的真分数应该具有相同的平 均数当某一个版本的所得分数平均分较高时,可以认为这个版本较容易 2.线性等值 线性等值(linear equating)是平均数等值的扩展在平均数等值模型中,我们假 设两个不同版本具有相同的分数分布,即具有相同的标准差如果不作标准差相同 的假设,两个版本中等值分数可以表达为:(4)xxxyyy SOO SOO经过整理,有(5)yx xy x xy yOOSSOSSO在共同组设计中,根据式(5)可以计算出与新卷 X 的分数相应的标准试卷得分 在共同题设计中,计算较复杂。