IRT分析程序ANOTE与MULTILOGPARSCALE参数估计性能比较

资源描述

《IRT分析程序ANOTE与MULTILOGPARSCALE参数估计性能比较》由会员分享，可在线阅读，更多相关《IRT分析程序ANOTE与MULTILOGPARSCALE参数估计性能比较（9页珍藏版）》请在金锄头文库上搜索。

1、IRT 分析程序分析程序 ANOTE 与与 MULTILOG、PARSCALE 参数估计性能比较参数估计性能比较漆书青1 戴海琦2 丁树良3 罗照盛4 董圣鸿5周骏6(1.漆书青，教授；2.戴海琦，硕士，教授；3.丁树良，硕士，教授；4.罗照盛，博士，副教授；5.董圣鸿，硕士，讲师；6.周骏，硕士，讲师；江西师范大学教育与心理统计测量研究开发中心，江西南昌 330027)摘要：考察了自主开发的“现代教育与心理测量通用分析程序(ANOTE)”的 IRT 参数估计质量，与 MULTILOG 和 PARSCALE 进行了比较，大量 Monte Carlo 模拟研究表明：对难度等级为 9 以下时，三程

2、序估计精度相近；难度级别 10-14 时，MULTILOG 不能处理，ANOTE 与 PARSCALE 估计精度各有千秋；难度级别在 15 以上时，只有 ANOTE 才能处理当遇到同一试题两相邻难度级别很接近时，MULTlLOG 估出值顺序可能逆转。关键词：参数估计；程序；RMSD；ABSE一、问题的提出国际测量学界有按项目反应理论(IRT)处理多级计分资料的分析程序，最著名和最流行的是 MULTILOG 和 PARSCALE。它们既能处理社会心理测量与心理卫生评估中的 5 点、7 点乃至更多级别的测评量表资料，又能处理成就测验中的多等级计分题资料（参见两程序使用手册）。但 MULTILOG

3、的最高等级数为 10(即 9 个难度级别)，PARSCALE 的最高等级数为 15（即 14 个难度级别）。在我国，心理测量中等级计分资料一般多在 9 点以下，而成就测验中，却历来有坚持综合运用选择题与多等级计分题的良好传统。一般，选择题占分比重只是 40左右，主要部分是多级计分题（即西方所称“主观题” ）；而且，不少题型(如作文、分析论述、综合证明等)的满分值常在 15 乃至 20 或 30 分以上。因此，MULTILOG 和 PARSCALE 在我国教育测量中的使用范围就受到很大局限。为满足我国教育与心理测量工作实际发展的需要，我们自主开发编制了“现代教育与心理测量通用分析程序（AN

4、OTE） ” 。它能处理级别数超过 30 的等级计分题资料。这对在我国推广 IRT 的研究与应用，当然是会有所帮助的。程序 ANOTE 包括参数估计、模型-资料拟合检验、等值、信息函数计算等模块。它采用 Samejima 双参数模型(GRM)，并把 0-1 计分题当做等级计分题的特例来处理。项目参数估计采用 MMLEEM 方法，而对能力参数采用 Bayes 后验期望估计(EAPE)。其具体做法是应用项目参数估计中最后一轮 EM 循环中得到的的后验分布 h(| ua, )的值 h(yk | ua, )，这里 y1yq为积分结点，求能力参数的 Bayes 后验期望估计。(2)、(3)中 h(yk

5、 | ua, )为的后验分布的估计，yk为数值积分的求积结点，A(yk)为相应的 g权，而式(4)中是 GRM 中运算特征曲线，其中项目参数均由 EM 算法估出，而能力参kjtp数由积分结点 yk代替。程序 ANOTE 中参数估计模块是整个分析系统的基础而关键性的部分，其行为表现或者说估计性能如何，理应高度关注，严格检验。假使其估出参数值正确性不高甚至完全失效，以后的等值方程求取与信息函数计算就会丧失应用的价值与意义。所以我们特地采用Monte Carlo 方法，设置修复能力指标来考察程序 ANOTE 参数估计的正确有效性，并跟国际通行程序 MULTlLOG 和 PARSCALE 作了比较，

6、相当系统而认真地进行了本研究。二、方法与设计按 Monte Carlo 法检验计算机程序估计参数准确有效性应执行如下步骤：1指定真参数值，本研究中一方面指定项目参数(即构建模拟试卷)，另一方面又指定被试参数(即设置被试群体)。由于采用 Samejime 双参数模型，能力参数 -N(0，1)，难度参数 b-N(0，1)，区分度参数 a 的对数 lnaN(0，1)，N(0，1)表示标准正态分布。2模拟生成得分反应矩阵 x；一般同一批真项目参数条件下模拟多批被试，从而模拟出多个得分矩阵(如 30 个)。3使用拟考察与检验的参数估计程序，本研究中即使用 ANOTE，MUL-TILOG，PARSCALE

7、三个程序1，根据反应矩阵 x 估出项目与被试参数。4求取参数估计值与真参数值的差，设计修复能力的检验统计指标，分析与比较这些指标值，以验证有关参数估计程序的估计性能。我们设计的修复能力检验统计指标有三：一个是 RMSD，一个是 ABSE，另一个是MEANE。例如，对于项目区分度参数 a，式中，表示由第 t 批被试的得分阵 x 估计的第 j 个项目的区分度，1为表达方便，我们用 An 表示 ANOTE 程序，Mu 表示 MULllLOG 程序，用 P表示 PARSCALE 程序，下同。)(tjaj=1，2，m，t=1，2，r而 aj表示第 j 个项目的区分度的真值。而 MEANE(a)= (

8、7) 设置三个度量指标的意义是：RMSD(a)是一个常用的表示参数估计程序对真值的修复能力的指标，其好处是在一定的条件下，可以讨论 RMSD 的分布或渐近分布；MEANE(a)则可用其大小和符号来考察参数估计程序是否有系统的高估或低估的现象发生；而 ABSE 这个指标虽无上述优越性，但其绝对值平均对越轨值(outler)有稳健性(robust)，可说明估出值对真参数值的绝对平均偏差，若大，即修复程度差。相仿，我们可以定义 RMSD(b)，ABSEE(b)，MEANE(b)以及 RMSD()，ABSE()昶 MEANE E()。当然从数学上来看，必有MEANE(a)ABSE(o)而根据 Cauc

9、hy-Schwarz 不等式，必有ABSE(a)RMSD(a)。对参数 b、也有相类似的结论成立，即有：MEANE()ABSE()RMSD()由于 MULTILOG 和 PARSCALE 这两个程序的 DOS 版本和 Windows 版本在估计精度上没有实质性变化，故我们有时也使用 DOS 版本作考察。实际考察的 Windows 版为MULTILOG7.03，PARSCALE4.1，DOS 版为 MULTI.LOG6.0，PARSCALE3.1。为考察在试题有不同计分等级个数、估计收敛为不同精度的条件下各参数估计程序的行为表现，我们设计了 l-0 计分题，九级难度及以下、l4 级难度及以下、

10、l4 级难度以上的计分题，以及收敛精度为 0.01 和 0.001 等几种情况，被试数则均取为 l000。特别是当某个项目相邻两等级的难度值十分接近时，实测与模拟资料都会出现两等级中有一个(较难的那个)的得分人数很少甚至为零的情况。这在我国的作文、分析论述与综合证明题中是颇为常见的。为考察此种条件下各参数估计程序的性能，我们在一些多等级计分题中，在指定真参数值时，有意设置了一些两相邻等级的真难度差值为 0.01 或更小，名之曰设置了“陷阱”。三、检验与比较：按上述设计进行试验，所得结果列于表 l 一表 6。若将表 i(i=1，2，3，6)中对应的评价指标，比如 RMSD，记为RMSD(i，a，

11、An)它表示第 i 张表中用 ANOTE，估计 a 参数的 RMSD 值，相仿可以解释MEANE(i，b，Pa)等。(一)设计一rmaartmjjtj/ )(11)( 本设计构建全是多级计分项目组成的模拟试卷。由 l6 个项目组成，其中 3 分题 4 个、5 分题 2 个、7 分题 4 个、8 分题 4 个、9 分题 2 个，共 100 分。项目最高等级数为 lo(即满分为 9 分)，无陷阱题。参数估计收敛精度为 0.01，被试 1000 人。这种设计，三种程序均能处理。由表 l 可知：1三个程序都有低估参数 a 的倾向，且ABSE(1，a，Pa)ABSE(15，a，An)ABSE(1，a，M

12、u)2ANOTE 对参数 b 有轻微的高估倾向，而 MULTILOG 和 PARSCALE 则有时高估有时低估。3若将 RMSD(a)与 RMSD(b)看成同等重要，则表 1 指出，ANOTE 和 MULTILOG 对项目参数的修复程序比 PARSCALE 好；而对能力参数的修复程度，则 ANOTE 和PARSCALE 比 MULTILOG 好。4项目的等级数对指标 RMSD、ABSE、MEANE 均有影响，表 l 表明，不论哪一个程序，似乎对 5 等级评分项目的难度 b 的修复程度都较好，这对试卷编制可能有意义。(二)设计二本设计构建既有 0-1 记分又有多级计分的模拟试卷。其中 0-1 记

13、分题 40 个，多级计分题 11 个(4 分题 3 个，5 分题 6 个，9 分题 2 个)，满分 100。项目最高等级数为 l0，无陷阱题，参数估计收敛精度为 0.01，被试 1000 人。表 2 表示：RMSD(2，a，Mu)0.5。(四)设计四本设计构建全是多级记分项目组成的模拟试卷。由 l5 个项目组成，其中 3 分题 2 个、5 分题 3 个、7 分题 3 个、8 分题 l 个、9 分题 2 个、l2 分题 2 个和 14 分题 2 个，满分为120 分。但项目最高等级数为 15，无陷阱题，参数估计收敛精度为 0.01，被试 1000 人。由于 MULTILOG 使用手册明确指出它能

14、处理的最高等级数为 10，故本设计只考察PARSCALE 与 ANOTE 两程序。由表 4 可知，对于全是多等级项目，ANOTE 对 a 参数修复能力明显优于PARSCALE；但对难度参数 b 和能力参数，则 PARSCALE 的修复能力比 ANOTE 稍好一些。(五)设计五本设计构建既有 0-1 记分又有多级计分的模拟试卷。共 54 题，0-1 记分题 40 个，多级计分题 14 个(4 分题 3 个，5 分题 6 个，9 分题 2 个，l4、16、20 分题各 1 个)，满分为l50。项目最高等级数为 21(即满分为 20)，无陷阱题，参数估计收敛精度 0.01，被试 1000人。由于 P

15、ARSCALE 使用手册明确指出它所处理的最高等级数为 l5 分，因此对于后两题(即 l6、20 分题)PARSCALE 程序无法估计其参数。从表 5 可知，PARSCALE 不能处理 l4 分以上题目，而 ANOTE 可以处理，然而对于l6 分题的计算结果远好于对 20 分题的计算结果。从可比较的前 40 题(0-1 评分题)及相应的l4 分题来看，ANOTE 与 PARSCALE 各有千秋。(六)设计六本设计构建 0-1 记分与多级计分并有的模拟试卷，并特意设置 4 个陷阱题。本模拟试卷共 51 个项目，0-1 记分 40 个，多数计分 11 个(4 分题 3 个、5 分题 6 个、9 分

16、题 2 个)，满分100。设置的 4 个陷阱题中，4 分题 1 个，5 分题 2 个，9 分题 l 个。参数估计收敛精度为0.01，被试 1000 人。项目最高等级数为 l0。由表 6 可知，若试卷中含有多等级评分项目，且被试在某些等级上分布不正常时(即由于某项目中两相邻等级难度差值大小时，就会出现该项目某等级得分人数比例太低甚至为0)，ANOTE 和 PARSCALE 均可处理这类情况，而 MULTILOG 此时表现欠佳，会出现项目难度估计产生异常的现象：或者是使得 RMSD(b)相当大(1)，或者说对相应项目难度估计很不合理，会使得难度不能随等级数上升而上升，即会出现“倒序”现象。MULTILOG与ANOTE 在其中两个“陷阱”题上估出值的对比情况见表 7。四、讨论与总结1在难度级别为 10 及以下时，表 l 至表 3 说明，三个程序修复指数的排序虽略有

展开阅读全文