《项目反映理论与自适应测验》由会员分享,可在线阅读,更多相关《项目反映理论与自适应测验(90页珍藏版)》请在金锄头文库上搜索。
1、第五章 测试与测试理论测试与测试理论测量的意义与分类教育测量一般概念及量表测量数据的记述与处理项目反应理论项目反应理论的应用一、测量的意义和分类狭量测试:针对具体的技能、知识、能力、适应性等特性的测试1、测量的分类器具测试与笔纸测试客观测试与非客观测试综合测试与分析测试标准测试与非标准测试集团基准测试与达到基准测试二、教育测量一般概念及量表测量:根据一定规则规则用数字对事物的特性加以描述和确定的过程。采用的方法采用的方法测量包含1)要明确被测量对象的属性或性质)要明确被测量对象的属性或性质2)确定能使这些属性显示出来并又可)确定能使这些属性显示出来并又可以被感知的一系列操作以被感知的一系列操作
2、3)制定一个程序使得结果可以量化)制定一个程序使得结果可以量化1、教育测量的一般概念参照点参照点计算的起点,有绝对零点和相对零点(人为定的参照点)。教育测量中的参照点为相对零点。单位单位测量的基础。理想单位的条件: 要有确定的意义;具有相等的价值要有确定的意义;具有相等的价值?教育测量:根据教育目标的要求,按一定规则用数字对教育效果教育效果加以描述和确定的过程。即,遵照教育学、心理学和测量学的理论和原则,通过各种测验来确定由于教育引起的学生知识、通过各种测验来确定由于教育引起的学生知识、能力变化的方向和数量能力变化的方向和数量。间接测量。通过测量学生对所学知识的掌握程度通过测量学生对所学知识的
3、掌握程度来了解其智力或学业水平的现状和发展情况来了解其智力或学业水平的现状和发展情况。测量的结果是相对的。学生学业成绩只有在某种学生学业成绩只有在某种标准的比较中才有意义标准的比较中才有意义。只有把它们和集体的平均水平比较,或者和教学计划规定的教学内容、教学目标比较,才能确定测验分数的含义。2、教育测量的量表量表测量工具。具有一定单位和参照点的具有一定单位和参照点的连续体连续体,为获得有用的数据而设计。根据精确度1)类别(称名)量表)类别(称名)量表2)等级(顺序)量表)等级(顺序)量表3)等距(间隔)量表)等距(间隔)量表4)等比(比率)量表)等比(比率)量表1)类别量表)类别量表对被测对象
4、进行分类,并赋予各类以不同的符号。类之间只具有类之间只具有“质质”的差别而不具有的差别而不具有“量量”的差的差别。别。功能标记标记分类分类适用的统计百分比百分比卡方检验卡方检验2)等级量表)等级量表数字或符号表示测量对象在某一属性上的顺序或等级关系。不表明各数字间的差距相等,不能进行四则运算。不表明各数字间的差距相等,不能进行四则运算。适用的统计中位数中位数百分位数百分位数3)等距量表)等距量表具有类别量表和等级量表的性质外,还具有连续连续数量之间的差距相等数量之间的差距相等。数值间不能进行乘除运算,但可以进行加减运算。数值间不能进行乘除运算,但可以进行加减运算。量表的数值加或减一个常数或用一
5、个常数乘除,量表的数值加或减一个常数或用一个常数乘除,不会破坏原有数据间的关系。不会破坏原有数据间的关系。适用的统计均数均数相关系数相关系数Ft检验检验教育测量教育测量4)等比量表)等比量表具有最高的水平量度,除了具有前三者性质外,还具有绝对零度,可进行四则运算。物理测量物理测量心理测量中,反应时间属于该类。心理测量中,反应时间属于该类。教学与时间数据进行分析即可采用等比量表。教学与时间数据进行分析即可采用等比量表。3、教育测量的误差测量误差:在测量过程中由与目的无关的因素产生的不准确的或不一致的结果。随机误差:系统误差:由与测量目的无关的偶然偶然因素引起的变化无规律无规律的误差由与测量目的无
6、关的因素引起的恒恒定的有规律定的有规律的误差随机误差:系统误差:多次测量结果不一致,大小和方向是随机的。既影响测量的准确性又影响一致性。稳定地存在于每一次测量中。只影响测量的准确性。测验试题形式选择不当、指导语不清晰、评分标准不一致等。系统误差:随机误差:测验设计人员有偏见。经典测量理论关于误差三个假设1)测验的观察分数)测验的观察分数X可看作真分可看作真分数数T和测验误差分数和测验误差分数E的线性组合;的线性组合;2)误差分数)误差分数E的数学期望为的数学期望为0;3)任何两次测量所产生的误差相)任何两次测量所产生的误差相互独立。互独立。误差的来源1)测验自身所引起的误差;)测验自身所引起的
7、误差;2)测验过程所引起的误差;)测验过程所引起的误差;3)被试本身所引起的误差。)被试本身所引起的误差。三、测量数据的记述和处理(一)测量数据的统计测度1、平均值、分散和标准偏差X (x1x2x3xN)N1N1i=1 N xi平均值平均值x方差(分散)方差(分散)S2x测量得分的分散程度S2xN1i=1 N (XiX)2变异数变异数标准偏差标准偏差SxSxS2x N1i=1 N (XiX)22、协方差和相关系数协方差协方差SxySxyN1i=1 N (XiX)(yiy)相关系数相关系数xy xySxySxSyN1i=1 N (XiX)(yiy)N1i=1 N (XiX)2 i=1 N (yi
8、y)2 N1(二)测量数据应具备的特性1、测量的误差模型xi测试值ti 真值ei 测量误差xitieiN足够多ei=1 N 0eiXN1i=1 N xiN1i=1 N (tiei)N1i=1 N tiN1i=1 N eitet若测量误差与得分真值间是完全独立的,则:SteN1i=1 N (tit)(eie)0S2xN1i=1 N (XiX)2N1i=1 N (ti+ei)(ti+e)2S2t+S2e+2SteS2t+S2e2、测量的信度信度:当一个测验多次测量的结果一致或稳定时,它就被认为是可靠的。而估计测量一致性或稳定性程度的指标,称为信度。rXXS2T/ S2X即指:测验中,被试的实得分数
9、与真实分数差距越小,测验的分数就越可靠,信度就越高;反之,信度就越低。估计信度的方法:1)再测信度)再测信度2)复本信度)复本信度3)分半信度)分半信度4)内部一致性信度)内部一致性信度5)评分者信度)评分者信度1)再测信度)再测信度rXXS1S2N1X1X2X1X2用同一个测验,对同一组被试前后两次施测,两次测验分数之间的相关程度就是再测信度。测验跨时间的一致性稳定性系数。例1假设有20个学生在1月1日接受了一个测验,到2月1日,又再一次接受同一测验,把1月1日的首测与2月1日的再测的分数分别记为X1X2,测验结果为:学生1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
10、 16 17 18 19 20X115 14 13 12 12 11 11 10 10 10 10 10 9 9 9 8 8 7 6 5X215 14 16 15 13 12 11 13 13 12 10 11 11 11 10 9 10 7 8 8计算得:X1X2S2S19.9511.452.462.422385X1X2rXX(2.462.42)(2385/209.9511.45)0.9再测信度满足条件所测量的特性必须是稳定的;所测量的特性必须是稳定的;遗忘与练习的效果相同;遗忘与练习的效果相同;两次施测期间被试的学习效果没有两次施测期间被试的学习效果没有差别。差别。优点:提供测验结果是否随
11、时间而变化的资料,可作为预测被试将来行为的依据;缺点:易受练习和记忆的影响。适用于速度测验,不适用于难度测验适用于速度测验,不适用于难度测验2)复本信度)复本信度平行测试法平行测试法根据一组被试在两个等值测验上的得分计算的相关系数即为复本信度系数。反映的是两个测验之间的等值程度等值系数,公式与稳定性系数公式相同,即再测信度公式。优点:一定程度上避免了受练习和记忆的影响缺点:很难编制两份等值的试卷3)分半信度)分半信度折半法折半法按正常的程序实施测验,然后将全部试题分成相等的两半,被试组在这两半测验上的分数之间的相关系数即为信度系数。如何如何分半分半?优点优点:分半法估计信度比再测法和副本法简便
12、,减少了学生的疲劳、厌烦等因素;局限局限:分半信度系数只能表示两半试题的等值程度,不能提供时间稳定性的信息。不采用前后分半,采用奇偶分半法,即将题目的奇数号分为一组,偶数号分为一组;求出所有被试在奇数和偶数题上总分的相关系数;求得的信度为半个测验信度,整个测验的信度需要进行矫正。rXX2rAB/(1rAB) 求得当两半测验等值时,两半测验分数具有相同的平均数和标准差,可用斯皮尔曼布朗公式校正: 当两半测验具不同的均值和方差时,可用卢伦公式校正:rXX1Sd2/ Sx2Sd2两半测验分数两半测验分数之差的方差之差的方差Sx2整个测验总分整个测验总分的方差的方差4)内部一致性信度)内部一致性信度也
13、称同质性,指测验内部所有题目间的一致性。如果在一个测验中各道试题得分有较大的正相如果在一个测验中各道试题得分有较大的正相关时,我们说这个测验是同质的,也就是说,关时,我们说这个测验是同质的,也就是说,在该测验项目中所有的项目都测量相同的特质在该测验项目中所有的项目都测量相同的特质或程度略同的特质。或程度略同的特质。估计测验内部一致性的常用方法: 库德理查逊公式rKR20kk1(1 )Sx2p pi iq qi irKR21kSx2X(kX)(k1) Sx2k测验题目数测验题目数 pi通过第通过第i题的人数比例题的人数比例qi为未通过第为未通过第i题的人数比例题的人数比例 Sx2测验总分数的方差
14、测验总分数的方差X测验总分数的平均数测验总分数的平均数例2假设在一次有100人参加的客观性试题的测验中,题量为20道,学生考试分数的标准差为4分,各试题的答对人数如表所示:试题号试题号1 2 3 4 5 6 7 8 9 10答对人数答对人数60 70 50 45 80 90 40 30 25 47 试题号试题号11 12 13 14 15 16 17 18 19 20答对人数答对人数82 74 20 10 24 25 19 15 12 10p pi iq qi i3.523.52Sx216k20rKR2020201(1 )163.523.520.82例3假定某次考试共有105道题,学生平均分数
15、为75分,标准差为19分,则利用kR21公式可计算得这次考试的信度是:rKR21kSx2X(kX)(k1) Sx210519275(10575)(1051) 1920.95库德理查逊法只适于客观性客观性测验,不适用于主观性测验;只适用于题目得分不为题目得分不为1则为则为0的的测验测验,不适用于其他判分方式的测验。克伦巴赫系数可用于多重评分测验kkkk1(1 )Sx2Si2k测验的题目数Si2第I道题目分数的方差Sx2测验总分的方差与库德理查逊法不适用于速度测验5)评分者信度)评分者信度考察评分者信度的方法是随机抽取部分试卷,由两个或多个评分者按评分标准打分,然后求其间的相关。一般认为,当经过训
16、练的成对评分者之间的相关系数达到0.9以上时,才能认为评分客观。评分者之间的一致性越好,其信度也越高。1)5)估计信度的方法,只适用于常模参照测验,而不适用于标准参照测验;信度系数是衡量测验好坏的一个重要指标。最理想的情况是信度为;一般能力与学绩测验的信度系数常在0.90以上,性格、兴趣、态度等人格测验的信度系数通常在0.800.85之间。6)信度系数与个人测验真分数的估计)信度系数与个人测验真分数的估计常通过估计测量标准误标准误的方法对个人真正能力作置信区间的估计。测量标准误的大小影响实得分数对真分数估计的精确度,其数值与信度有关,两者之间的关系:SESX(1rxx)1/2SE测量的标准误S
17、X 所得分数的标准差rxx测验的信度个人在测验中所得分数X有95的可能性落在真分数T加减1.96个标准误的范围内,即:(X1.96SE) T (X1.96SE)7)影响信度的因素)影响信度的因素被试、主试、测验内容和施测环境等均能引起随机误差,导致分数不一致,从而降低测验的信度。测验的题目数越多,则其信度越高测验的题目数越多,则其信度越高。题目越多,试题的取样越适当;题目越多,测验分数受猜测因素的影响越小。团体的异质程度与测验信度有关,分数分布的范围越大,信度越高;(S2XS2E)/ S2X1S2E/ S2XrXXS2T/ S2X信度系数与样本团体的异质性有关。对不同的团体需要重新确定测量的信
18、度;测验难度水平使测验分数分布范围最大时,测验的信度才会最高。3、测量的效度指测量的有效性,即一个测验对它所要测量的特一个测验对它所要测量的特性准确测量的程度性准确测量的程度。一个测验,如果能正确地测量出所要测的东西,那么它就是高效度的测验。效度:与测量目的有关的分数的方差与实得分数的方差之比S S2 2V V/S/S2 2X X测验的效度除受随机误差影响外,还受系统误差的影响;可信的测验未必有效,而有效的测验未必可信;测验本身、测验的实施和被试等对测验的信度有影响的因素对效度也有影响。根据考察一个测验有效程度的途径,把测验的效度分为:1 1)内容效度)内容效度2 2)构想效度)构想效度构成概
19、念效度构成概念效度3 3)校标关联效度)校标关联效度基准关联效度基准关联效度1 1)内容效度)内容效度指题目对欲测的内容或行为范围取样的适当程度取样的适当程度。通俗地说,它就是一个测验的覆盖问题,用于测通俗地说,它就是一个测验的覆盖问题,用于测量某一范围知识和能力的一个测验,它所采用的量某一范围知识和能力的一个测验,它所采用的那些题目是否充分代表了该范围内的基本知识和那些题目是否充分代表了该范围内的基本知识和基本能力。基本能力。具备较好的内容效度必须满足的两个条件:要有确定好的内容范围,并使测验的全部题目均落在此范围内;测验题目应是已界定的内容范围的代表性样本,即选出的题目应能包含所测的内容范
20、围的主要方面,并且使各部分题目所占比例适当。确定内容效度的方法:专家判断法(定性)由专家对测验题目与所涉及的内容范围进行符合性判断;再测法在教学之前先将测验施测于被试。然后对被试进行教学训练,结束时再测一次。内容效度适合于内容效度适合于评价教育成就评价教育成就测验和测验和职业选拔职业选拔测验测验局限:缺乏可靠的数量指标,妨碍了测验间的比较2 2)构想效度)构想效度构成概念效度构成概念效度指测验对理论上的构想或特质的测量程度。或者说测验所提供的数据同理论假设的符合程度。确定构想效度的步骤:首先,首先,从某一理论出发,提出关于某一心理从某一理论出发,提出关于某一心理特质的假设;特质的假设;然后,然
21、后,设计和编制测验并进行施测;设计和编制测验并进行施测;最后,最后,对测验的结果采用相关或因子分析等对测验的结果采用相关或因子分析等方法进行分析,验证与理论假设相符的程度。方法进行分析,验证与理论假设相符的程度。3 3)校标关联效度)校标关联效度基准关联效度基准关联效度对于效标的理解:对于效标的理解:衡量测验有效性的一个重要方法是看根据测验所作出的预测是否能被证实,如果一个测验的预测与将来实际发生的事情非常接近,那么它就是一个好测验。因此,被预测的行为是衡量测验是否有效的标准,简称效标。效标关联效度就是考察测验分数与效标的关系,分效标关联效度就是考察测验分数与效标的关系,分析测验对我们所感兴趣
22、的行为的预测程度。析测验对我们所感兴趣的行为的预测程度。效标关联效度可以通过统计分析而得出一个数量指标,该指标是一个测验与作为准则的另一个测验、该指标是一个测验与作为准则的另一个测验、评定或工作成绩等之间的相关系数评定或工作成绩等之间的相关系数。以此来表示被衡量的测验变量与作为准则的另一变量之间的相关强弱,从而反映出前者的有效性程度。例4计算大学入学考试的效标关联效度。表中列出的仅是一组人为压缩了容量的样本数据,实际计算效标关联效度时,样本容量还应大大增加。学生编号学生编号1 2 3 4 5 6 7 8大学入学某科成绩大学入学某科成绩77 59 90 98 66 85 69 84入学后相关科目
23、成绩入学后相关科目成绩68 66 81 99 75 91 75 80学生编号学生编号9 10 11 12 13 14 15 16大学入学某科成绩大学入学某科成绩72 76 88 75 95 84 79 65入学后相关科目成绩入学后相关科目成绩80 69 72 63 91 84 92 734、测验项目(题目)分析1 1)题目的难度)题目的难度 题目的难度是衡量题目难易水平的指标,通常以题目的答对比率来表示。难度的计算难度的计算二分法计分的题目二分法计分的题目P(R/N)100非二分法计分的题目非二分法计分的题目P(X/Xmax)100答对或通过该题目的人数被试在某题目上的平均分题目题目难度水平的
24、确定难度水平的确定 题目的难度是否合适取决于测验的目的、性质以及题目的形式。若测验是为了了解被试在某方面知识技能的情况,则不必考虑难度;若测验是为了测量个体之间的差别,则以选择接近中等难度的题目为好;若测验用于选拔录用人员时,就应该比较多地采用那些难度值接近录取率的题目。测验难度对分数分布的影响测验难度对分数分布的影响若被试的取样具有代表性,对于中等难度的测验,其分数分布应呈正态分布。题目难度普遍较大,被试的得分普遍较低,使得低分端出现高峰,呈正偏态;题目难度普遍较小,被试的得分普遍较高,使得高分端出现高峰,呈负偏态。当测验的分数分布明显偏态时,可以通过改变不同难度题目的比例来进行调整。2 2
25、)题目的区分度)题目的区分度 指题目对不同水平的被试的心理特质的区分能力。若在某道试题上得高分的被试实际能力水平也高;得低分的被试实际能力水平也低,则该题就具有较高的区分度。区分度的取值范围都介于区分度的取值范围都介于1至至1之间,绝对值越大,区之间,绝对值越大,区分的效果越好。分的效果越好。鉴别指数法鉴别指数法比较测验总分高和总分低的两组被试在题目通过率上的差别。计算公式如下:DPHPLD:鉴别指数PH:高分组被试在该题上的通过率PL:低分组被试在该题上的通过率D值越大,题目的区分度越高,题目越有效题目鉴别指数与评价标准题目鉴别指数与评价标准鉴别指数D题目评价0.4以上0.30.390.20
26、.290.19以下很好良好,修改会更佳尚可,仍需修改差,必须淘汰方差法方差法题目分数的离散程度越大,该题的区分度也越大。S2xN1i=1 N (XiX)2缺点:当题目满分不同时,题目之间不能比较。变异系数CV作为区分度的指标: CVCVS/XS/X相关法相关法以题目分数与效标分数或测验总分的相关程度作为题目区分度的指标。相关程度越高,题目区分度越高。相关相关适用于题目分数与测验总分数都是二级评分的场合。如,题目得分为“通过”、“未通过”,测验总成绩为“合格”、“不合格”。对于任意两个二分称名变量的数据资料,之间的相关系数可用如下公式计算:abcdr (adbc)/(ab)(cd)(ac)(bd
27、)(ab)(ac)(cd)(bd) 1 0 10 变量j变量k1/2例545名学生参加高考,录取情况与在某题上的通过情况如图所示,若以录取情况作效标,那么此题对学生是否有区分能力?137520合计 18 2720 25考取 未考取 合计未通过通过题题目目反反应应升学情况升学情况r (adbc)/(ab)(cd)(ac)(bd) (132075)/(20251827)1/21/20.456(三)测试数据的变换测试数据的变换多用于以相对评价为主要目的的集团基准测试(NRT)。1、百分排位、百分排位2、标准得分、标准得分3、正则化得分、正则化得分4、多级评定值、多级评定值1、百分排位 指被测试集团人
28、数为100名,从低位开始,相当于指定的某一位的成绩是多少,或者说,从低位开始,相当于百分之多少位的成绩是多少的一种排位方法。只能用于同一次测试中不同学生的得分进行比较和只能用于同一次测试中不同学生的得分进行比较和评价评价某一被测试者的得分为x,在x分以下的被测试者的人数为参加测试总人数的P,此时,称该被测试者的得分为P百分排位,或简称P百分位。百分排位的计算百分排位的计算从低位开始,对每一个得分(或每一得分级别)求从低位开始,对每一个得分(或每一得分级别)求累积频度,基于累积频度的百分位为:累积频度,基于累积频度的百分位为:百分排位百分排位 100 被测试人数被测试人数累积频度累积频度例6设给
29、定的成绩为80,从低位开始,出现低于80分以下的频度为45,被测试人数为60,80分的成绩对应的百分位为:10075 60452、线性变换与标准得分yiaxibXi原始得分yi变换得分其中:1 1)线性变换)线性变换将多个测试多个测试得分变换为具有相同的平均值、标准偏差的标准分,便于对多个不同的测试进行比较多个不同的测试进行比较易知:S2ya2S2xyaxb设a bSxSxx1则:yiaxibzi xiSx1SxxSxxix可得:xSxxzSx0S2z( )2x1Sx1z z变换中,变换中,z z得分的平均值为得分的平均值为0 0,标准偏差为,标准偏差为1 1若对z进行如下变换:yiAziBS
30、xxixAB则得:S2yA2S2zA2yAzBBSy=AA0可以将原始得分变换为具有指定的平均值为可以将原始得分变换为具有指定的平均值为B B、标标准偏差为准偏差为A A的得分。的得分。3、正态(则)分布与正态(则)化得分 某一测试的得分满足正态分布,或近似于正态分布。经线性变换后的得分仍满足正态分布或近似于正态分布。正态分布的密度函数:正态分布的性质1)正态曲线位于x轴的上方,以直线x为对称轴,为正态分布的均值,它向左向右对称地无限延伸,且以x轴为渐近线。但始终不与x轴相交;2)当x时曲线处于最高点,即当x时,f()1/2 为最大值;x两点是拐点,当正态曲线由中央向两侧逐渐下降时,到拐点改变
31、了弯曲方向,整条曲线呈现“中间高,两边低”的形状;标准正态分布均值为0,标准差为1时的正态分布,记作N(0,1),曲线如图B。位置和形状都是确定的,z0达到最大值,f(0)0.3989;曲线Z1两点是拐点,f(1)0.2419任何一般的正态分布都可以化为标准正态分布。若xN( ,2),令Z(x)/则ZN(0,1),可以将各式各样形态的正态曲线转换成标准正态曲线。转换后正态分布的各项性质都保持不变。3)正态曲线与x轴所围成区域的面积为1。曲线关于x对称,所以x将曲线分成面积均为0.5的两部分。服从正态分布的随机变量x在x1到x2间变化的概率就是xx1,xx2两周之间曲线下的面积,即概率P为阴影部
32、分的面积;4)正态分布xN(,2)是由均值和标准差唯一决定的分布。均值决定曲线的位置、标准差决定曲线的形状。正态分布的使用:1)Z表示曲线底线即横轴上的位置;2)纵高Y,即曲线的高度;3)P为两个x间阴影部分面积例7:设X服从正态分布XN(,2 ),求以下的概率(1 1)PPXX (2 2)PP3 3XX 3 3 Z10.3413Z30.4987例8:在某年高考的平均分数为500,标准差为100的正态总体中,某考生得到650.设当年高考录取率为10,问该生的成绩能否入围?( Z1.5时,P0.933 )例9:已知某班期末考试中语文的平均分为80,标准差为10;数学的平均为70,标准差为15;英语的平均分为85,标准差为12.甲生的语文成绩为85分,数学成绩为82分,英语成绩为90分,问该生这三科成绩哪一科最好?4、多级评定值 直接利用测试得分的平均值和标准偏差,将测试得分变换为具有指定的多个级别的评定值。将这种经过变换后的变换值为多级评定值。多级评定值变换的方法:1)求测试得分x的平均值和标准偏差;2)以平均值为中心,将其上、下延伸Sx/2,并另x Sx/2和x Sx/2范围内的得分为评定值3;3)以评定值3的上、下为准,分别延伸Sx,在此范围的得分分别确定为评定值4和评定值2;4)将高于评定值4的得分,确定为评定值5,低于评定值2的得分确定为评定值1。以5级评定值为例