心理测量学：第二章测量信度与随机误差控制

资源描述

《心理测量学：第二章测量信度与随机误差控制》由会员分享，可在线阅读，更多相关《心理测量学：第二章测量信度与随机误差控制（60页珍藏版）》请在金锄头文库上搜索。

1、第二章第二章测量信度与随机误差控制测量信度与随机误差控制学习目标：学习目标：1.什么是信度什么是信度?信度与测量随机误差的关系？信度与测量随机误差的关系？2.信度的统计定义？信度的统计定义？3.描述信度的指标有哪些？描述信度的指标有哪些？4.分析测验信度应注意哪些问题？分析测验信度应注意哪些问题？5.信度的标准与作用？信度的标准与作用？6.经典测量理论信度系数的估计方法。经典测量理论信度系数的估计方法。7.提高测量信度的主要方法有哪些？提高测量信度的主要方法有哪些？第一节第一节信度概述信度概述一、信度与测量误差一、信度与测量误差1.经典测量理论的假设经典测量理论的假设上上式中，式中，X

2、为观察分数，为观察分数，T为一般真分数，为一般真分数，E为随机为随机误差分数，误差分数，V为目标真分数，为目标真分数，I为非目标真分数（系统为非目标真分数（系统误差）。误差）。第一节第一节信度的概述信度的概述一、信度与测量误差一、信度与测量误差2.信度的定义信度的定义测量追求的初步目标：测量追求的初步目标：T占占X的比例越大越好。的比例越大越好。测量追求的终极目标：测量追求的终极目标：V占占X的比例越大越好。的比例越大越好。第一节第一节信度的概述信度的概述当当T占占X的比例很大时，那么测值就会是稳定的。一的比例很大时，那么测值就会是稳定的。一般来说，稳定的测值是可靠的、可信的，因此，信

3、度般来说，稳定的测值是可靠的、可信的，因此，信度可被认为是测量结果的可被认为是测量结果的稳定性程度稳定性程度。一、信度与测量误差一、信度与测量误差2.信度的定义信度的定义第一节第一节信度的概述信度的概述信度（信度（reliability）是指在不同时间，使用同一测验，）是指在不同时间，使用同一测验，或者使用两个不同项目的等值测验，抑或在其他不同或者使用两个不同项目的等值测验，抑或在其他不同的测试条件下，对同一组被试实施两次或多次测试所的测试条件下，对同一组被试实施两次或多次测试所得分数的一致性。得分数的一致性。测验信度表示测验分数中个体差异可归因于所测特质测验信度表示测验分数中个体差异可归因

4、于所测特质中中“真实真实”差异的程度，以及可归因于随机误差的程差异的程度，以及可归因于随机误差的程度。度。二、信度的统计定义二、信度的统计定义1.经典测量理论假设的推论经典测量理论假设的推论第一节第一节信度的概述信度的概述2.信度的统计定义信度的统计定义定义定义1：信度是被试团体真分数方差与实得分数方差之比：信度是被试团体真分数方差与实得分数方差之比定义定义2：信度是被试团体真分数与实得分数相关系数的平方：信度是被试团体真分数与实得分数相关系数的平方定义定义3：信度是一个测验：信度是一个测验X（A卷）与它的任意一个平行测验卷）与它的任意一个平行测验（B卷）的相关系数卷）的相关系数第一节第一节

5、信度的概述信度的概述三、描述信度的指标三、描述信度的指标1.经典测量理论的信度系数经典测量理论的信度系数信度系数是表示测量结果的稳定性程度的指标。信度系数是表示测量结果的稳定性程度的指标。记为：记为：第一节第一节信度的概述信度的概述信度系数的值域：信度系数的值域：0,1没有百分之百可靠的测量，因此，没有百分之百可靠的测量，因此，rXX=1只是理论只是理论上的值，实际当中是不存在的。上的值，实际当中是不存在的。？相关系数的值域是相关系数的值域是-1,+1 ，信度系数的值域：，信度系数的值域：0,1，为什么？，为什么？1.经典测量理论的信度系数经典测量理论的信度系数（1）重测信度重测信度（te

6、st-retest coefficients），是指用同一个量表），是指用同一个量表对同一组被试施测两次所得结果的一致性程度，其大小等于对同一组被试施测两次所得结果的一致性程度，其大小等于同一组被试在两次测验上所得分数的相关系数。同一组被试在两次测验上所得分数的相关系数。（2）复本信度复本信度（alternative-form coefficients），是指两个），是指两个平行的测验测量同一批被试所得结果的一致性程度，其大小平行的测验测量同一批被试所得结果的一致性程度，其大小等于同一批被试在两个复本测验上所得分数的相关系数。等于同一批被试在两个复本测验上所得分数的相关系数。（3）内部一致性系

7、数内部一致性系数（internal consistency coefficients）也）也叫叫同质性信度同质性信度（homogeneity reliability），是指测验内部所有），是指测验内部所有题目间的一致性程度，主要的计算方法有题目间的一致性程度，主要的计算方法有KR20公式、公式、KR21公公式、克龙巴赫式、克龙巴赫系数，以及荷伊特信度等系数，以及荷伊特信度等。第一节第一节信度的概述信度的概述2.经典测量理论的测量标准误经典测量理论的测量标准误测量标准误差测量标准误差（standard error of measurement）是测量误差的假设分布的标准差。用）是测量误差的

8、假设分布的标准差。用下列公式能够容易地计算测量标准误差：下列公式能够容易地计算测量标准误差：第一节第一节信度的概述信度的概述式中，式中，SDt表示测验分数的标准差，表示测验分数的标准差，rXX表示信度系数。表示信度系数。3.概化理论概化理论的概化系数的概化系数（generaliabilitycoefficients）4.IRT的测验信息函数的测验信息函数（test information function）四、分析测验信度应注意的问题四、分析测验信度应注意的问题1.针对测验类型选用恰当指标针对测验类型选用恰当指标（1）传统的信度概念适合于）传统的信度概念适合于常模参照测验常模参照测验，这种，

9、这种测验的主要目的是为了区分个体在特定特征上所表测验的主要目的是为了区分个体在特定特征上所表现出的差异性。个体在测验分数中表现出的差异范现出的差异性。个体在测验分数中表现出的差异范围越大，该测验的信度也就越高。围越大，该测验的信度也就越高。第一节第一节信度的概述信度的概述（2）标准参照测验（内容参照或领域参照测验）标准参照测验（内容参照或领域参照测验）的目标是要的目标是要确定被试是否达到或未达到某个标准，从而将个体分到不同的确定被试是否达到或未达到某个标准，从而将个体分到不同的组别：组别：“达标达标”和和“未达标未达标”。这种情况下，传统的重测信度、复。这种情况下，传统的重测信度、复本信度以

10、及内部一致性系数就不再适用。标准参照测验可根据本信度以及内部一致性系数就不再适用。标准参照测验可根据具体情况分别采用如下指标：具体情况分别采用如下指标：适用于简单的掌握与否的两分决策，即所有的分类误差适用于简单的掌握与否的两分决策，即所有的分类误差都被认为同样严重而不管它们离开临界分数的距离。在都被认为同样严重而不管它们离开临界分数的距离。在这种情况下，可以使用平行型式进行再测，以便得出在这种情况下，可以使用平行型式进行再测，以便得出在两次测验上得到相同决策的个体的百分比，进一步可算两次测验上得到相同决策的个体的百分比，进一步可算得得分类一致性系数分类一致性系数（coefficient of

11、agreement）。）。第一节第一节信度的概述信度的概述不仅仅关心对掌握者和未掌握者的质的区分，同时也在不仅仅关心对掌握者和未掌握者的质的区分，同时也在分数连续体上描述了关于掌握和未掌握的量的差异。这分数连续体上描述了关于掌握和未掌握的量的差异。这类信度主要采用类信度主要采用K2(X,T)指标：指标：第一节第一节信度的概述信度的概述式中，式中，、分别为被试总体在测验上的真分数方差和观测分别为被试总体在测验上的真分数方差和观测分数方差；分数方差；、分别为真分数和观测分数的平均值；分别为真分数和观测分数的平均值；ng为为测验题目数，测验题目数，c是以做对题目百分比表示的区分标准。

12、是以做对题目百分比表示的区分标准。K2(X,T)值越大，说明观测分与区分标准分数（划界分数）值越大，说明观测分与区分标准分数（划界分数）之间的差异代表真分数的对应差异量的可能性越大，因之间的差异代表真分数的对应差异量的可能性越大，因而观测分与划界分数的差异就越能反映真实能力上的差而观测分与划界分数的差异就越能反映真实能力上的差异。换言之，测验就更可信。异。换言之，测验就更可信。就单个测验的结果而言，就单个测验的结果而言， K2(X,T)的计算公式如下：的计算公式如下：第一节第一节信度的概述信度的概述式中，是由库德理查德式中，是由库德理查德KR20公式求出的信度系数，其公式求出的信度系数，其余

13、符号意义同前。余符号意义同前。（3）在在纯速度测验（纯速度测验（speed test）中，个体差异完全取中，个体差异完全取决于速度，此时就无法恰当地解释施测一次测验的信决于速度，此时就无法恰当地解释施测一次测验的信度系数。度系数。如果条件许可，可采用如果条件许可，可采用重测法重测法或是或是复本法复本法，这是比较合，这是比较合适的。适的。分半法分半法也可以使用，但是此时的分半是按时间分半，而也可以使用，但是此时的分半是按时间分半，而不是按照项目来分半。也就是，两半分数必须根据分别不是按照项目来分半。也就是，两半分数必须根据分别规定时间的两个半测验。例如，可以把奇偶项目分别印规定时间的两个半测验。

14、例如，可以把奇偶项目分别印制在两张卷上，每组项目的用时为全测验的一半。这种制在两张卷上，每组项目的用时为全测验的一半。这种方法等于在同一时间实施了两个等值测验。方法等于在同一时间实施了两个等值测验。第一节第一节信度的概述信度的概述还有一种替代实施两个半测验的方法，就是把还有一种替代实施两个半测验的方法，就是把总时间四总时间四等分等分，算出每段时间的分数。这种方法简便易行，施测，算出每段时间的分数。这种方法简便易行，施测时每当主试发出事先安排的信号，就要测验参加进在他时每当主试发出事先安排的信号，就要测验参加进在他们正在做的项目上打个记号。然后，把第一段和第四段们正在做的项目上打个记号。然后

15、，把第一段和第四段时间内答对的项目数相加，得出一个半测验分数；把第时间内答对的项目数相加，得出一个半测验分数；把第二段和第三段时间内答对的项目数相加，得出另一个半二段和第三段时间内答对的项目数相加，得出另一个半测验分数。四段时间如此相加，往往可以平衡练习、疲测验分数。四段时间如此相加，往往可以平衡练习、疲劳和其他因素的累积效应。特别是当项目难度水平前后劳和其他因素的累积效应。特别是当项目难度水平前后一致，而不是逐渐增加时，这种方法尤其令人满意。一致，而不是逐渐增加时，这种方法尤其令人满意。第一节第一节信度的概述信度的概述2.信度的报告信度的报告（1）任何一个信度系数是针对引起测验误差的特定因

16、任何一个信度系数是针对引起测验误差的特定因素而言的。有多少种影响测验分数的条件，就有多少素而言的。有多少种影响测验分数的条件，就有多少种测验信度，因此，报告信度时应该详细说明测试样种测验信度，因此，报告信度时应该详细说明测试样本的特性和所报告的信度类型。本的特性和所报告的信度类型。在信度报告时只是报告信度系数，而缺乏说明估在信度报告时只是报告信度系数，而缺乏说明估算系数的方法细节，推导系数时所用的被试群体的特算系数的方法细节，推导系数时所用的被试群体的特征，以及获取数据当时的施测条件，等等，这种信度征，以及获取数据当时的施测条件，等等，这种信度报告是不合格的。报告是不合格的。第一节第一节

17、信度的概述信度的概述（2）没有一个单一的、最优的方法来量化信度，没有没有一个单一的、最优的方法来量化信度，没有一个单独的指数能恰当地表达所有的相关事实，没有一个单独的指数能恰当地表达所有的相关事实，没有一个单独的研究方法在所有的情形下都是最佳选择，一个单独的研究方法在所有的情形下都是最佳选择，且测验编制者也不应局限于将某一种方法运用到任何且测验编制者也不应局限于将某一种方法运用到任何一种测量手段上去。所以，测验编制者在报告测验信一种测量手段上去。所以，测验编制者在报告测验信度时，可以从多方面予以报告。度时，可以从多方面予以报告。第一节第一节信度的概述信度的概述（3）提供详细的信度分析报告，

18、让了解相关知识的人提供详细的信度分析报告，让了解相关知识的人能够对结果进行评定，并能够重复信度分析的过程。能够对结果进行评定，并能够重复信度分析的过程。例如，简单说一句例如，简单说一句“某测验的信度是某测验的信度是0.92”是不能是不能接受的。较恰当的说法是接受的。较恰当的说法是“某测验的信度系数为某测验的信度系数为0.92，该数值是通过计算一份能力测验间隔两周两次测试成该数值是通过计算一份能力测验间隔两周两次测试成绩的相关系数得出的。数据来源是从某市随机抽取的绩的相关系数得出的。数据来源是从某市随机抽取的500名小学名小学5年级的学生施测年级的学生施测”。第一节第一节信度的概述信度的概述

19、五、信度的标准与作用五、信度的标准与作用1.信度是评价测验质量的重要指标之一。信度是评价测验质量的重要指标之一。测验类型测验类型信度系数信度系数低低中中高高学学业成就成就测验0.660.920.98学学术能力能力测验0.560.900.97特殊能力特殊能力倾向向测验0.260.880.96人格人格测验0.460.850.97兴趣趣测验0.420.840.93态度度测验0.470.790.98注：表中数据来源，Lewis R. Aiken: Psychological testing and assessment (eighth edition), Allyn and Bacon, Inc,

20、 1994.第一节第一节信度的概述信度的概述2.信度是测量过程中所存在的随机误差大小的反映。信度是测量过程中所存在的随机误差大小的反映。第一节第一节信度的概述信度的概述例如，我们已知高考文科试卷的总信度例如，我们已知高考文科试卷的总信度rXX =0.965，文科，文科考生总分的标准差为考生总分的标准差为53.42,那么，文科考试成绩的标准误为：那么，文科考试成绩的标准误为：3.信度可以用来解释个人测验分数的意义信度可以用来解释个人测验分数的意义测量测量标准误。标准误。如果某生的考试成绩为如果某生的考试成绩为495分，在置信度为分，在置信度为0.95时，其真时，其真分数的置信区间为：分数

21、的置信区间为：4.信度可以帮助进行不同测验分数的比较。信度可以帮助进行不同测验分数的比较。第一节第一节信度的概述信度的概述考察两个分数的差异是否可靠，是否真有差异的问题。比如，考察两个分数的差异是否可靠，是否真有差异的问题。比如，某人的物理成绩是否真的优于化学？某人的数学技能本学期某人的物理成绩是否真的优于化学？某人的数学技能本学期是否真有进步？某人在韦氏智力量表上操作智商与言语智商是否真有进步？某人在韦氏智力量表上操作智商与言语智商的差异是否真有显著意义等。的差异是否真有显著意义等。当两测验的方差相等时，差异分数的信度系数可用如下公当两测验的方差相等时，差异分数的信度系数可用如下公式求出

22、式求出：式中，式中，rXXdiff是差异分数的信度系数；是差异分数的信度系数；rXX和和rYY是两个测是两个测验各自的信度系数；验各自的信度系数； rXY是两测验间的相关系数。是两测验间的相关系数。4.信度可以帮助进行不同测验分数的比较。信度可以帮助进行不同测验分数的比较。第一节第一节信度的概述信度的概述差异分数的测量标准误可用如下公式求出：差异分数的测量标准误可用如下公式求出：式中，式中，SEdiff是差异分数的测量标准误；是差异分数的测量标准误；rXX和和rYY是两个是两个测验各自的信度系数；测验各自的信度系数；SD是两测验间使用的相同的标准是两测验间使用的相同的标准差。在比较分数之前，

23、必须将两个测验分数转为具有相差。在比较分数之前，必须将两个测验分数转为具有相同量表的标准分数。同量表的标准分数。第一节第一节信度的概述信度的概述例如，在韦氏成人智力量表中，言语和操作分测验的信度为例如，在韦氏成人智力量表中，言语和操作分测验的信度为 0.97和和0.93，而它们的智商的平均数为，而它们的智商的平均数为100,标准差为标准差为15,故故言语和操作智商差数的标准误为：言语和操作智商差数的标准误为：因为因为4.741.969.29,因此，言语和操作智商相差因此，言语和操作智商相差10分时，分时，在在0.05水平上，我们说存在显著差异。若要在水平上，我们说存在显著差异。若要在0.01

24、水平上作水平上作出差异显著的结论，就要相差出差异显著的结论，就要相差13分。分。测验分数的比较与平均数差异显著性检验是一回事吗？测验分数的比较与平均数差异显著性检验是一回事吗？第二节第二节信度的种类与评估方法信度的种类与评估方法一、重测信度一、重测信度1.含义含义同一个测量工具在两个不同时间对同一组被试施测所得同一个测量工具在两个不同时间对同一组被试施测所得结果的一致性程度。结果的一致性程度。重测信度主要考察了一个测量工具是否能够保证在不同重测信度主要考察了一个测量工具是否能够保证在不同时间测量结果的一致性，他反映了测量工具的结果受到时间测量结果的一致性，他反映了测量工具的结果受到时间间隔因

25、素影响的大小。时间间隔因素影响的大小。一般来说，重测的时间间隔越短，那么各种施测情境的一般来说，重测的时间间隔越短，那么各种施测情境的变化就越小，重测信度系数就会越大。变化就越小，重测信度系数就会越大。重测信度系数较大时，说明该测量工具前、后两次的测重测信度系数较大时，说明该测量工具前、后两次的测量结果比较一致。结果具有较好的跨时间上的稳定性。量结果比较一致。结果具有较好的跨时间上的稳定性。第二节第二节测验信度的种类与评估方法测验信度的种类与评估方法2.评估方法评估方法重测信度的大小可以通过计算测量工具的重测信度的大小可以通过计算测量工具的重测重测系数（系数（test-retest coef

26、ficient）或叫或叫稳定性系数稳定性系数（coefficient of stability）来标志。具体来说，来标志。具体来说，就是求取同一组被试在两个不同时间施测同一就是求取同一组被试在两个不同时间施测同一个测量工具所得结果分数的相关系数。个测量工具所得结果分数的相关系数。第二节第二节测验信度的种类与评估方法测验信度的种类与评估方法3.应用条件应用条件测量工具所测量的个体心理特质在时间上应该是相测量工具所测量的个体心理特质在时间上应该是相对稳定的。对稳定的。测量工具所测量的个体心理特质应该不存在明显的测量工具所测量的个体心理特质应该不存在明显的练习效应和遗忘效应。练习效应和遗忘效应。在

27、两次施测间隔期间不应该进行专门的训练和培训，在两次施测间隔期间不应该进行专门的训练和培训，以保证重测信度反映的是随机因素的影响效应。以保证重测信度反映的是随机因素的影响效应。第二节第二节测验信度的种类与评估方法测验信度的种类与评估方法4.使用重测信度时需要注意的问题使用重测信度时需要注意的问题两次施测时间间隔的长短会影响重测信度系数估计两次施测时间间隔的长短会影响重测信度系数估计值的大小，因此，在报告重测信度系数时应该报告值的大小，因此，在报告重测信度系数时应该报告间隔的时间长度。间隔的时间长度。应该根据已有的相关研究结论考虑所测心理特质本应该根据已有的相关研究结论考虑所测心理特质本身的稳定

28、性程度，以确定前后两次施测时间的间隔身的稳定性程度，以确定前后两次施测时间的间隔究竟应该多长比较合适时，不应该随便选择间隔时究竟应该多长比较合适时，不应该随便选择间隔时间的长短。间的长短。第二节第二节测验信度的种类与评估方法测验信度的种类与评估方法二、复本信度二、复本信度1.含义含义两个平行的测验（复本测验）测量同一批被试所得结果两个平行的测验（复本测验）测量同一批被试所得结果的一致性程度。的一致性程度。复本信度反映了由于题目的不同以及时间间隔所导致的复本信度反映了由于题目的不同以及时间间隔所导致的测量误差。测量误差。平行测验或复本测验指的是两个在题目内容、数量、形平行测验或复本测验指的

29、是两个在题目内容、数量、形式、难度、区分度、指导语、时限以及所用的例题、公式、难度、区分度、指导语、时限以及所用的例题、公式和测验等其他方面都相同或相似的测验。也就是用不式和测验等其他方面都相同或相似的测验。也就是用不同的题目测量同样的内容而且其测验结果的平均值和标同的题目测量同样的内容而且其测验结果的平均值和标准差都相同的两个测验。准差都相同的两个测验。第二节第二节测验信度的种类与评估方法测验信度的种类与评估方法2.评估方法评估方法复本信度的估计过程就是计算同一批被试在两个平复本信度的估计过程就是计算同一批被试在两个平行的复本测验上所得分数的相关系数，也叫作行的复本测验上所得分数的相关系数

30、，也叫作等价等价系数（系数（coefficient of equivalence）。测试设计：同时测试和延时测试。测试设计：同时测试和延时测试。同时测试是在同一个时间段内进行测试，而延时测同时测试是在同一个时间段内进行测试，而延时测试则是在两个时间段进行测试，同时测试可能会存试则是在两个时间段进行测试，同时测试可能会存在作答疲劳的效应，而延时测试则可能会存在学习在作答疲劳的效应，而延时测试则可能会存在学习或培训效应。或培训效应。第二节第二节测验信度的种类与评估方法测验信度的种类与评估方法3.应用条件应用条件要构造出两份或两份以上真正平行的测验要构造出两份或两份以上真正平行的测验;计算复本信度

31、需要对同一批被试测试两份平行测验，计算复本信度需要对同一批被试测试两份平行测验，这就需要掌握一个合理的时间安排。这就需要掌握一个合理的时间安排。应该尽量在测试结果报告中，详尽地说明两次测试应该尽量在测试结果报告中，详尽地说明两次测试的时间间隔、测试顺序安排、测试过程中被试的有的时间间隔、测试顺序安排、测试过程中被试的有关测验经历等。关测验经历等。第二节第二节测验信度的种类与评估方法测验信度的种类与评估方法三、内部一致性信度三、内部一致性信度1.含义含义内部一致性信度主要评价了测验各随机组成部分之间内部一致性信度主要评价了测验各随机组成部分之间是否测量了相同的心理特质，因此，它反映的是题目是否

32、测量了相同的心理特质，因此，它反映的是题目内容的抽样一致性程度。内容的抽样一致性程度。具体估计方法主要包括具体估计方法主要包括分半信度评估法分半信度评估法、库德库德-理查理查森信度评估法森信度评估法、克龙巴赫克龙巴赫Alpha系数评估法系数评估法。与重测信度和复本信度不同，在估计测验的内部一致与重测信度和复本信度不同，在估计测验的内部一致性信度时，只要用同一测验对一批被试测试一次。性信度时，只要用同一测验对一批被试测试一次。第二节第二节测验信度的种类与评估方法测验信度的种类与评估方法2.分半信度分半信度含义含义我们总是可以把一个测验的所有题目随机地我们总是可以把一个测验的所有题目随机地划

33、分成对半的两个部分，然后估计所有被试划分成对半的两个部分，然后估计所有被试在这两个部分题目上得分的一致性程度，这在这两个部分题目上得分的一致性程度，这样得到的测验一致性估计称为样得到的测验一致性估计称为分半信度分半信度。分半信度评价了测验两个随机组成部分的题分半信度评价了测验两个随机组成部分的题目是否测量了相同的心理特质。目是否测量了相同的心理特质。第二节第二节测验信度的种类与评估方法测验信度的种类与评估方法2.分半信度分半信度评估方法评估方法计算出被试在测验两个随机组成部分的题目上得分之计算出被试在测验两个随机组成部分的题目上得分之间的相关系数。间的相关系数。由于在用分半测验得分计算相关系

34、数时，测验题量被由于在用分半测验得分计算相关系数时，测验题量被缩短，信度系数需要通过以下这个公式对分半相关系缩短，信度系数需要通过以下这个公式对分半相关系数进行矫正而得到。数进行矫正而得到。为两个分半测验之间的相关系数，为两个分半测验之间的相关系数，为完整长度为完整长度测验的信度系数估计值。测验的信度系数估计值。第二节第二节测验信度的种类与评估方法测验信度的种类与评估方法2.分半信度分半信度评估方法评估方法另外一个估计分半信度系数的方法是另外一个估计分半信度系数的方法是Rulon公式，他只需公式，他只需要计算所有被试在两部分测验上得分之差的方差以及总分要计算所有被试在两部分测验上得分之差

35、的方差以及总分方差：方差：式中，式中，为完整测验的信度估计值，为完整测验的信度估计值，为被试在两部分测为被试在两部分测验上得分之差的方差，验上得分之差的方差，为完整测验总分方差。为完整测验总分方差。 Rulon公式中分子方差反映了由于题目不同等条件带来的公式中分子方差反映了由于题目不同等条件带来的误差方差，他与总方差之比反映了误差方差在总方差中所误差方差，他与总方差之比反映了误差方差在总方差中所占的比例。占的比例。第二节第二节测验信度的种类与评估方法测验信度的种类与评估方法2.分半信度分半信度使用时需注意的问题使用时需注意的问题在估计测验的分半信度时，虽然要求把一个测验的在估计测验的

36、分半信度时，虽然要求把一个测验的所有题目随机地划分成对半的两个部分，但是在实所有题目随机地划分成对半的两个部分，但是在实践中对测验分半时，为了尽量减少无关因素的影响，践中对测验分半时，为了尽量减少无关因素的影响，通常需要考虑题型、题分、题目测试先后顺序等因通常需要考虑题型、题分、题目测试先后顺序等因素的平衡问题，比如素的平衡问题，比如按照题目顺序奇偶分半按照题目顺序奇偶分半就是一就是一个经常选择的方法个经常选择的方法第二节第二节测验信度的种类与评估方法测验信度的种类与评估方法3.库德库德-理查森信度理查森信度含义含义在估计分半信度时，把一个测验的题目分成两半在估计分半信度时，把一个测验的题目

37、分成两半的方式是非常多的。而每种分半方式得到的信度的方式是非常多的。而每种分半方式得到的信度估计值总会存在一些差异，但我们无法知道究竟估计值总会存在一些差异，但我们无法知道究竟哪种分半结果所得到的信度估计值是最合适的。哪种分半结果所得到的信度估计值是最合适的。估计所有可能的分半信度系数的平均数，作为完估计所有可能的分半信度系数的平均数，作为完整测验的内部一致性最佳估计值。整测验的内部一致性最佳估计值。第二节第二节测验信度的种类与评估方法测验信度的种类与评估方法3.库德库德-理查森信度理查森信度评估方法：评估方法：所有分半信度系数的平均数的估计方法。所有分半信度系数的平均数的估计方法。第二节第

38、二节测验信度的种类与评估方法测验信度的种类与评估方法3.库德库德-理查森信度理查森信度使用条件使用条件Kuder-Richardson信度系数的估计只能针对信度系数的估计只能针对1、0记记分题型，对于其他题型需要使用更加一般化的估计分题型，对于其他题型需要使用更加一般化的估计方法。方法。 K-R 21公式假设测验中所有项目的难度是相同的。公式假设测验中所有项目的难度是相同的。Kuder-Richardson信度反映的是项目间一致性程度，信度反映的是项目间一致性程度，他会严重地受到测验所测行为特质的同质性程度的他会严重地受到测验所测行为特质的同质性程度的影响。影响。第二节第二节测验信度的种类

39、与评估方法测验信度的种类与评估方法4. Cronbachs Alpha系数系数含义含义是一种比是一种比Kuder-Richardson方法更加一般化方法更加一般化的信度估计方法，它可以针对各种记分方式的信度估计方法，它可以针对各种记分方式的题型进行估计。的题型进行估计。第二节第二节测验信度的种类与评估方法测验信度的种类与评估方法4. Cronbachs Alpha系数系数评估方法评估方法第二节第二节测验信度的种类与评估方法测验信度的种类与评估方法公式中，公式中，k是测验题目个数，是测验题目个数，是被试在题目是被试在题目i上得上得分的方差，分的方差，是被试测验总分方差。是被试测验总分方差

40、。4. Cronbachs Alpha系数系数使用条件使用条件可以估计各种记分方式的测验内部一致性信度系数，可以估计各种记分方式的测验内部一致性信度系数，是更一般化的测验内部一致性信度系数估计方法。是更一般化的测验内部一致性信度系数估计方法。第二节第二节测验信度的种类与评估方法测验信度的种类与评估方法四、评分者信度四、评分者信度1.含义含义在评价通过主观评分方式得到的分数时，我们必须了解在评价通过主观评分方式得到的分数时，我们必须了解不同的评分者在评价被试作答反应时给的分数值的一致不同的评分者在评价被试作答反应时给的分数值的一致性程度（信度）性程度（信度）。一般的客观型题目在评分时很少出

41、现误差，然而，对于一般的客观型题目在评分时很少出现误差，然而，对于诸如作文测验、语言类测验、以及其他的评价性测验诸如作文测验、语言类测验、以及其他的评价性测验（如人格特质评级、投射测验评分等），这些测验类型（如人格特质评级、投射测验评分等），这些测验类型的评分过程就显得非常主观。的评分过程就显得非常主观。第二节第二节测验信度的种类与评估方法测验信度的种类与评估方法2.评估方法评估方法两个评分者时：计算这两个评分者评定分数之间两个评分者时：计算这两个评分者评定分数之间的相关系数。的相关系数。多个评价者评价同一批被试：计算和谐系数。多个评价者评价同一批被试：计算和谐系数。第二节第二节测验信度

42、的种类与评估方法测验信度的种类与评估方法五、信度系数及其估计方法小结五、信度系数及其估计方法小结1.测试次数和测试卷份数与信度系数估计方法测试次数和测试卷份数与信度系数估计方法第二节第二节测验信度的种类与评估方法测验信度的种类与评估方法测试次数测试次数测试卷份数测试卷份数 1份份 2份份 1次次分半信度分半信度Kuder-Richardson信度信度Alpha系数系数复本信度（同时测试）复本信度（同时测试） 2次次重测信度重测信度复本信度（延时测试）复本信度（延时测试） 2.各种信度估计方法的误差方差来源各种信度估计方法的误差方差来源第二节第二节测验信度的种类与评估方法测验信度的

43、种类与评估方法信度估计方法信度估计方法误差方差来源误差方差来源重测信度重测信度复本信度（同时测试）复本信度（同时测试）复本信度（延时测试）复本信度（延时测试）分半信度分半信度Kuder-Richardson 和和Alpha系数系数评分者信度评分者信度时间间隔时间间隔题目内容题目内容时间间隔与题目内容时间间隔与题目内容题目内容题目内容题目内容与心理行为特质的同质性题目内容与心理行为特质的同质性评分者间差异评分者间差异第三节第三节测量的随机误差控制测量的随机误差控制一、影响测量信度的因素一、影响测量信度的因素影影响响测测量量信信度度的的因因素素施测间隔的时间施测间隔的时间被试被试主试主试

44、施测情境施测情境测量工具测量工具第三节第三节测量的随机误差控制测量的随机误差控制二、提高测验信度的常用方法二、提高测验信度的常用方法提提高高测测验验信信度度的的常常用用方方法法规范施测程序、统一施测环境规范施测程序、统一施测环境适当增加测验的长度适当增加测验的长度控制试题的难度分布控制试题的难度分布努力提高每道题的区分度努力提高每道题的区分度维持测验的同质性维持测验的同质性努力提高测验在被试中各个努力提高测验在被试中各个同质亚团体上的信度同质亚团体上的信度保证被试有充裕的作答时间保证被试有充裕的作答时间严格控制评分误差严格控制评分误差第三节第三节测量的随机误差控制测量的随机误差控制提高信度

45、的方法提高信度的方法适当增加测验的长度适当增加测验的长度为什么增加测验的长度，会提高信度？测验长度的增加与信度的提高不是等比例的提高信度的方法提高信度的方法适当增加测验的长度适当增加测验的长度增加测验长度与信度提高之间关系的公式：例：有一包含10题的测验，其信度系数为0.30，若把测验增加到原测验长度的3倍，那么新测验的信度系数应该是多少？例：原测验共10题，信度系数为0.30，如要把测验信度系数提高到0.94，需要把原测验延长多少倍？增加多少题？返回返回第四节第四节评分者信度及评分者信度及评分误差的控制评分误差的控制一、评分误差存在的严重性一、评分误差存在的严重性严重到什么程度？严重到什

46、么程度？历史教授的答案被评阅为历史教授的答案被评阅为“不及格不及格”高考作文高考作文一幅漫画的启示一幅漫画的启示，67位评阅者，位评阅者，6至至25分都有，最高分与最低分相差分都有，最高分与最低分相差19分分。1984年，高考作文评分调查，年，高考作文评分调查，438位老师，位老师，4篇作文，。篇作文，。最高得分为最高得分为41.25，最低分为，最低分为20.75，标准差为，标准差为2.98。1985年，对年，对1984年的四篇作文再研究，年的四篇作文再研究，347位老师位老师（有部分（有部分1985年参加研究的老师），最高得分为年参加研究的老师），最高得分为42.5，最低分为，最低分为24.

47、75，标准差为，标准差为3.3。第四节第四节评分者信度及评分误差控制评分者信度及评分误差控制二、评分者信度二、评分者信度定义：多个评分者对同一批答卷评分结果的一定义：多个评分者对同一批答卷评分结果的一致性程度。致性程度。估计方法：估计方法：两位评分者评同一批试卷；两位评分者评同一批试卷；三位或三位以上评分者评同一批试卷三位或三位以上评分者评同一批试卷第四节第四节评分者信度及评分误差控制评分者信度及评分误差控制两位评分者评同一批试卷的评分者信度两位评分者评同一批试卷的评分者信度例：甲、乙两位教师评阅10份试卷，他们对每一试卷各自所评分数如下表，问这两位教师评分的一致性如何？返回返回试卷得

48、分D甲乙等级等级之差甲评分乙评分甲乙A94931110B9092222.50.5C869263.52.51D8670163.573.5E868210541F7076665.50.5G68653792H66761085.52.5I64684981J6160110100多位评分者评同一批试卷的评分者信度多位评分者评同一批试卷的评分者信度例：六位教师各自评阅相同的例：六位教师各自评阅相同的5篇作文，每位教师给每一篇作文都篇作文，每位教师给每一篇作文都评了等级（共评了等级（共5等）并列入下表，问这六位教师评分的一致性如何等）并列入下表，问这六位教师评分的一致性如何？返回返回作文评分者12345A352

49、41B35241C34152D35142E35241F35241182910258三、评分误差产生的原因三、评分误差产生的原因试题原因试题原因评分者原因评分者原因专业知识水平不够专业知识水平不够评判能力不够评判能力不够个性倾向个性倾向心理状态心理状态客观效应客观效应“名片名片”、“光环光环”、“对比对比”、“先后先后”环境、组织管理的原因环境、组织管理的原因第四节第四节评分者信度及评分误差控制评分者信度及评分误差控制四、控制评分误差的方法四、控制评分误差的方法控制试题作答反应方向与范围控制试题作答反应方向与范围预先制订好评分细则预先制订好评分细则阅卷人员要选择、要培训阅卷人员要选择、要培训流水作业流水作业分因素评分分因素评分组织复查组织复查要求评分者自觉防止各种客观效应的影响要求评分者自觉防止各种客观效应的影响大规模阅卷可考虑采用统计手段控制大规模阅卷可考虑采用统计手段控制第四节第四节评分者信度及评分误差控制评分者信度及评分误差控制

展开阅读全文

心理测量学：第二章 测量信度与随机误差控制

最新文档

心理测量学：第二章测量信度与随机误差控制