心理测量学知识－金锄头文库

资源描述

《心理测量学知识》由会员分享，可在线阅读，更多相关《心理测量学知识（42页珍藏版）》请在金锄头文库上搜索。

1、第五章第五章心理测量学知识心理测量学知识第一节第一节概述概述第二节第二节测验的常模测验的常模第第三三节节测测验验的的信度信度第四节第四节测验的效度测验的效度第五节第五节项目分析项目分析第六节第六节测验编制的一般程序测验编制的一般程序第七节第七节心理测验的使用心理测验的使用第三节第三节测验的信度测验的信度p348p348356356第一单元信度的概念第二单元信度评估的方法第三单元信度与测验分数的解释第四单元影响信度的因素第一单元信度的概念一、信度的定义v信度是指同一被试者在不同时间内用同一测验（或用另一套相等的测验）重复测量，所得结果的一致程度。v信度只受随机误差影响

2、，随机误差大，信度低；系统误差产生恒定效应，不影响信度。第一单元信度的概念v每一个测验的实得分数（X）总是由：真实分数（T）和误差（E）构成。 XT+Ev 如果我们讨论一组测验分数的特性时，可用方差代表具体分数。 S2xS2TS2E （ S2x测验实得分数的方差， S2T真分数的方差， S2E 测验误差的方差）第一单元信度的概念v 在测量理论中，信度被定义为：一组测量分数的真分数方差与总方差的比率。 rxx = S2T /S2x v 由于真分数的方差（S2T）无法统计，可以转化为： rxx = （S2x S2E） /S2x 1 S2E /S2xv因此，信度也可以看作在总的方差中非测量误差的

3、方差所占的比例。第一单元信度的概念第一单元信度的概念rxxST2SE2SX2二、信度的指标二、信度的指标（一）信度系数和信度指数v一般情况下，信度以信度系数为指标，是一种相关系数，常常是同一被试样本所得两组资料的相关。v理论上说，是真分数方差与实得分数方差的比值。 rxx =r2xT= S2T /S2x rxT为信度指数，他的平方就是信度系数。第一单元信度的概念（二）测量标准误v样本均值与总体均值总有差异，差异大小用标准误衡量。v标准误就是，样本平均数所服从的分布的的标准差。vSE越大，抽样误差越大，样本平均数越不可靠。v信度系数反映的是一组测量的实得分数与真分数的符合程度，没有指出个人

4、测验分数的变异量。v可以对一个人反复测量，求平均值，标准差。但不现实。v用一组被试两次测量结果来代替对同一个人的反复施测。求得测量标准误： SESX1rxx第一单元信度的概念v标准误可以反映信度的变化，信度越高，标准误越小，信度越低，标准误越大。 Endvv您一定记住了！1、什么是信度？信度是指在不同时间内用同一测验（或另一个测验）重复测量同一被试者，所得结果的一致程度。2、信度只受什么误差的影响？随机误差3、这个公式的含意：rxx= S2T /S2x 在测量理论中，一组测量分数的真分数方差与总方差的比率，就是信度。4、信度与误差关系？误差大，信度低 5、信度的指标有哪些？信度系数，

5、信度指数，测量标准误。vv您一定记住了！6、什么是信度系数？信度系数是信度的指标之一，是一种相关系数，常常是同一被试样本所得两组资料的相关，也是真分数方差与实得分数方差的比值 ST2/SX2 。7、什么是信度指数？真分数的标准差与实得分数的标准差的比值，ST/SX。8、信度指数与信度系数关系？平方。9、什么是测量标准误？样本均值与总体均值总有差异，差异大小用标准误衡量。标准误就是样本平均数的标准差。SE越大，抽样误差越大，样本平均数越不可靠。10、测量标准误与信度系数关系？信度越高，标准误越小；信度越低，标准误越大。第三节测验的信度第一单元信度的概念第二单元第二单元信度评估的方

6、法信度评估的方法第三单元信度与测验分数的解释第四单元影响信度的因素第三节测验的信度第二单元第二单元信度评估的方法信度评估的方法第二单元信度评估的方法一、重测信度一、重测信度（test-retest reliability）又称稳定性系数。它的计算方法是采用重测法，即使用同一测验，在同样条件下对同一组被试者前后施测两次测验，求两次得分间的相关系数。.优、缺点：考察测验的时间效应。但有练习和记忆的影响。最适宜的时距随测验的目的、性质和被试特点而异，一般是24周较宜，间隔时间最长不超过六个月。第二单元信度评估的方法二、复本信度（二、复本信度（alternate-form reliabi

7、lityalternate-form reliability）它是以两个等值但题目不同的测验（复本）来测量同一群体，然后求得被试者在两个测验上得分的相关系数，这个相关系数就代表了复本信度的高低。它反映的是测验在内容上的等值性，又称等值性系数，第二单元信度评估的方法二、复本信度（二、复本信度（alternate-form reliabilityalternate-form reliability）在应用时，应该有半数的被试先作A本再作B本，另一半被试先作B本再作A本，由此可以抵消施测顺序的效应。如果两个复本，几乎同时施测，相关系数反应的才是才是复本的关系；如果相隔一段时间，则称重测复本信

8、度，或稳定与等值系数。优点：避免重测信度的一些问题。局限：第一，如果测量的行为易受练习影响，复本信度只能减少而不能消除这种影响；第二，从第一个测验中掌握的解体规则，容易迁移到第二个测验中；第三，复本难以建立。第二单元信度评估的方法三三、内内部部一一致致性性信信度度（ internal internal consistency consistency reliabilityreliability） v重测信度和复本信度主要考察了测验跨时间的一致性（稳定性）和跨形式的一致性（等值性），而内部一致性信度系数主要反映的是题目之间的关系，表示测验能够测量相同内容或特质的程度。v内部一

9、致性信度系数包括：分半信度、同质性信度第二单元信度评估的方法分半信度（split-half reliability）采用分半法估计所得的信度系数。只需一种测验，进行一次测试。在测验实施后将测验按奇、偶数分为等值的两半，并分别计算每位被试在两半测验上的得分，求出这两半分数的相关系数。因为在其他条件相同的情况下，测验越长，信度越高。所以分半法经常会低估信度，必须修正，借以估计整个测验的信度。修正公式：斯皮尔曼布朗公式：rxx=2rhh/1+rhh rxx为测验在原来长度时的信度估计值，rhh为一半分数的相关系数。这是个经验公式，前提条件是两半测验分数的变异数相等。当假设条件不成立时，可以用其

10、他公式。第二单元信度评估的方法同质性信度（homogeneity reliability）v同质性主要代表测验内部所有题目间的一致性。当各个测题的得分有较高的正相关时，不论题目的内容和形式如何，则测验为同质的。相反，即使所有题目看起来好象测量同一特质，但相关很低或为负相关时，则测验为异质的。v计算公式：库德理查逊：K-R20公式，K-R21公式。适用于答对记一分，错0分的测题。克伦巴赫a系数：适用于多重计分的测题。第二单元信度评估的方法四、评分者信度（四、评分者信度（scorer reliabilityscorer reliability） v 随机抽取若干份测验卷，由两位评分者按评分标

11、准分别给分，然后再根据每份测验卷的两个分数计算相关，即得评分者信度。v一般要求在成对的受过训练的评分者之间平均一致性达0.90以上，才认为评分是客观的。v当多个评分者评定多个对象，并以等级法记分时，可采用肯德尔和谐系数作为评分者信度的估计。第二单元信度评估的方法v信度估计方法很多，有多少误差来源，就有多少估计信度的方法。v原则上，一种测验哪种误差大，就用哪种误差估计方法。v有时一个测验需要几种信度系数。vv您记住没有啊？1、什么是重测信度，或者稳定性系数？是指使用同一测验，在同样条件下对同一组被试者，前后施测两次测验，求两次得分间的相关系数。2、重测法最适宜的时间间隔是多久？最长不超过多久

12、？ 24周，6个月3、什么是复本信度，或者等值性信度？是以两个等值但题目不同的测验（复本）来测量同一群体，求得被试者在两个测验上得分的相关系数。反映的是测验在内容上的等值性。4、内部一致性信度？反映的是题目之间的关系，表示测验能够测量相同内容或特质的程度。5、内部一致性信度包括？分半信度、同质性信度vv您记住没有啊？6、同质性信度代表什么？测验内部所有题目间的一致性。7、成对受过训练的评分者之间平均一致性达到多少，才认为评分是客观的？ 0.9以上8、以再测法或复本法求信度，两次测验间隔时间越短，信度系数越大还是越小？越大。第三节测验的信度第一单元信度的概念第二单元信度评估的方法

13、第三单元第三单元信度与测验分数的解释信度与测验分数的解释第四单元影响信度的因素第三节测验的信度第三单元第三单元信度与测验分数的解释信度与测验分数的解释第三单元第三单元信度与测验分数的解释信度与测验分数的解释一、解释真实分数与实得分数的相关一、解释真实分数与实得分数的相关信度系数可以解释为：总的方差中有多少比例是由真实分数的方差决定的，也就是测验的总变异中真分数造成的变异占百分之几。例如：r0.9时，实得分数90的变异来自真分数，10来自误差。r1呢？r0呢？信度系数从0.001.00，代表了从缺乏信度到完全可信的所有状况。信度系数也告诉我们误差多大。第三单元第三单元信度与测验分数的

14、解释信度与测验分数的解释二、确定信度可以接受的水平二、确定信度可以接受的水平一个测验的信度多高才合适呢，最理想是rxx1.00，但办不到。研究结果，能力、成就测验都在0.90以上；人格测验、兴趣、态度、价值观等都在0.800.85。一般原则：1.当r0.70,测验不能用于对个人、或团体作出评价或预测；2.当0.70rxx0.85时，可用于团体比较；3.当rxx0.85时，才能用来鉴别或预测个人成绩或作为。另一原则：新编的测验信度应该高于原有的同类测验或相似测验。第三单元第三单元信度与测验分数的解释信度与测验分数的解释三、解释个人分数的意义三、解释个人分数的意义 v其其一一是是估估计计真真实实

15、分分数数的的范范围围；其其二二是是了了解解实实得得分分数数再再测测时时可可能能的的变变化化情情形。这就是形。这就是测量标准误测量标准误的应用。的应用。v测量标准误可以通过第一次测量结果和信度系数得到：测量标准误可以通过第一次测量结果和信度系数得到：SESX1rxx。v根据标准误的值，可以确定实得分数在不同“或然率”水平的真实分数的可能范围。比如 95 的或然水平，其置信区间为： X1.96SEXTX+1.96SE。就是说有95的可能性真分数落在所得分数1.96SE的范围内。或5可能落在范围之外。也表明再测时的可能范围。v比比如如：某某个个被被试试的的测测验

16、验IQIQ100100，再再测测的的分分数数可可能能是是多多少少？（已已知知测测验验的的标准差为标准差为1515，信度系数，信度系数0.840.84）。）。 SESE15 15 10.846.0 IQ100 1.96688112第三单元信度与测验分数的解释四、比较不同测验分数的差异这种比较包括两个人不同分数的差别和同一被试在两个测验上的差别。这就是差异分数的标准误问题。SEd=SSEd为差异的标准误，S代表两个测验使用的标准差，这个标准差要相同，因为只有在两个分数具有相同的单位时才可以比较。例如：某被试韦氏智力测验中言语智商为102，操作智商为110。两个分测验都是以100为平均数，15为标

17、准差的标准分数。假设言语测验和操作测验的分半信度分别为0.87和0.88。问其操作智商是否显著高于言语智商？SEd15 7.5 在0.05水平，1.967.514.7，就是说14.7以上差异才显著。1101088分，不显著。vv记住了吗？1、 r0.9时，实得分数的变异多少来自真分数？ 90。2、信度系数从0.001.00的变化，代表了什么？从缺乏信度到完全可信的所有状况。3、不能用于对个人做出评价和预测，不能做团体比较，测验的信度是多少？小于0.7。4、当r多大时，可用于团体比较？ 0.70rxx0.85时5、当r多大时，才能用来鉴别或预测个人成绩或作为。当rxx0.85时vv会计算吗

18、？6、某个被试的测验IQ100，再测的分数可能是多少？（已知测验的标准差为15，信度系数0.90）。 95的可能在90.6109.4之间。7、被试在韦氏智力测验中言语智商为102，操作智商为110。两个分测验都是以100为平均数，15为标准差的标准分数。假设言语测验和操作测验的分半信度分别为0.87和0.88。问其操作智商是否显著高于言语智商？vv会计算吗？会计算吗？8、某被试在韦氏成人智力测验中的VIQ=102，PIQ=108。假设言语测验和操作测验的分半信度分别为0.97和0.93。问其操作智商是否显著高于言语智商呢？首先计算出差异分数的标准误在统计学上，经常要求两个分数的差异程度达到0

19、.05的显著水平，才能承认不是误差的影响。因此，将差异标准误（4.74）乘以1.96，结果为9.29，这表明个体在韦氏测验两半得分的差异高于大约10分时，才能达到0.05的显著水平。上述被试的差异分数108-102=6是不显著的。第三节测验的信度第一单元信度的概念第二单元信度评估的方法第三单元信度与测验分数的解释第四单元第四单元影响信度的因素影响信度的因素第三节测验的信度第四单元第四单元影响信度的因素影响信度的因素第四单元第四单元影响信度的因素影响信度的因素一、样本特征一、样本特征（一）样本团体异质性的影响（一）样本团体异质性的影响v信度系数就是相关系数，任何相关系数都要受到团

20、体中分数分布范围的影响。v分数分布范围与样本团体的异质程度有关。v取样团体异质程度高，被试差异较大，两次测验高者则高，低者则低，分数相关系数高，信度就高。所以会高估测验的信度。v取样团体异质程度低，被试差异不大，两次测验，第一次高者第二次可能低，低者则可能高，分数相关系数低，信度就低。所以会低估测验的信度。第四单元第四单元影响信度的因素影响信度的因素一、样本特征一、样本特征（二）样本团体平均能力水平的影响v测验的信度不仅受团体中个别差异程度的影响，也受不同团体间平均能力水平的影响。v因为对于不同团体，题目具有不同难度，每个题目在难度上的细微差异累计起来就会影响信度。例如同一套智力测验，年幼者

21、不会的题目多，靠猜测答题，分数的偶然性较大，信度就差。而大学生完成的准确性就高，信度也就高。v这种题目难度上的差异很难用统计来预测和评估，只能靠经验发现。v编制测验应该把常模按照各种标准分成更为同质的亚团体，分别报告信度系数。第四单元第四单元影响信度的因素影响信度的因素二、测验长度二、测验长度v 就是测验的数量。在一个测验中，增加同质的题目，可以提高信度。v测验越长，测验的测题取样或内容取样就越有代表性；v测验越长，被试的猜测因素影响就越小。一道题可以猜对，100个题都猜对就不可能。v但也不能太长，被试过分疲劳和反感，也会影响信度。v增加多长合适呢？斯皮尔曼布朗公式： K=rkk(1-rxx

22、)/ rxx(1-rkk) k为改变后的长度与原来长度的比。rxx为原来测验的信度，rkk为改变后信度的估计。v例如：信度为0.8有40个题的测验，要提高信度到0.90，需要增加多少题目？ K0.90(1-0.80)/0.80(1-0.90)=2.5 2.5X40=100 要增加60题目第四单元第四单元影响信度的因素影响信度的因素三、测验难度三、测验难度v难度对于信度的影响，只存在与智力测验、成就测验、难度对于信度的影响，只存在与智力测验、成就测验、能力倾向测验中。能力倾向测验中。v从理论上说，平均难度水平为从理论上说，平均难度水平为0.5时，才能使测验分数时，才能使测验分数分布范围最大，

23、信度最高。分布范围最大，信度最高。v事实上，事实上，0.50的难度只适合于简答题，选择题猜测因素的难度只适合于简答题，选择题猜测因素高，难度也要提高。高，难度也要提高。v洛德认为洛德认为选择题选择题的理想平均难度为：的理想平均难度为：五择一五择一 0.70；四择一；四择一 0.74；三择一；三择一 0.77；二择一；二择一 0.85v如果某个测验适用范围广，则其难度水平通常适用于中如果某个测验适用范围广，则其难度水平通常适用于中等能力水平的被试，而高水平被试觉得容易，低水平被等能力水平的被试，而高水平被试觉得容易，低水平被试觉得难，信度水平降低。试觉得难，信度水平降低。第四单元第四单元影响

24、信度的因素影响信度的因素四、时间间隔四、时间间隔v时间间隔只对重测信度、不同时测量的复本信度有影响v以重测法或复本法求信度，两次测验间隔时间越短，信度系数越大。时间间隔越久，其他变因介入的可能性越大，受外界的影响也越大，信度系数便越低。v ENDvv您记住了！1、任何相关系数都受什么的影响？团体中分数分布范围。2、分数分布与样本团体的什么有关？异质程度3、取样团体异质程度高，会低估测验信度吗？会高估4、洛德认为选择题的理想平均难度为：五择一 0.70 四择一 0.74 三择一 0.77 二择一 0.85v有一个包含有一个包含50个题的测验，信度为个题的测验，信度为0.75，若把信度提高到，若把信度提高到0.90，应该增加多少个题目。，应该增加多少个题目。v 50350=100（题）（题）您一定会！您一定会！有问题吗？真聪明！谢谢！休息！

展开阅读全文

心理测量学知识

最新文档