心理测量4-测验分数的解释

资源描述

《心理测量4-测验分数的解释》由会员分享，可在线阅读，更多相关《心理测量4-测验分数的解释（79页珍藏版）》请在金锄头文库上搜索。

1、4. 第四章,测验分数的解释,本章主要内容： 4.1 参照常模的分数 4.2 参照标准的分数 4.3 测验分数的解释,从测验中直接获得的分数，称为原始分数，它是通过将被试的反应与标准答案相比较而获得的。原始分数本身并不具有多大的意义，必须与一定的参照体系作比较，才能显示其意义。例：语文85分，游泳第3名。确定原始分数意义的参照体系有两类：其他被试的分数，即其他被试在所测特质上的一般水平。社会在所测特质上的客观要求，即被试在所测特质上发展应该达到的标准。,第一种称为参照常模的分数解释。参照常模的分数解释方法是将被试的分数和常模团体测验分数进行比较来解释的，并且主要以个人在常模团体中所处的

2、相对位置来说明。第二种是参照标准的分数解释。参照标准的分数解释方法是用被试测验分数与应有的标准作比较来确定被试测验分数的意义。凡达到要求的标准，就是“合格”或“达标”；未达到要求的标准，就是“不合格”或“未达标”，它全然不管其他被试在同一测验上的分数如何。,4.1 参照常模的分数,参照常模的分数解释是把被试的测验分数与具有某种特征的人所组成的有关团体的一般水平作比较，以确定被试在该团体内的相对位置。用来比较的参照团体称常模团体（norm group），常模团体的分数分布叫常模，它是我们解释测验分数的基础。 4.1.1 常模团体的性质 4.1.2 确定常模团体的注意事项 4.1.3 常模,4

3、.1.1 常模团体的性质,常模团体是由具有某种共同特征的人所组成的一个群体，或是该群体的一个样本。从测验的编制者来说，确定常模团体的问题就是确定所编制的测验将来用于什么总体。所选定的常模团体必须能够代表该总体。例如，测验是用来评价高中毕业生的学业成就，则常模团体应包括全体高中毕业生，或是能足够代表该总体的一个样本，由于大部分的测验要用于各种不同团体，所以大部分测验都有不止一个常模团体。,如，瑞文标准推理测验，常模团体就有儿童，成人、城市、农村等多个。对测验的使用者，要从不同角度来选定常模。首先要考虑的问题是现有的常模团体哪一个最适合？因为标准化测验通常提供许多原始分数与各种常模团体的比较

4、转换表，被试的分数必须与最合适的常模比较。,无论是测验编制者还是测验使用者，常模团体通常包括具有同样年龄或教育水平的人，当然，在一些特殊情况下，还有许多方面也可用来定义常模团体，如性别、年龄，年级或教育水平、职业、社会经济地位、民族等。,4.1.2 确定常模团体的注意事项,常模团体的界限必须明确在确定常模团体时，必须清楚地说明所要测量的群体的性质与特征。虽然有关常模团体的一般规定取决于测验的目的与使用，且可能有多个常模团体，但对每个常模团体的性质和特征必须有一个简短而明确的描述。若群体过大，群体内部也许有许多小团体，它们在一个测验上的表现也时常有差异，假如这种差异较为显著，就必须对每个小团体

5、分别建立常模。,例如，在机械能力倾向测验上，男性通常比女性做得好些，因此这类测验通常分别提供男性、女性的常模。身高体重,常模团体的取样要有代表性当所要测量的群体较小时，将所有的被试逐个测量以得到常模。在群体较大时，只能测量一部分被试作为群体的代表。此时就存在取样是否具有代表性的问题。根据随机化原则抽样能确保样本具有代表性。关于具体抽样方法，可参阅有关统计学书中的抽样推断部分。,取样过程应详尽描述取样的过程必须明确且有详尽的描述。这主要是为了使测验的使用者不至于误用测验和错误地解释测验结果。所以在一般的测验手册中，都有相当的篇幅详细介绍常模团体的大小、取样策略、取样时间以及其他有关情况，

6、这些说明和描述越明确，越详尽越好。样本的大小要适当所谓“大小适当”并没有明确的指标，根据统计学原理，取样误差与样本大小成反比。,在其他条件相同时，样本越大越好，但还应考虑到人力、物力等方面的因素，通常在决定样本大小时，应注意：（1）总体的数目。总体数目小，样本相应可小一些。若总体过小，则可将全部被试入选；当总体较大时，相应的样本也大。一般最低不小于30或100。全国性常模，一般应有2000-3000人。（2）群体的性质。如果群体性质单一，则样本不必太大，就可以反映群体性质；若群体性质复杂，则样本容量就应大一些。,（3）测验结果的精确度。根据统计学原理，抽样误差的大小与样本容量成反比，若

7、要提高精确度，减少抽样误差，就必须加大样本容量（n）。常模必须是近时的建立的常模必须是近时的。过时的常模是不能作为参照标准的。例如对瑞文智力测验来说，几年以前所修订的常模对现今可能就不再适用，否则所得智商将产生偏高的趋势。常模必须定期修订。,一般常模与特殊常模的结合测验手册上的常模通常为一般常模，它的适用范围比较广，有时对于某些特殊的群体不一定完全适用。因此，测验有时须有特殊常模。将特殊常模与一般常模结合起来，可使被试与最接近的群体进行比较。因为各个具体群体在某些方面是独特的，它的成员将与测验手册所列的常模团体成员不符，所以，依据一般常模解释所得的结论可能不够恰当，如果将两者结合使用，解

8、释分数便会更加准。,4.1.3 常模,常模团体的分数分布叫常模，有了常模，我们就可以了解被试在常模团体中的相对位置，从而参照其他个体评价他的成绩。通常把常模分为发展常模和团体内常模两大类型。发展常模发展常模表示个体在正常发展线上心理特征处于什么样的发展水平。例如我们可以说一个8岁儿童具有10岁儿童的智力水平，也可以说一个四年级的学生具有五年级或三年级阅读水平。,婴幼儿头围与胸围发育的正常值（生理发展常模）,儿童口语获得的年龄和不同阶段的特征(心理发展常模),常用的发展常模有以下三种：,（一）智力年龄（mental age）比奈在本世纪初认为：测量儿童心理成长，可以将一个儿童的行为与各年

9、龄水平的儿童比较，以获得该儿童的心理发展水平。在此设想基础上，他首先寻找并设计出可区分各种年龄儿童智力的题目，因为儿童在这些题目上的反应，随着年龄的变化而有系统的改变。每个题目放在大部分的儿童都能成功地完成的那个年龄水平。,例如标准化样本中大多数8岁儿童都能通过的那些项目，就代表8岁儿童的智力水平，就将该题放在8岁水平。每个年龄水平制定适当的题目，可以得到一个可评价儿童智力发展水平的年龄量表。一个儿童在年龄量表上所得的分数，就是最能代表他的智力水平的年龄，这样的分数就称作智力年龄，简称智龄。所有的年龄量表基本上都是利用相同的推理与步骤制定的，年龄量表将个人的行为与各年龄组的一般儿童比较

10、而给予一个年龄分数。 (比率智商 = 智龄/实龄 P.80),年龄量表的基本要素是：（1）一组可区分不同年龄组的题目。（2）一个常模团体。该团体是由各个年龄的被试所组成的具有代表性的样本。（3）常模表，即一个表明答对哪些题目或得多少分就该归入哪个年龄的对照表。年龄常模最大的优点是易于理解与解释，并可以与同年龄团体作直接比较。但必须注意人在很多方面发展的速率是先快后慢并随着年龄的增长而逐渐减慢，当长到青春期或成年期，便逐渐停止。此时，年龄常模便不再适用。,（二）年级当量（grade equivalents）教育成就测验上的分数经常按照年级当量来解释，即将被试的测验成绩与某一年级的学生

11、的平均分数作比较，以确定他相当于哪一年级的水平。这种年级当量选择题目与指定分数的方法与步骤与年龄常模类似，所不同的是用年级水平代替了年龄水平。例：一个学生如果能解答六年级的题目或他（她）在测验上的得分与六年级的平均分数相同，则他（她）在该测验上的年级当量便是6。,（三）顺序量表（ordinal scales）这种常模源于儿童心理学的研究。通过对婴儿的行为发展的经验观察，人们描述各种机能随着年龄发展的典型行为。(如前例) 例:格塞尔发展顺序量表按月份表明，从4周到36周的儿童在运动、适应性、语言、社会性等四个方面的大致发展水平。如婴儿的感觉运动发展顺序是：4周，控制眼睛运动，能追随一个对

12、象看等；16周，能使头保持平衡；28周，能用手抓握并玩弄东西等。 (P.133) 顺序量表用来鉴别儿童在具体行为机能的发展中所达到的阶段。,团体内常模现在，几乎所有的标准化测验都提供某种的团体内常模。这类常模是根据被试在常模团体中所处的相对位置来评价被试的成绩。团体内分数具有统一的、定义明确的定量意义，能够适用于大多数类型的统计分析。团体内常模常用两类数据来标示：百分等级标准分数,（一）百分等级 (简称PR值) 百分等级是应用最广的表示测验分数的方法。一个原始分数的百分等级是指在常模团体中低于这个分数的人数的百分比。例如，一被试在一项测验中得82分，经过换算，百分等级分数为75，就表

13、示参加该项测验的人得分低于82分的占全体被试的75，并说明超过他的成绩82分的人仅有25。我们通常用PR来表示百分等级。百分等级取值越大，说明成绩越优秀。,百分等级的计算方法：将被试团体的全体原始分数从大到小排序，然后采用下列公式计算： PR =100-（100 R-50）N 式中PR为百分等级，R为排名顺序的序号，N为被试总人数。例：某被试在一次由50人参加的成绩测验中得80分，排名第9，则该生成绩（80分）的百分等级为： PR =100-（100R-50）N =100-（1009-50）50 = 83 其百分等级为83，说明? 总体中有83的人分数低于80分。,如对原始分数已作过

14、初步整理，通常以次数分布表的形式呈现，即数据已分组。此时，可采用分组数据的公式求百分等级。（参见统计学的有关部分）,百分等级的优缺点：百分等级是一种相对位置量数，具有可比性，便于计算、易于理解等优点。主要缺点是单位不等，尤其在分数分布的两端。原始分数转换成百分等级时，靠近分布中央（平均数或中位数附近）的原始分数的分数之间的差异被夸大了，而靠近分布两端的原始分数的差异被缩小了。另一个缺点是百分等级只具有顺序性，而无法用它来说明不同被试之间分数差异量。例：某被试甲在一个成就测验中的百分等级为10，被试乙为20，被试丙为30，我们只能说丙优于乙，乙优于甲，而不能推断他们之间差异的程度相等。

15、,在使用百分等级时应注意，百分等级是相对于特定的被试团体而言的。所以，解释时不能离开特定的参照团体。被试得分不变，但参照团体改变了，百分等级值就可能发生变化。所以在报告百分等级时，一定要说明是相对于什么的参照团体来说的。,（二）标准分数,标准分数是一种具有相等单位的量数。它是将原始分数与平均数的距离以标准差为单位表示出来的量数，它的基本单位是标准差，所以叫标准分数。标准分数可分为两类：线性转换的标准分数（简称Z分数）非线性转换的标准分数（称为正态化标准分数，常见的有T分数、标准九分）。,Z分数通过线性转换得到的标准分数称为Z分数它是将个体原始分数与平均数的距离以标准差为单位表示出

16、来。 Z分数之间差异的相对大小，准确地反映了原始分数之间的相对大小。 Z分数的计算方法（P.82） Z = ( XX )S,Z分数具有以下几个性质： Z分数是以一批分数的平均数为参照点，以标准差为单位的等距量表。 Z分数的正负符号表示原始分数在平均数之上或之下，绝对值表示原始分数与平均数的距离。 Z分数分布形态与原始分数分布完全一样。Z分数之间差异的相对大小，准确地反映了原始分数之间的相对大小。,由于Z分数在计算中经常出现负数和小数，且单位过大（一个标准差单位），使用起来不够方便，所以通常需要将Z分数进行进一步线性转换，其形式为：（P.83） Z= A + BZ （Z为转换后的标准分数，A，B为常数）加上一个常数目的是为了去掉负值，乘上一个常数是为了使单位变小从而去掉小数点。原来分数间的关系不会改变。,例如，美国大学入学考试委员会的学业评定测验（SAT）所使用的分数转换公式为： CEEB分数100Z500 （平均分数为500，标准差为100）。我国一种出国人员英语水平考试（EPT）所

展开阅读全文