心理测量心理咨询师班

资源描述

《心理测量心理咨询师班》由会员分享，可在线阅读，更多相关《心理测量心理咨询师班（238页珍藏版）》请在金锄头文库上搜索。

1、心理测量心理咨询师班第五章心理测量学知识心理测量是心理学的研究方法之一，始于欧洲，20世纪初传人中国。在临床诊断、判定疗效，心理咨询、心理治疗，都必须以心理测量为基础。心理咨询师必须了解心理测量的理论和技术。第一节概述第二节测验的常模第三节测验的信度第四节测验的效度第五节项目分析第六节测验编制的一般程序第七节心理测验的使用第一节概述第一单元测量与测量量表一、什么是测量测量是依据一定的法则用数字对事物加以确定。包括三个要素：(1)事物；(2)数字；(3)法则。（08年11月三级题） “事物”指要测量的对象，准确地说，就是引起我们兴趣的事物的属性或特征。在心理测量中，就

2、是心理能力和人格特点等。由于这些心理现象不能直接测量，因此测量的实际是心理现象的外显行为。“数字”是代表某一事物或事物某一属性的量。数具有区分性，即1就是1，2就是2；数具有序列性或等级性，如12BC，也不能做加、减、乘、除的运算。 (二)顺序量表它比命名量表水平高，其中的数字不仅指明类别，同时指明类别的大小或含有某种属性的程度，如学生的考试名次（06年11月三级题）、能力等级、对某事物的喜爱程度等。这里的数字包含有数量关系，如ABC等，主要用于分等或排出顺序。在顺序量表中，既无相等单位，又无绝对零点，数字仅表示等级（09年11月三级题），并不表示某种属性的真正量或绝对值。例如100米短跑

3、比赛中甲得了第一名，乙得了第二名，这样我们可以知道甲排在乙前面，但是我们不知道甲比乙快多少。 (三)等距量表它不但有大小关系，而且具有相等的单位，其数值可以相互做加、减运算，但没有绝对的零点，因此不能做乘、除运算。例如，10与15的差别，同15与20的差别是一样的，可以说某物温度比另一物高多少，但不能说某物温度是另一物的多少倍，因为它的零点是人定的，0并不意味着没有温度。等距量表的数值加或减一个常数或用一个常数乘或除，不会破坏原来数据之间的关系。（四)等比量表是最高水平的量表，既有相等单位又有绝对零点。此种量表在物理测量中容易见到，长度、重量、时间等都是等比量表。所得的数值可以做加、减、乘、除

4、运算（06年11月二级题、 08年5月二级题）。如体重：甲80公斤，已40公斤，既可以说甲的体重比乙多40公斤，也可以说甲的体重是乙的2倍。心理测量是在顺序量表上进行的。因为对于人的智力、性格、兴趣、态度等来说，绝对零点是难以确定的。在心理测量中，相等单位也是很难获得的。利用某种统计方法，可以把这种顺序量表得到的数据换算为等距数据来进行统计。第二单元心理测量的基本概念一、心理测量的定义心理测量，是依据心理学理论，使用一定的操作程序，通过观察人的少数有代表性的行为，对于贯穿在人的全部行为活动中的心理特点做出推论和数量化分析的一种科学手段。首先，心理测量的对象是人的行为，严格地说，只是测量了做

5、测验的行为，也就是一个人对测验题目的反应。在这个意义上，心理测验就是引起某种行为的工具。其次，心理测量往往只是对少数经过慎重选择的行为样本进行观察，来间接推知被试者的心理特征。行为样本，是指有代表性的样本，或者说根据某些条件所取得的标准样本。由于所取得的标准样本只代表某些心理功能，并不能反映这种功能的全部，所以总不免有某种程度的偏差。因此只有在全部了解行为样本的意义后，才能正确使用心理测验。第三，为了使不同的被试者所获得的分数有比较的可能性，测验的条件对所有的被试者都必须是相同的。在测验编制时，测题的印刷和成批生产的器具要保证物理性质上的一致；对被试者的指导语尽管不能编得天衣无缝，但是要尽量

6、编得凡是足以影响测验作业的每一种情况，都有详细的说明，以保证被试者在反应时减少误差；评分标准也要在测验编制时规定清楚，必要时还应该举例说明，以使主试者评分时都可以按同样的标准规则记分。第四，个人在测验中所得到的原始分数并不具有什么意义，只有将它与其他人的分数或常模相比较才有意义。常模是给测验分数提供比较的标准，即提供某一标准化的样组在某一测验上的平均分数，从而对测验分数加以解释。常模是否可靠，关键是有无一个代表性的被试样本，即建立常模的这组被试要有足够的数量，而且是依据随机抽样和分层抽样的原则挑选出来的。二、心理测量的性质（08年11月三级题）由于心理现象比物理现象更加复杂，测量起来也更

7、困难，因此心理测验具有独特的性质。(一)间接性今天还无法直接测量人的心理活动，只能测量人的外显行为，也就是说，只能通过一个人对测验项目的反应来推论出他的心理特质。（二）相对性测验就是看每个人处在连续的行为序列的什么位置上，由此测得一个人智力的高低、兴趣的大小或性格的特性等。而这一连续序列是由某一团体或一群人的某类行为特点或心理特征构成的，所以每一个人被测得的结果都是与所在团体或人群的大多数人的行为或某种人为确定的标准相比较而言的。没有绝对的标准。（三）客观性测验的客观性实际上就是测验的标准化问题。心理测量的标准化包括以下内容：首先，测验用的项目或作业、施测说明、施测者的言语态度及施测时的物理环

8、境等，均经过标准化，测验的刺激是客观的。其次，评分记分的原则和手续经过了标准化，对反应的量化是客观的。一般来说，投射测验的客观性差些，而选择题的客观性较好。最后，分数转换和解释经过了标准化，对结果的推论是客观的。第三单元心理测验的分类心理测验种类较多，据统计，仅以英语发表的测验就已达5000余种。其中，有许多因过时而废弃不用；有许多本来就流传不广，鲜为人知；有一部分测验应用广泛，经过一再修订，并为许多国家译制使用。1989年出版的心理测验年鉴第十版收集了常用的各种心理测验有近1800种。一、按测验的功能分类（09年11月三级题） (一)智力测验这类测验的功能是测量人的一般智力水平。如Bine

9、tSimon智力测验、StanfordBinet智力量表、Wechsler儿童和成人智力量表等。（二）特殊能力测验这类测验偏重测量个人的特殊潜在能力，多为升学、职业指导以及一些特殊工种人员的筛选所用。常用的如音乐、绘画、机械技巧、文书才能测验。（三）人格测验这类测验主要用于测量性格、气质、兴趣、态度、品德、情绪、动机、信念等方面的个性心理特征，亦即个性中除能力以外的部分。一般有两类，一类是问卷法，一类是投射法。前者如MMPI、16PF、EPQ （07年5月三级题），后者如罗夏测验、主题统觉测验（TAT）。二、按测验材料的性质分类 (一)文字测验文字测验所用的是文字材料，它以言语来提出刺激，

10、被试者用言语做出反应。此类测验实施方便，团体测验多采用此种方式编制，缺点是容易受被试者文化程度的影响。（二）操作测验操作测验也称非文字测验。测验题目多属于对图形、实物、工具、模型的辨认和操作，无须使用言语作答，所以不受文化因素的限制，可用于学前儿童和不识字的成人。缺点是大多不宜团体实施，在时间上不经济。两类测验常常结合使用。例如BinetSimon智力量表开始主要是文字测验，但以后修订的BinetSimon智力量表，Wechsler的三套智力量表（即幼儿、儿童和成人）每套均分成文字的和操作的两类测验。三、按测验材料的严谨程度分类 (一)客观测验此类测验所呈现的刺激词句、图形等意义明确，只需被

11、试者直接理解，无须发挥想像力来猜测和遐想，故称客观测验。绝大多数心理测验都属这类测验。（二）投射测验在此类测验中，刺激没有明确意义，问题模糊，对被试的反应也没有明确规定。被试者做出反应时，一定要凭自己的想像力加以填补，使之有意义。在这过程中，恰好投射出被试者的思想、情感和经验，所以称投射测验。具有代表性的有罗夏测验、主题统觉测验、自由联想测验和句子完成测验。四、按测验的方式分类（08年11月三级题） (一)个别测验指每次测验过程中是以一对一形式来进行的，即一次一个被试。这是临床上最常用的心理测验形式，如BinetSimon智力量表、Wechsler智力量表。其优点在于主试对被试的言语和情绪状态

12、有仔细的观察，并且有充分的机会与被试合作，所以其结果可靠。缺点是时间不经济，而且测验手续复杂，主试者需要较高的训练与素养。（二）团体测验指每次测验过程中由一个或几个主试者对较多的被试者同时实施测验。心理测验史上著名的陆军甲种和乙种测验都是团体测验。优点在于时间经济，主试者不必接受严格的专业训练即可担任。缺点为主试者对被试者的行为不能作切实的控制，所得结果不及个别测验可靠，故在临床上很少使用。五、按测验的要求分类（06年5月二级题） (一)最高作为测验要求被试者尽可能做出最好的回答，主要与认知过程有关，有正确答案。智力测验、成就测验均属最高作为测验。（二）典型行为测验要求被试者按通常的习惯

13、方式做出反应，没有正确答案。一般来说，各种人格测验均属典型行为测验。第四单元纠正错误的测验观一、错误的测验观（06年5月三级题）不客观态度大体分为两类：一是测验完美无缺，另一是测验无用且有害。 (一)测验万能论自测验问世以来，就有人认为心理测验可以解决一切问题，对测验甚至顶礼膜拜，奉若神明。（二）测验无用论其一，某些人格测验侵犯了个人隐私，违背民主原则。其二，测验为宿命论和种族歧视提供了心理学依据。如早期智力测验的结果表明，黑人的平均IQ低于白人的平均IQ，于是下结论说黑人确实比白人差。但这种观点很快就受到正直的心理学家的批评，他们指出这是因为常模中黑人太少所致。（三）心理测验即智

14、力测验心理测验=智力测验=智商(1Q)=遗传决定论。二、正确的测验现（07年5月三级题）(一)心理测验是重要的心理学研究方法之一，是决策的辅助工具除实验法以外，心理测验法的出现是心理科学发展史上的一大进步，是心理学研究中不可缺少的研究方法之一。有许多高级心理过程目前尚无法在实验室进行研究，心理测验就是很好的办法，它可以弥补实验法的不足。（二）心理测验作为研究方法和测量工具尚不完善心理测验的最大问题是理论基础不够坚实。比如，关于智力和人格的定义尚未争论清楚，还没有得到一个统一公认的定义，但智力测验和人格测验已被广泛使用。科学的态度是既要承认心理测验的不完善，又要科学地自信地使用心理测验。第五

15、单元心理测验在心理咨询中的应用心理咨询和治疗的有效性，有赖于对求助者心理特性、行为问题性质的正确评估和诊断，以便于提供适当的指导、帮助和行为矫正训练。因此，心理测验在心理咨询中有重要意义。心理门诊中运用较多的大致有这样3类心理测验：智力测验、人格测验以及心理评定量表。一、智力测验常用量表有：吴天敏修订的中国比内量表龚耀先等人修订的韦氏成人智力量表(WAISRC)、韦氏儿童智力量表(CWISC)和韦氏幼儿智力量表(CWYCSI)林传鼎等人修订的韦氏儿童智力量表(WISCCR)张厚粲主持修订的瑞文标准型测验(SPM)李丹等修订的联合型瑞文测验(CRT)等。二、人格测验应用较多的有：艾森克人格问

16、卷(EPQ)卡特尔16人格因素问卷(16PF)明尼苏达多项人格调查表(MMPl)等。人格测验有助于治疗者对求助者人格特征的了解，以便于对其问题有更深入的理解MMPI还有助于治疗者了解对方是否属于精神异常范围。三、心评定量表心理评定量表主要包括有精神病评定量表、躁狂状态评定量表、抑郁量表、焦虑量表、恐怖量表等。这类量表用法及评分简便，多用于检查对方某方面心理障碍的存在与否或其程度如何，并可反映病情的演变。心理测验是分析求助者心理问题的重要工具。它不但可以检验咨询人员的判断是否正确，还能帮助其对求助者的问题进行深入的分析。但作为咨询者，有一点必须明确，那就是心理测验在咨询和心理治疗过程中并不是必

17、不可少的一个环节，如果通过与咨询或治疗对象的交谈，对其问题已形成明确的看法，就可放弃不必要的心理测验。有时过多的使用还会影响咨询、治疗的过程和效果。心理测验应在咨询关系尚未建立之前实施，进入正式的心理咨询程序之后，要尽量避免心理测验。当然也有例外。咨询过程无法进行下去，咨询者也不知如何进行下去的时候，由心理测验的结果可以再次确认与求助者的咨询关系，这种情况下，心理测验最好由其他心理学工作者、专家实施。第六单元心理测量的发展史我国始于汉代、兴于隋唐的科举取士制度就被中外学者公认为世界上最早的心理测验的实践。在古希腊，测验作为教育的附加物，既测智力技能又测运动才干；在中世纪，欧洲的某些大学已开

18、始使用考试方法。科学的心理测验则是工业革命成功后的19世纪的欧洲发展起来的。一、科学心理测验的产生与发展首先倡导科学心理测验的学者是英国生物学家和心理学家高尔顿。他提出人的不同气质特点和智能是按身体特点的不同而遗传的。为了研究差异的遗传性，便设计了测量差异的方法。这虽然不是正式的心理测验，但可视为心理测验的开端。高尔顿也为心理测验奠定了统计学基础。他第一个提出了相关的概念，并由他的学生皮尔逊加以发展，创立积差相关法，这使判定心理测验的信度、效度和进行因素分析成为可能。对促进心理测验发展做出巨大贡献的是美国心理学家卡特尔。1890年，卡特尔在心理杂志上发表心理测验与测量一文，这是心理测验第一

19、次出现于心理学文献中。卡特尔写到：“心理学若不立足于实验与测量上，决不能够有自然科学之准确性。”又说：“心理测验如果有一个普遍的标准，则其科学的与实用的价值都可以增加。”1904年，法国教育部委派许多教育家、医学家和其他科学家组成一个委员会，专门研究公立学校中智力落后儿童的教育方法。作为委员之一，比内(Binet)极力主张用一种测验的方法去辨别和发现智力落后的儿童。经过他与助手西蒙(Simon)的精心研究，次年在心理学年报上发表了一篇文章，题为诊断异常儿童智力的新方法，在这篇文章中他介绍了一个包括30个项目的量表。这个量表很粗糙，但它在心理测验史上极其重要，是世界上第一个正式的心理测验（09年

20、11月三级题）。纵观心理测验的发展，19世纪80年代是高尔顿的十年90年代是卡特尔的十年20世纪头十年则是比内的智力测验的十年心理测验主要有以下几个方面的发展：1.操作测验的发展：由于理论上的缺陷和实际上的需要，所以就有操作测验的问世和发展。 2.团体智力测验的发展：个别测验每次只能测查一个人，这在时间上是很不经济的。而运用团体测验则在同一时间可以测量许多被试，这是心理测验方式的极大进步，也扩大了测验的应用范围。团体测验始于第一次世界大战，在推孟的研究生奥蒂斯所编团体测验的基础上编制出陆军甲种和乙种智力测验，广泛用于美国军队对官兵选拔和分派兵种的需要。3.能力倾向测验的发展：20世纪30年

21、代是因素分析盛行的十年，在此期间多项能力倾向测验被编制出来，这些测验为分析个人心理品质的内部结构提供了适用的工具，并逐渐受到人们重视。普通能力倾向(智力)测验也向多元化发展。在这里要特别提及韦克斯勒所编的学前儿童、学龄儿童和成人智力量表，他将智力量表分为言语和操作两部分，而每个部分又包含有不同的分测验，这样不仅可计算IQ总分，也可区分智力的不同侧面。 4.人格测验的发展：心理测验的另一领域是涉及情感或行为等非智力方面的人格评估，通常包括对性格、气质、情绪状态、人际关系、动机、兴趣和态度的测量。1920年问世的罗夏测验(Rorschach test)则是投射测验的发端。自40年代后，人格测验逐渐

22、增多，并在技术上得到改进，如明尼苏达多相个性调查表(MMPl)、16种个性因素问卷(16PF)、艾森克个性问卷(EPQ)等。二、现代心理测验在我国的发展我国近代心理测验大约源于1914年前后。二十世纪二三十年代，我国心理学家曾两次修订过比内西蒙量表。但自此之后的几十年间，我国的心理测验工作由于多种原因一直处于停顿状态。1979年后，全国各地的心理学家组织起多个协作组，先后对国外广泛采用的智力和人格测量工具进行修订。近些年来我国的心理学家正在致力于测验本土化，编制适合我国文化背景的智力测验、适应行为量表等，并已取得了初步成果。第二节测验的常模第一单元常模团体一、常模团体的性质常模团体是由具有

23、某种共同特征的人所组成的一个群体，或者是该群体的一个样本。在制定常模时，首先要确定常模团体，在对常模参考分数作解释时，也必须考虑常模团体的组成。对测验编制者而言，常模的选择主要是基于对测验将要施测的总体的认识，常模团体必须能够代表该总体。包括：确定一般总体、确定目标总体、确定样本。例如研究大学生的价值观问题，其一般总体就是大学生；而目标总体是计划实施的对象，如计划实施的各大学的大学生；样本的选取则必须根据总体的性质（性别、年龄、专业、家庭背景等），找一个有代表性的样本来代表目标总体，也代表一般总体。满足所有条件后才可称为常模样本，才真正具有代表性。对测验的使用者来说，要考虑的问题是，现有的常

24、模团体哪一个最合适。因为标准化测验通常提供许多原始分数与各种常模团体的比较转换表，被试的分数必须与合适的常模比较。例如在进行人员安置时，同一个测验分数就可与各种不同工种的常模进行比较。无论是测验编制者还是测验使用者，主要关心的是常模团体的成员。成就测验和能力倾向测验，适当的常模团体包括目前和潜在的竞争者；比较广泛的能力与性格测验，常模团体通常也包括同样年龄或同样教育水平的被试。在某些情况下，人的许多方面如性别、年龄、年级或教育水平、职业、社会经济地位、种族等都可以作为定义常模团体的标准。二、常模团体的条件(一)群体的构成必须明确界定在制定常模时，必须清楚地说明所要测量的群体的性质与特征。可以用

25、来区分和限定群体的变量是很多的，如性别、年龄、职业、文化程度、民族、地理地域、社会经济地位等。在群体内部也许有许多小团体，它们在一个测验上的作为也时常有差异。假如这种差异较为显著，就必须为每个小团体分别建立常模。例如在机械能力倾向测验上，男性通常比女性做得好些；而相反，在文书能力倾向测验上，女性分数高于男性。因此在这类测验上通常分别提供男性和女性的常模。（二）常模团体必须是所测群体的代表性样本当所要测量的群体很小时，将所有的人逐个测量，其平均分便是该群体的最可靠的常模。但在群体较大时，因为时间和人力物力的限制，只能测量一部分人作为总体的代表，这就提出了取样是否适当的问题。在实际工作中，由于从某

26、些团体中较容易获得常模资料，所以存在着取样偏差的可能性。例如从城市收集样本就比从农村容易。（三)样本的大小要适当一般来说，取样误差与样本大小成反比，所以在其他条件相同的情况下，样本越大越好，但也要考虑具体条件（人力、物力、时间）的限制。在实际工作中，应从经济的或实用的可能性和减少误差这两方面来综合考虑样本的大小。总体数目小，只有几十个人，则需要100的样本。如果总体数目大，相应的样本也大，一般最低不小于30或100个（07年5月三级题）。全国性常模，一般应有2000-3000人为宜。样本大小适当的关键是样本要有代表性（06年11月二级题、08年11月二级题、 08年5月二级题）。（四）标准化

27、样组是一定时空的产物在一定的时间和空间中抽取的标准化样组，只能反映当时当地的情况。随着时间的推移，地点的变更，标准化的样组就失去了标准化的意义。这样常模就不适合现时现地的状况，必须定期修订。在选择合适常模时，要注意选择较为新近的常模。三、取样的方法（06年5月二级题）取样即从目标人群中选择有代表性的样本。（08年11月三级题）取样的方法有随机抽样和非随机抽样两种。前者是根据随机原则进行，而后者则没有随机性。随机原则是从总体中取样时，所取个案不是人为地主观决定的，每个个案被抽取的机会均等。 (一)简单随机抽样按照随机表顺序选择被试构成样本，或者将抽样范围内的每个人或者每个抽样单位编号，再

28、随机选择，可以避免由于标记、姓名、性别或其他社会赞许性偏见而造成抽样误差。在简单随机抽样中，每个人或抽样单位都有相同的机会作为常模中的一部分。（二)系统抽样在总体数目为N的情况下，若要选择K分之一的被试作为样本，则可在抽样范围内选择每个第K个人来构成样本。例如K为2，则样本为总体的一半；若K是20，则样本为总体的5。K为组距：K=Nn，若要抽取121名学生中的40人作为样本调查，则K=121403，可分40段。一般系统化样本中，第一个第K个人从哪里数起是随机的，如抽12的人为样本，从第5个人数起，则第二个第K个人就是第7个人，再就是第9个人，第11个人，第13个人系统抽样要求目标总体无序可排，

29、也无等级结构存在（06年11月二级题、09年5月二级题）。如果发现排列有某种内部循环规律存在，就不能如此进行了。如像军队那样，每8人为一班，若抽取18的人为样本，而且从部队花名册的第一人数起，那么被抽的全都是班长，因为班长在每班都排在第一位，这样的样本没有代表性。（三)分组抽样总体数目较大，无法进行编号，而且群体又有多样性，这时可以先将群体进行分组，再在组内进行随机取样。例如，在全国取样，可以先按行政区域划分组，再在组内依照一定的性质进行归类，然后从各类中按随机抽取样本，就是分组抽样。(四)分层抽样在确定常模时，最常用的是分层抽样方法。它是先将目标总体按某种变量(如年龄、文化程度)分成若干层次

30、，再从各层次中随机抽取若干被试，最后把各层的被试组合成常模样本。分层抽样能够避免简单随机抽样中样本集中于某种特性或缺少某种特性的现象。它使各层次差异显著，同层次保持一致，增加了样本的代表性。分层抽样：分层比例抽样和分层非比例抽样。四、常模与常模分数（一)常模常模是一种供比较的标准量数，由标准化样本测试结果计算而来，它是心理测验时用于比较和解释测验结果的参照分数标准。常模有：全国常模、区域常模和特殊常模；根据具体应用标准和分数特征：百分位常模、标准分常模。 (二)常模分数常模分数就是施测常模样本后，将被试者的原始分数按一定规则转换出来的导出分数。（08年11月三级题、09年5月二级题）做了E

31、PQ，得到四个分数：E（内外向）=20，P （精神质） =8，N （情绪稳定性） =12，L=7，这些就是原始分数。它是通过将被试者的反应与标准答案相比较而获得的测验分数叫原始分数，是从测验中直接获得的。原始分数本身没有多大意义，比如上面提到的E=20，是什么意思？我们知道E表示艾森克人格问卷(EPQ)中的内、外向分量表，但是20究竟说明什么？它表示内向还是外向？这时我们必须有一个参照标准才行。在心理测验中，这种由原始分数构成的分布转换而来的分数，叫导出分数。导出分数具有（07年5月二级题）一定的参照点和单位，它实际上是一个有意义的测验量表，它与原始分数等值，可以进行比较。从原始分数转换为导

32、出分数时，既要根据原始分数的分布特点，又要按照现代数理统计方法的基本原理，才能转换出有意义、等单位、带参照点的导出分数。第二单元常模的类型一、发展常模人的许多心理特质如智力、技能等，是随着时间以有规律的方式发展的，所以可将个人的成绩与各种发展水平的人的平均表现相比较。根据平均表现所制成的量表就是发展常模，亦称年龄量表。在此量表中，个人的分数指出他的行为在按正常途径发展方面处于什么样的发展水平。（ 08年11月二级题）(一)发展顺序量表最直观的发展常模是发展顺序量表，因为它告诉人们多大的儿童具备什么能力或行为就表明其发育正常，相应能力或行为早于某年龄出现，说明发育超前，否则即为发育滞后。最早的

33、一个范例是葛塞尔发展程序表，其中按月份显示儿童在运动水平、适应性、语言、社会性四个方面的大致发展水平。葛塞尔强调早期行为的发展是有规律的，如婴儿的感觉运动发展是这样：4周，能控制眼睛运动，去追随一个对象看；16周，能使头保持平衡；28周，能用手抓握东西并玩弄它；40周，能控制躯干、坐立或爬行；52周，能控制腿脚运动、站立和行走。自60年代开始，瑞士心理学家皮亚杰的发展理论引起了人们的重视。皮亚杰的研究着重于从婴儿到十多岁儿童认知过程的发展，尤其注重某些特殊概念的形成，其中最著名的工作就是对守恒概念的研究。守恒是指这样一种认识：两种等量的物体只要无增无减，无论怎样改变组合，它们在质量、重量、长度

34、、数量及容量等方面仍然是相等的。皮亚杰发现，通常儿童到5岁时才会理解质量守恒；6岁才会掌握重量守恒；7岁时才有容量守恒概念。后来，有人把皮亚杰在研究中所采用的一些作业和问题组织成标准化量表，用来研究儿童在某一发展水平的特性，以提供儿童实际能做什么的信息。（二)智力年龄比内西蒙量表中首先使用智力年龄的概念。（09年11月三级题）例如，某题若被大多数7岁儿童通过，则该题放在7岁水平，8岁儿童大多数能回答的题目则放在8岁水平。如果为每个年龄水平都编制一些适当的题目，便可得到个评价儿童智力发展水平的年龄量表。一个儿童在年龄量表上所得的分数，就是最能代表他的智力水平的年龄。这种分数叫做智力年龄，简称

35、智龄。智龄是年龄量表上度量智力的单位。求智龄的方法很简单，只要将儿童在测验上的分数与各年龄组的一般儿童比较，便可给予一个年龄分数。例如在吴天敏修订的比内西蒙量表中，每个年龄都有6个测题，答对每题则得智龄2个月。假如某儿童6岁组的题目全部通过，7岁组通过4题，8岁组通过3题，9岁组通过2题，其智龄为：6(岁) +42(月) +32(月) +22(月)=6岁+18月=7岁6个月。（ 08年5月二级题）另外一种计算智力年龄的方法是不把题目分到各年龄组。在这种情况下，首先根据被试在整个测验中正确反应的题数或反应时间而得一原始分数，而将标准化样本中每个年龄组的平均原始分数作为年龄常模。通过将原始分数与年

36、龄常模对比，便可求得每个人的智龄。例如某个儿童的原始分数等于8岁组的平均分数，则其智力年龄就是8岁。 (三)年级当量年级当量就是年级量表，测验结果说明属哪一年级的水平，在教育成就测验中最常用。如常模样本中6年级的算术平均分为35，某儿童在算术测验中也得35分，那么就有“该儿童的算术是6年级水平”的表述。年级量表的单位通常为10个月间隔，在一学年中假设两个月的假期在所测量目标上的发展是不重要的，因此以10个月为一个年级。例如，40(或40)表示四年级开始时的平均成绩，45(或45)表示学年中间的平均成绩。二、百分位常模百分位常模包括百分等级和百分点、四分位数和十分位数。 (一)百分等级百分等级是

37、应用最广的表示测验分数的方法。一个测验分数的百分等级是指在常模样本中低于这个分数的人数百分比。例如，85的百分等级表示在常模样本中有85的人比这个分数要低。百分等级的计算关键在于确定在常模团体中分数低于某一分数的人数比例，分两种情况：一种是未分组资料的百分等级计算，公式为： PR=100-（100R-50）/N其中R是原始分数排列顺序数，N是指总人数（样本的总人数)。例如小东在30名同学中语文成绩是80分，排列第五名，则其百分等级为：PR=100-（1005-50）/30=85百分等级为85是指，在100名被试中，语文成绩低于80分的有85人。另一种是分组资料的百分等级求法，虽然计算方法不同

38、，但其百分等级的意义与未分组资料一样。(二)百分点百分点也称百分位数，百分等级是计算低于某测验分数的人数百分比，百分点则是计算处于某一百分比的人对应的测验分数是多少。比如我们要挑选得分高的20的被试，我们就必须求出相当于80百分等级的测验分数。百分点的计算可根据直线内插法进行。例如，高考的最高分为695，其百分等级为100，最低分为103分，百分等级为1，要录取20的学生进入大学，百分等级为80的百分位数(PP)可以用下式计算得出：（100-80）/（695-PP）=（80-1）/（PP-103），得PP=575所以，如果想知道在全国录取20的考生，总分数线就该为575分。不管测验分数是否分组

39、均可以用直线内插法计算出百分点。 (三)四分位数和十分位数四分位数和十分位数只是百分位数的两个变式，其含义相似。四分位数是将量表分成四等份，相当于百分等级的25、50和75对应的三个百分分成的四段。十分位数也可以依此类推出，110为第一段，（ 08年11月二级题） 91100为第十段。三、标准分常模标准分常模是将原始分数与平均数的距离以标准差为单位表示出来的量表。因为它的基本单位是标准差，所以叫标准分数。常见的标准分数有：z分数、Z分数、T分数、标准九分数、离差智商(1Q)等。（09年11月三级题）标准分数可以通过线性转换（09年5月二级题），也可以通过非线性转换得到，由此可将标准分数

40、分为两类： (一)线性转换的标准分数根据定义，可通过下式将原始分数转换成标准分数： z=（X-X）/SD其中X为任一原始分数，X为样本平均数，SD为样本标准差（06年11月三级题）。由于在z分数中经常出现小数点和负数，而且单位过大，计算和使用很不方便，所以通常需要将z分数转换成另一种形式的量表分数。这一转换形式为： Z=A+Bz 这里Z为转换后的标准分数，A、B为根据需要指定的常数。加上一个常数是为了去掉负值，乘以一个常数是为了使单位变小从而去掉小数点（06年5月三级题）。加或乘一个常数并不改变原来分数间的关系。 (二)非线性转换的标准分数当原始分数不是常态分布时，也可以使之常态化，这一转

41、换过程就是非线性的（06年11月二级题）。常态化过程主要是将原始分数转化为百分等级，再将百分等级转化为常态分布上相应的离均值，并可以表示为任何平均数和标准差。（ 08年11月二级题、 08年5月二级题）计算步骤如下：1.对每个原始分数值计算累积百分比；2.在常态曲线面积表中，求出对应于该百分比的z分数。所得的z分数可将分布分成几部分，称之为z分数，以区别由线性转换所求得的z分数。常态化标准分数可以转换成任何方便的形式。当以50为平均数（即加上一个常数50)，以10为标准差(乘以一个常数10)来表示时，通常叫做T分数（由麦柯尔最早使用），即： T=50+10z 标准九分是另一较知名的标准分数系统

42、，其量表是个9级的分数量表。它是以5为平均数，以2为标准差的一个分数量表，最早时广泛应用于美国空军和某些教学情境中的分级。标准十分和标准二十分。前者平均数为5，标准差为1.5 （06年5月三级题）；后者平均数为10，标准差为3。（08年11月三级题）而其中使用最广、影响最大的一种常态化标准分数则是离差智商。四、智商及其意义在最早的比内西蒙智力测验中没有智商的概念，只用“心理年龄”(mental age，简称MA)来表示被试智力的高低。具体地说，比内西蒙量表以题目的难度按年龄分组，3岁儿童中约有50能通过的题目作为3岁组题目，4岁儿童中约有50能通过的题目作为4岁组题目，依次类推。通过测验知道

43、了被试所能全部通过的最终题目组以及部分通过的题目组的题目数，就可以累加算出心理年龄。若心理年龄高于其生理年龄，则智力较一般儿童高，若心理年龄低于其生理年龄，则智力较一般儿童低。单纯用心理年龄来表示智力高低的方法缺乏不同年龄儿童间的可比性。(一)比率智商比内西蒙量表传人美国后，斯坦福大学推孟教授于1916年对其修订而成斯坦福比内量表。它在心理年龄的基础上，以智商表示测验结果，即以后所说的比率智商。比率智商(IQ)被定义为心理年龄(MA)与实足年龄(CA)之比。 IQ= MA / CA 100比率智商提出后，普遍被心理学界和医学界所接受。但由于个体智力增长是个由快到慢再到停止的过程，即心理年龄与实

44、足年龄并不同步增长，所以比率智商并不适合于年龄较大的被试；（ 08年11月二级题）另外，由于不同年龄组儿童的比率智商分布的情况是不一样的，因而相同的比率智商分数在不同年龄就具有不同意义。 (二)离差智商离差智商是一种以年龄组为样本计算而得的标准分数，为使其与传统的比率智商基本一致，韦克斯勒将离差智商的平均数定为100，标准差定为15（07年5月三级题、08年11月三级题）所以离差智商建立在统计学的基础之上，它表示的是个体智力在年龄组中所处的位置（07年5月二级题），是表示智力高低的一种理想的指标。具体公式如下：IQ=100+15z=100+15(X-X)/SD （06年5月三级题）由于离差智商

45、的提出，过去曾使用比率智商的许多测验在后来也使用了离差智商，如在1960年修订的斯比测验中，就使用的是平均数为100，标准差为16 （09年11月三级题）的标准分数量表。必须指出，从不同测验获得的离差智商只有当标准差相同或接近时才可以比较，标准差不同，其分数的意义便不同。第三单元常模分数的表示方法一、转换表法最简单而且最基本的表示常模的方法就是转换表，有时也叫常模表（06年5月三级题）。一个转换表显示出一个特定的标准化样组的原始分数与其相对应的等值分数百分位、标准分数、T分数或者其他任何分数。测验的使用者利用转换表可将原始分数转换为与其对应的导出分数，从而对测验的分数作出有意义的解释。简单的

46、转换表就是将单项测验的原始分数转换成一种或几种导出分数。如表52所示。复杂的转换表通常包括几个分测验或几种常模团体的原始分数与导出分数的对应关系。如表53为几个分测验的常模转换表，包括大学生常模中男、女生的常模，而且男、女常模中各是相同的四个分测验，因而也是分测验常模。二、剖面图法剖面图是将测验分数的转换关系用图形表示出来。从剖面图上可以很直观地看出被试在各个分测验上的表现及其相对的位置。现以韦克斯勒儿童智力量表的记录纸上的剖面图来说明。见图51。现简略解释一下：总的来讲该生智商在平均以上，从智力结构上讲该生言语智商相当高，操作智商一般。对于某些特殊的群体，情况很具体而特殊，就需要制定特殊常

47、模。第三节测验的信度信度是评价一个测验是否合格的重要指标之一，也是标准化心理测验的基本要求之一。用同一个心理测验测量同一个被试，如果今天所测的结果与明天所测的结果相差悬殊，那么测验就不会有人运用它。第一单元信度的概念一、信度的定义信度是指同一被试者在不同时间内用同一测验(或用另一套相等的测验)重复测量，所得结果的一致程度。（09年11月三级题）如果一个测验在大致相同的情况下，几次测量的分数也大体相同，便说明此测验的性能稳定；反之，几次测量的分数相差悬殊，便说明此测验的性能不稳，信度低。信度只受随机误差的影响（07年5月三级题）（08年11月三级题）。随机误差越大，信度越低。因此，信度

48、亦可视为测验结果受机遇影响的程度。系统误差产生恒定效应，不影响信度。在测量理论中，信度被定义为：一组测量分数的真分数方差与总方差(实得分数的方差)的比率。即：rxx= ST2/ Sx2信度也可以看作在总的方差中非测量误差的方差所占的比例。二、信度的指标 (一)信度系数与信度指数信度是以信度系数为指标，它是一种相关系数。常常是同一被试样本所得的两组资料的相关，理论上说就是真分数方差与实得分数的方差的比值，公式是： rxx=rxt2= ST2/ Sx2 公式中的rxt是真分数标准差与实得分数的标准差的比值，称信度指数。rxt= ST/ Sx可见信度指数的平方就是信度系数。(二)测量标准误公式：公式

49、中SE为测量的标准误，Sx 是所得分数的标准差，rxx为测验的信度系数。测量的标准误与信度之间有互为消长的关系：信度越高，标准误越小；信度越低，标准误越大（06年11月二级题）。第二单元信度评估的方法对信度的评估方法是没有通用法则的，每一种信度系数只能说明信度的不同方面，因而具有不同的意义。一、重测信度又称稳定性系数。它的计算方法是采用重测法，即使用同一测验，在同样条件下对同一被试者前后施测两次测验，求两次得分间的相关系数（06年11月三级题）。由于人的多数心理特征如智力、性格、兴趣等，具有相对的稳定性，间隔一段时间，不会有很大变化。如果两次测验结果所得的分数差别较大，说明此测验未能反映较

50、稳定的心理特征，而受了随机变量的影响。用重测法估计信度的优点在于能提供有关测验是否随时间而变异的资料，可作为被试将来行为表现的依据。缺点是易受练习和记忆的影响。如果两次施测时间太短，练习的影响较大；如果相隔的时间太长，则身心的发展与学习经验的积累等足以改变测验分数的意义，而使相关降低。最适宜的时距随测验的目的、性质和被试特点而异，一般是两周到四周较宜，间隔时间最好不超过六个月。二、复本信度又称等值性系数。它是以两个等值但题目不同的测验(复本)来测量同一群体，然后求得被试者在两个测验上得分的相关系数，这个相关系数就代表了复本信度的高低。复本信度反映的是测验在内容上的等值性，故又称等值性系数（

51、06年5月二级题）。在应用上，应该有半数的被试先做A本再做B本，另一半被试先做B本再做A本，由此可以抵消施测顺序的效应。复本信度也要考虑两个复本实施的时间间隔。如果两个复本几乎是在同一时间内施测的，相关系数反映的才是不同复本的关系，而不掺有时间的影响。如果两个复本的施测相隔一段时间，则称重测复本信度或稳定与等值系数。（09年5月二级题）稳定与等值系数既考虑了测验在时间上的稳定性，也考虑了不同题目样本反应的一致性。复本信度的优点是能够避免重测信度的一些问题，如记忆效果、学习效应等。局限性：其一，如果测量的行为易受练习的影响，则复本信度只能减少而不能完全消除这种影响；其二，由于第二个测验只改变了

52、题目的内容，已经掌握的解题原则，可以很容易地迁移到同类问题。最后，对于许多测验来说，建立复本是十分困难的。三、内部一致性信度重测信度和复本信度主要考察了测验跨时间的一致性和跨形式的一致性，而内部一致性信度系数主要反映的是题目之间的关系，表示测验能够测量相同内容或特质的程度。 (一)分半信度分半信度指采用分半法估计所得的信度系数。这种方法估计信度系数只需一种测验形式，实施一次测验。在测验实施后将测验按奇、偶数分为等值的两半，并分别计算每位被试在两半测验上的得分，求出这两半分数的相关系数。这个相关系数就代表了两半测验内容取样的一致程度，因而属于内部一致性信度系数。计算分半信度可以采用常用的积差相关

53、方法。但是这种相关系数实际上只是一半测验项目的相关系数，而再测信度和复本信度却都是根据所有项目分数求得的。在其他条件相同的情况下，测验越长，信度越高。因而分半法经常会低估信度，必须修正。 (二)同质性信度同质性主要代表测验内部所有题目间的一致性（06年11月三级题）。当各个测题的得分有较高的正相关时，不论题目的内容和形式如何，则测验为同质的。相反，即使所有题目看起来好像测量同一特质，但相关很低或为负相关时，则测验为异质的。对于一些复杂的、异质的心理学变量，采用单一的同质性测验是不行的，因而常常采用若干个相对异质的分测验，并使每个测验内部具有同质性，这样每个分测验就能用来预测异质效标的某一方面

54、。四、评分者信度用于测量不同评分者之间所产生的误差。为了衡量评分者之间信度高低，随机抽取若干份测验卷，由两位评分者按评分标准分别给分，然后再根据每份测验卷的两个分数计算相关，即得评分者信度。一般要求在成对的受过训练的评分者之间平均一致性达0.90以上，才认为评分是客观的（07年5月三级题）。当多个评分者评定多个对象，并以等级法记分时，可采用肯德尔和谐系数(w)作为评分者信度的估计。实际上有多少误差的来源，便有多少估计信度的方法。在考察测验的信度时，应根据情况采用不同的信度指标，原则上一个测验哪种误差大，便应该用哪种误差估计。有时一个测验需要有几种信度系数。第三单元信度与测验分数的解释一、解释

55、真实分数与实得分数的相关信度系数可以解释为总的方差中有多少比例是由真实分数的方差决定的，也就是测验的总变异中真分数造成的变异占百分之几。例如，当rxx=0.90时，我们可以说实得分数中有90的变异是真分数造成的，仅10是来自测验的误差。在极端的情况下，如有rxx =1.00，则表示完全没有测量误差，所有的变异均来自真实分数；若有rxx =0，则所有的变异和差别都反映的是测量误差。应该注意的是，信度系数的分布是从0.00到1.00的正数范围。二、确定信度可以接受的水平最理想的情况是rxx =1.00，但实际上是办不到的。根据多年的研究结果，一般的能力测验和成就测验的信度系数都在0.90以上，有的

56、可以达0.95；而人格测验、兴趣、态度、价值观等测验的信度一般在0.800.85或更高些。一般原则是：当rxx 0.70时，测验不能用于对个人做出评价或预测，而且不能作团体比较；当0.70rxx0.85时，可用于团体比较；当rxx0.85时，才能用来鉴别或预测个人成绩或作为。另一原则是：新编的测验信度应高于原有的同类测验或相似测验。获得较高的信度系数并不是心理测验追求的最终目标。三、解释个人分数的意义从信度可以解释个人分数的意义，这就是测量标准误的应用。它有两个作用：其一是估计真实分数的范围；其二是了解实得分数再测时可能的变化情形。测量标准误可以通过第一次测验的结果及信度估计得到： (公式55

57、)式中，SE为测量标准误，SX为所得分数的标准差，rxx为测验的信度。知道了一组测量的标准差和信度系数，就可以求出测量的标准误。进步可以从每个人的实得分数估计出真分数的可能范围，即确定出在不同或然率水平上真分数的置信区间。人们一般采用95的或然水平，其置信区间为：大约有95的可能性真分数落在所得分数1.96SE的范围内，或有5的可能性落在范围之外。这实际上也表明了再测时分数改变的可能范围。假设在一个智力测验中，某个被试的IQ为100，已知该智力测验的标准差为15，信度系数为0.84，则其IQ的测量标准误和可能范围分别为：这个被试的真实IQ有95的可能性落在88与112之间。即若再测次，他的智商

58、低于88、高于112的可能性不超过5。四、比较不同测验分数的差异测量标准误和测验信度在评价两个不同测验的分数是否有明显差异时也非常重要。这种比较包括两个人不同分数的差别和同一被试在两个测验上的差别。这就是差异分数的标准误问题。其公式为：式中SEd为差异的标准误，S代表两个测验使用的标准差，这个标准差要求相同，因为只有在两个分数具有相同的单位时才可以比较。例：某被试在韦氏成人智力测验中言语智商为102，操作智商为110。已知两个分数都是以100为平均数，15为标准差的标准分数。假设言语测验和操作测验的分半信度分别为0.87和0.88。问其操作智商是否显著高于言语智商？首先计算出差异分数的标准误

59、：在统计上，经常要求两个分数的差异程度达到0.05的显著水平，才能承认不是误差的影响。因此，将差异标准误(7.5)乘以1.96，结果为14.7，这表明个体在韦氏测验两半得分的差异高于大约15分，才能达到0.05显著水平。上述被试的差异分数110102=8是不显著的。第四单元影响信度的因素一、样本特征信度常用信度系数来表示，信度系数就是相关系数，相关系数受样本是否异质及样本团体平均能力水平的影响。(一)样本团体异质性的影响任何相关系数都要受到团体中分数分布的范围的影响，一般而言，若获得信度的取样团体较为异质的话，往往会高估测验的信度（06年11月二级题）（07年5月二级题），相反则会低估测验

60、的信度。在同质团体中，被试两次测验成绩差异主要受随机误差的影响，这次可能甲高于乙，下次可能乙高于甲，偶然性很大，因此相关极低。在异质团体中，如被试既有白痴又有天才，能力高者两次分数都高，能力低者两次分数都低，虽然处在同一水平的被试其分数也受机遇影响，但从总体上来看，两次分数的相关是很高的，因此信度就高。 (二)样本团体平均能力水平的影响测验的信度也会由于不同团体间平均能力水平的不同而不同。这是因为，对于不同水平的团体，题目具有不同的难度，每个题目在难度上的微小差异累计起来便会影响信度（06年5月二级题、09年5月二级题）。例如，在斯坦福比内量表中，不同年龄和不同难度水平的信度从0.83到0

61、.98不等。在这些测验中，对年幼者和能力水平较低者，其信度值相对较低，因为他们的分数基本上是凭猜测获得的。故一般对这样的被试不宜使用选择题测验。在编制测验时，应把常模团体按年龄、性别、文化程度、职业等分为更同质的亚团体，并分别报告每个亚团体的信度系数，这样测验才能适用于各种团体。二、测验长度测验长度，亦即测验的数量，也是影响信度系数的一个因素。一般来说，在一个测验中增加同质的题目，可以使信度提高。（ 08年11月二级题）第一，测验越长，测验的测题取样或内容取样就越有代表性。第二，测验越长，被试的猜测因素影响就越小。题目数量多，在每个题目上的随机误差互相抵消，好比投篮，投一次有偶然性，投100

62、个其命中率就基本上反映了一个人的稳定水平。增加测验长度的效果应遵循报酬递减率原则，测验过长是得不偿失的，有时反而会引起被试的疲劳和反感而降低可靠性。三、测验难度难度对信度的影响，只存在于某些测验中，如智力测验、成就测验、能力倾向测验等，对于人格测验、兴趣测验、态度量表等不存在难度问题，因为这些测验的题目没有正确或错误答案之分。就难度与信度间的关系而言，并没有简单的对应关系。从理论上说，只有平均难度水平为50时，才能使测验分数分布范围最大，求得的信度也最高。四、时间间隔时间间隔只对重测信度和不同时测量时的复本信度（重测复本信度)有影响，对其余的信度来说不存在时间间隔问题。以再测法或复本法求信度

63、，两次测验相隔时间越短，其信度系数越大（07年5月三级题）（06年5月二级题）；间隔时间越久，其他变因介入的可能性越大，受外界的影响也越大，信度系数便越低。第四节测验的效度第一单元效度的概念一、效度的定义在心理测验中，效度是指所测量的与所要测量的心理特点之间符合的程度，或者简单地说是指一个心理测验的准确性。（08年11月三级题）效度是科学测量工具最重要的必备条件，一个测验若无效度，则无论其具有其他任何优点，一律无法发挥其真正的功能。测量的效度除受随机误差影响外，还受系统误差的影响。可信的测验未必有效，而有效的测验必定可信。信度是效度的必要条件而非充分条件,效度是受信度制约的。二、效度

64、的性质 (一)相对性任何测验的效度是对一定的目标来说的，或者说测验只有用于与测验目标一致的目的和场合才会有效。每种测验各有其功能与限制，世上没有一种对所有目的都有效的测验，也没有一个测验编制者能把所有的心理特性都包含在他的一套测验之中。因此，我们不能笼统地说某测验有没有效，而应说它对测量什么有没有效。 (二)连续性测验效度通常用相关系数表示，它只有程度上的不同，而没有“全有”或“全无”的区别。因此，我们评价一个测验时，不应该说“有效”或“无效”，而应该用效度较高或较低来评价。比如我们用尺子来测量人的腰围，从而衡量体重，一定程度上也是可以的。当然准确性会差些，即效度会较低，因为体重重的，一般腰围

65、也粗些。另外，效度是针对测验结果的。第二单元效度评估的方法美国心理学会在1974年所发行的教育与心理测量之标准一书中将效度分为三大类：即内容效度、构想效度和效标效度。一、内容效度 (一)什么是内容效度内容效度指的是测验题目对有关内容或行为取样的适用性，从而确定测验是否是所欲测量的行为领域的代表性取样。若测验题目是行为范围的好样本，则推论将有效；若选题有偏差，如在智力测验中包括了许多与智力无关的测验题目，则推论将无效。想编制有较高内容效度的心理测验，首先要对所测量的心理特性有个明确的概念，并划定出哪些行为与这种心理特性有关，又较密切。这就需要通过查阅大量资料，观察及询问来发现究竟哪些行为是受这

66、种心理特性所制约。例如要测定人的“忧虑性”，就要对忧虑性概念有个明确的内容范围，然后从临床观察、病人自述、医生笔记以及文献报道中了解到具有忧虑性的人具有哪些行为特点，并通过自己的观察及调查加以验证，从而明确编制测量人的“忧虑性”的测验。其次，测验题目应是所界定的内容范围的代表性取样。有人在编制测验时不注意取样策略，哪方面内容编起来容易，哪方面题目就占较大比例，这样会影响测验的内容效度。要求内容效度的测验，并不一定要求测验为同质的。例如智力测验通常包括各种能力与技能。 (二)内容效度的评估方法（07年5月三级题）1专家判断法为了确定一个测验是否有内容效度，最常用的方法是请有关专家对测验题目与原

67、定内容的符合性做出判断，如果专家认为测验题目恰当地代表了所测内容，则测验具有内容效度。由于这种估计效度的方法，是一个逻辑分析的过程，所以内容效度有时又称“逻辑效度”。步骤： (1)定义好测验内容的总体范围； (2)编制双向细目表； (3)制定评定量表来测量测验的整个效度。（09年5月二级题） 2统计分析法内容效度的确定也可采用一些统计分析方法。例如计算两个评分者之间评定的一致性，虽然考察的是评分者的判断信度，但由于来自两个独立的评判者，因此符合程度越高越能反映测验的内容效度。克伦巴赫提出，内容效度可由一组被试在独立取自同样内容范围的两个测验复本上得分之相关来作估计。若相关低，说明二者至少有一

68、个缺乏内容效度；若相关高，一般可推论测验有内容效度。再测法也可用于内容效度的评估。先让一组被试在学习有关课程内容之前进行测验，当被试学习了这些课程之后用同样测验再施测一次，如果成绩提高较大，说明测验具有较高的内容效度。3.经验推测法这种效度是通过实践来检验效度，如儿童发展量表是否有效，经过对不同年龄阶段的儿童进行调查，然后分析其结果，观察不同年龄阶段的儿童对每个题目的反应是否依年龄的发展而有所不同，如果通过率是随着年龄的增加而增加，就可以推测该测验有内容效度。(三)内容效度的特性内容效度是根据具体情况分析得来。如果测验分析者和测验使用者定义的内容范围相同，则编制者报告的内容效度对使用者而言是

69、有意义的，否则就没有意义。此外，内容效度也有时间上的特定性，适合过去总体的代表性测验，未必符合现在的总体。表面效度是由外行对测验作表面上的检查确定的，它不反映测验实际测量的东西，只是指测验表面上看来好像是测量所要测的东西。内容效度是由够资格的判断者(专家)详尽地、系统地对测验作评价而建立的。虽然二者都是根据测验内容做出的主观判断，但判断的标准不同。在编制测验时，表面效度是一个必须考虑的特性。例如，最高行为的测验要求有较高的表面效度（06年11月三级题），以使被试者有较强的动机，尽最大努力去完成。如果测验内容看起来与测量目标和要做的决定不相干，就会使被试者产生不配合、马马虎虎、应付了事等反应，

70、而影响测验的效度。典型行为测验却要求较低的表面效度。如果被试者很容易从测验题目看出测验的目的，就可能产生反应偏差(如掩饰等)。二、构想效度 (一)什么是构想效度构想效度的概念是1954年提出来的，有人也翻译成构思效度，还有人叫结构效度。它主要涉及的是心理学的理论概念问题，是指测验能够测量到理论上的构想或特质的程度，即测验的结果是否能证实或解释某一理论的假设、术语或构想，解释的程度如何。欲建立构想效度，必须先从某一构想的理论出发，提出关于某一心理特质的假设，然后设计和编制测验并进行施测，最后对测验的结果采用相关或因素分析等方法进行分析，验证与理论假设的符合程度。假设我们要检验一个适应行为测验的结

71、构效度，首先就要根据已有理论中受到广泛认可的“适应行为”定义提出一些假设，比如说，随着年龄增长，适应行为得分应逐步提高；弱智儿童和正常儿童相比，前者的适应行为显著弱于后者。提出假设之后，就可以用实证的方法搜集资料，对假设逐一加以验证。 (二)构想效度的估计方法 1.对测验本身的分析这类方法是通过研究测验内部结构来界定理论构想，从而为构思效度提供证据。测验的内容效度可以作为构思效度的证据。对测验所取样的内容或行为范围确定后，就可利用这些资料来定义测验所要测量的构思的性质。如韦克斯勒在编制智力测验时，按测验内容分为常识、理解、算术、相似性、记忆广度、词汇、译码、填图、积木图案、图片排列、图形拼凑

72、等分测验，只要分析每一分测验所测量的特性，就可以知道这一智力测验所构思的智力结构。测验的内部一致性指标可以推断测验是测量单一特质还是测量多种特质，从而为评估测验构思效度提供证据。测验的内部一致性信度可以由分半信度、系数等指标来衡量，这些指标考察的是测验题目是否一致或同质，分测验与总测验是否一致或同质，这些都可以证明测验所测量的构思是否合理，从而确定测验构思效度的高低。分析被试者对题目的反应特点也可以作为构思效度的证据。例如，在人格测验中有这样一些题目：“当事情不顺利时，我时常发怒。”“我总避免对别人的言行提出批评。”由于题目除了反映被试者的行为外，也包括了社会赞许和道德评判，因此测验的得分就不

73、一定是反映被试行为的。2.测验间的相互比较通过分析几个测验间的相互关系，也可以确定这些测验构思效度如何。最简单的是计算两种测验之间得分的相关，其中一个测验是有研究效度的，另一个是已有效度证据的成熟的测验，但两者测量的是同一种心理特质。假如相关高，说明新测验所测量的特质确实是老测验所反映的特质或行为。因为两测验的相关系数的平方即是两组测验分数所共同解释的变异大小，所以称这一相关为相容效度。可见，相容效度是构思效度的一个证据。区分效度是构思效度的又一个证据。一个有效的测验不仅应与其他测量同一构思的测验有相关，而且还必须与测量不同构思的测验无相关。测验要有效必须测量与其他变量无关的独立的构思。此种相

74、关就是区分效度系数，相关越低，区分度越大。因素分析法也是建立构思效度的常用方法。通过对一组测验进行因素分析，可以找到影响测验分数的共同因素，这种因素可能就是要测量的心理特质(构思)。如果是从众多测验中找出组成一个大构思的不同因素，此时可以把因素分析得到的几个共同因素对应的各种测验组合起来构成一个新的测验，若这些因素正是所期望的，与原先的理论构思一致，则说明构思效度很高。如果把因素分析法放到一个测验的内部，即编制测验时根据理论构思组织题目，在被试中施测，然后用因素分析法证实测验是否确实由原先假设的几个因素构成，这也是构思效度的验证方法。 3.效标效度的研究证明一个测验若效标效度理想，那么该测验所

75、预测的效标的性质和种类就可以作为分析测验构思效度的指标。可以根据效标选取不同的被试形成相对照的两组，再比较两组被试的测验成绩，若测验分数能很好地将两组分开，则说明构思效度不错。根据测验分数分成高分组与低分组，再比较被试的行为特点或心理特质，看被试的行为特点是否与理论构思相吻合，若吻合，说明该测验的构思效度不错。另一种证实构思效度的方法是心理特质的发展变化。例如智力，一个常见的构思是智力随年龄而发展。如果一个智力测验是有效的，那么测验分数能反映这一点，否则就没有构思效度。研究可以设计成：用一个智力测验测量不同年龄组，若测验得分随年龄而增高，则说明构思是正确的。4.实验法和观察法证实观察实验前和后

76、分数的差异也是验证构思效度的方法。根据所要测量的特质的理论构想，可以预测在某种情况下或经过某种训练，被试的测验得分将会有所变化。如果预测得到证实，那就给构思效度提供了证据。三、效标效度(一)什么是效标效度效标效度又称实证效度，反映的是测验预测个体在某种情境下行为表现的有效性程度。被预测的行为是检验效度的标准，简称效标。这种效度是看测验对效标预测得如何，所以叫效标效度。这种效度需在实践中检验，所以又称实证效度。根据效标资料是否与测验分数同时获得，又可分为同时效度和预测效度两类。同时效度即测验所得的分数可与效标同时验证，通常与心理特征的评估及诊断有关。例如智力测验以学生当时的学业成绩为效标，由于

77、学业成绩是现成的，所以这种效度称为同时效度。预测效度的效标资料需要一段时间才可搜集到，通常用于选拔、分组。例如大学入学考试可用学生入学后的学习成绩作效标，因为效标资料在考试以后相隔一段时间后才能获得，所以高考的效度则是一种预测效度。在检验一个测验的效标效度时，难点在于找到合适的效标。一个好的效标必须具备以下条件： (1)能最有效地反映测验的目标，即效标测量本身必须有效； (2)具有较高的信度，稳定可靠，不随时间等因素而变化； (3)客观地加以测量，可用数据或等级来表示； (4)测量的方法简单，省时省力，经济实用。学业成绩、教师的评定等常用来作为智力测验的效标；有经验精神科医生的诊断、教师或其他

78、有关人员的评判可作为个性问卷或精神科症状评定量表的效标。 (二)效标效度的评估方法（06年11月三级题）1.相关法：是评估效标效度最常用的方法，它是求测验分数与效标资料间的相关，这一相关系数称为效度系数。计算效度系数最常用的是积差相关法。当测验成绩是连续变量，而效标资料是二分变量时，计算效度系数可用点二列相关公式或二列相关公式。当测验分数为连续变量，效标资料为等级评定时，可用贾斯朋(Juspen)多系列相关公式计算。2.区分法：是检验测验分数能否有效地区分由效标所定义的团体的一种方法（06年5月三级题）。计算公式如下： (公式522)用此种方法的问题是：组间平均数差异在统计上的显著性取决于团体

79、的大小。当团体较大时，平均数间的小差异在统计上也变得有意义，但测验区分这些团体的实际价值很小。为避免这一点，应该分析高分组与低分组分布的重叠量。分布的重叠量可通过计算每一组内得分超过(或低于)另一组平均数的人数百分比得出。3.命中率法：命中率法是当测验用来做取舍的依据时，用其正确决定的比例作为效度指标的一种方法。使用命中率法，可将测验分数和效标资料分为两类。在测验分数方面是确定一个临界分数(即分数线)，高于临界分数者预测其成功，低于临界分数者预测其失败。在效标资料方面是根据实际的工作或学习成绩，确定一合格标准，在标准之上者为成功，在标准之下者为失败。这样便会有四种情况：预测成功而且实际也成功；

80、预测成功但实际上失败；预测失败而事实上成功；预测失败且实际上也失败。正确的预测(决定)为命中，不正确的预测(决定)为失误。命中率的计算有两种方法，一是计算总命中率(PCT)，另一种是计算正命中率Pcp)。总命中率与正命中率一般情况下完全一致。正命中率高低常随划分测验分数成功与失败的临界分数的高低而变化。显然，临界分数越高，正命中率也越高；反之，临界分数越低，则正命中率也越低。第三单元效度的功能一、预测误差效度系数的实际意义常常以决定性系数来表示，意旨相关系数的平方，它表示测验正确预测或解释的效标的方差占总方差的比例。例如测验的效度是0.80，则测验的总方差中有64的方差是测验分数的方差，即测

81、验分数正确预测的比例是64，其余36无法做出正确的预测。另一种表达方法是估计的标准误，简写为Sest，它是指所有具有某一测验分数的被试其效度分数(Y)分布的标准差，也即预测误差大小的估计值，是对真正分数估汁的误差大小。 rxy2代表效度系数的平方，即决定系数；sy为效标成绩的标准差。（ 08年5月二级题）估计的标准误如同其他标准误一样解释。真正效标分数落在预测效标分数1Sest的范围内，有68的可能性；落在预测效标分数1.96 Sest的范围内，有95的可能性；落在预测效标分数2.58Sest的范围内，有99的可能性。二、预测效标分数如果X与Y两变量呈直线相关，只要确定出二者间的回归方程，就可

82、以从一个变量推估出另一个变量。在测验工作中，人们感兴趣的是从测验分数预测效标成绩，最常用的是Y对X的回归方程：式中是预测的效标分数（06年11月二级题）；a是纵轴的截距，用来纠正平均数的差异；是斜率，亦即Y向X回归的系数；X为测验分数。三、预测效率指数公式525中的称作无关系数，以K表示之，K值大小表明预测分数与效标分数无关的程度。(1K)作为预测效率的指数，用E表示：E=100(1K) (公式530)E值大小表明使用测验比盲目猜测能减少多少误差，例如一个测验的效度系数为0.80，那么K=0.60，E=40，这表明预测误差仅为随机猜测所产生误差的60。换句话说，由于该测验的使用，使得我

83、们在估计被试的效标分数时减少了40的误差。第四单元影响效度的因素影响效度的因素很多，凡能产生随机误差和系统误差的因素都会降低测验的效度。一、测验本身的因素测验取材的代表性、测验长度、试题类型、难度、区分度以及编排方式等都会影响效度。要保证测验具有较高效度，要做好以下几点：（06年5月三级题）1.测验材料必须对整个内容具有代表性；2.测题设计时应尽量避免容易引起误差的题型(如是非题)；3.测题难度要适中，具有较高的区分度；4.测验长度要恰当，即要有一定的测题量；5.测题的排列按先易后难顺序。二、测验实施中的干扰因素(一)主测者的影响因素测验实施过程中主测者的因素会影响效度。例如，是否遵从测验使

84、用手册的各项规定进行标准化的实施，指导语是否统一正确，测验的时限是否一致，评分是否合理，都会影响测验的效度。对于效标效度，测验与效标二者实施时间间隔越长，测验与效标越容易受到很多机遇因素的影响，因此所求的相关必然很低。测验情境，如场地的布置、材料的准备、测验场所有无噪音和其他干扰因素等也会影响到测验的效度。(二)受测者的影响因素被试在测验时的兴趣、动机、情绪、态度和身心状况、健康状态以及是否充分合作与尽力而为等，都会影响被试在测验情境中的反应，因而影响测验结果的效度。被试的反应定势也会降低测验的效度。三、样本团体的性质测验的效度和样本团体的特点具有很大的关系。同一测验对于不同的样本团体其效

85、度有很大的不同。 (一)样本团体的异质性与信度系数一样，如果其他条件相同，样本团体越同质，分数分布范围越小，测验效度就越低；样本团体越异质，分数分布范围越大，测验效度就越高。其中有两种情况会影响样本团体的异质性。第一，只以选拔的受测者团体参加效度研究，降低了测验的效度。例如，研究一个选拔测验的效度，所能研究的团体样本往往是那些已经初试合格留用的被试，分析他们的测验成绩与效标的相关，而大量没有被录取的被试不可能或很少作为研究对象，使预测效度降低。第二，选拔标准太高，样本团体的同质性增加，降低了测验的效度。例如，我国高考的录取率很低，如果用大学入学后的学习成绩作高考成绩的效标，会得到相当低的预测

86、效度，就是因为低的录取率降低了样本团体的异质性。(二)干涉变量对于不同性质的团体，同一测验的效度会有很大的不同。这些性质包括年龄、性别、教育水平、智力、动机、兴趣、职业和任何有关的特征。由于这些特征的影响，使得测验对于不同的团体具有不同的预测能力，故测量学上称这些特征为干涉变量。例如，有人对出租汽车司机施测能力倾向测验，发现测验成绩与工作表现之间的相关仅为0.20，这是相当低的预测效度了。但是，当把对驾驶工作感兴趣的被试挑选出来单独计算效度时，效度系数达到0.60，预测能力大大提高。很明显，效度的降低与一部分对驾驶无兴趣的司机没认真完成测验有关。美国心理学家吉赛利提出的如何找出干涉变量的一套

87、方法：1.用回归方程求得每个人的预测效标分数，将该分数与实际效标分数相比较，获得差异分数D。如果D的绝对值很大，说明测验中可能存在干涉变量。2.根据样本团体的组成分析，找出对照组，分别计算效度，找出干涉变量。3.对于预测团体，根据某些易见的干涉变量将其区分为预测性高和预测性低的两个亚团体。对于预测性高的团体，获得的测验效度会有所提高。四、效标的牲质效标与测验分数之间的关系是否线性关系是很重要的一个因素。皮尔逊积差相关系数的前题是假设两个变量的关系是线性的分布。在大多数情况下，该假设可以成立。如果测验分数与效标之间的关系是非线性的，皮尔逊积差相关系数会低估相关的大小。效标测量的可靠性即效标测量的

88、信度。如果效标测量的信度不可靠，它与测验分数之间的关系也无可靠性可言。第五节项目分析测验的项目分析包括定性分析和定量分析两个方面。定性分析包括考虑内容效度，题目编写的恰当性和有效性等；定量分析主要是指对题目难度和区分度等进行分析。第一单元项目的难度一、定义难度是指项目的难易程度。在能力测验中通常需要一个反映难度水平的指标，在非能力测验(如人格测验)中，类似的指标是“通俗性” （07年5月二级题），即取自相同总体的样本中，能在答案方向上回答该题的人数，其计算方法与难度相同。难度的指标通常以通过率表示，即以答对或通过该题的人数百分比来表示。P代表项目的难度，N为全体被试者人数，R为答对或通过该

89、项目的人数。以通过率表示难度时，通过人数越多(即P值越大)，难度越低；P值越小，难度越高。因为P值大小与难度高低成反比，所以也有人将其称作易度。二、计算方法(一)二分法记分的项目当被试人数较多时，则可根据测验总成绩将被试分成三组：分数最高的27被试为高分组，分数最低的27被试为低分组，中间46的被试为中间组。分别计算高分组和低分组的通过率，以两组通过率的平均值作为每一题的难度。其公式为：式中，P代表难度，PH和PL分别代表高分组和低分组通过率。由于选择题允许猜测，所以通过率可能因机遇作用而变大。备选答案的数目越少，机遇的作用越大，越不能真正反映测验的难度。为了平衡机遇对难度的影响，吉尔福特提出

90、了一个难度的校正公式： (公式533)式中，CP为校正后的通过率，P为实际得到的通过率，K为备选答案的数目。当题目的备选答案数目不同，而又要比较它们的难度时，使用校正的通过率是比较合理的。(二)非二分记分的项目当测验项目为问答题或不能用二分法记分的形式时，一般用下面的公式计算难度。式中，x为全体被试者在该题上的平均分，Xmax为该题的满分。三、难度水平的确定(一)项目的难度大多数的标准测验，都希望能准确测量个体的差异。如果在某题上，被试全答对或全答错，则该题无法提供个别差异的信息，也不会影响测验分数的分布，因此对测验的信度和效度没有多大的作用。P值越接近于0或接近于1，越无法区分被试间能力的

91、差异。相反，P值越接近于0.50，区别力越高。为了使测验具有更大的区别力，应选择难度在0.50左右的试题比较合适。但是在实际工作中并非如此简单。假如某测验各试题间的相关均为1.00，项目难度均为0.50，那么有可能使50的被试答对所有的题目得满分；另外50的被试无法通过任何试题，而全部得0分。所以在选择题目时，最好使试题的平均难度接近0.50，而各题难度在0.500.20之间。当测验用于选拔或诊断时，应该比较多地选择难度值接近录取率的项目。如果录取率为20，那么题目难度最好确定为20，使得恰好20的优秀被试通过；对于选择题来说，P值一般应大于概率水平。P值等于概率，说明题目可能过难或题意不清

92、，被试者凭猜测作答；P值小于概率无意义，说明题目质量有问题。例如，对于是非题而言，其难度值应该为0.75最为合适；而对于四选一的题目，其难度值约为0.63时最为合适。 (二)测验的难度测验的难度直接依赖于组成测验的项目的难度。通过考察测验分数的分布，可以对测验的难度做出直观检验。由于人的心理特性基本上是呈常态分布的，而目前所采用的统计方法又大都以正态分布为前题，因此大多数测验在设计时希望分数呈现常态分布的模型。如果被试样本具有代表性，对于中等难度的测验，其测验总分应该接近常态分配。如果所获得的分数分布不是常态的，得分多数偏高或偏低，则为偏态分布。偏态分布又有“正偏态分布”和“负偏态分布”两种。

93、正偏态分布是大多数得分集中在低端，负偏态分布是大多数得分集中在高分端。不是所有测验都要求分数呈常态分布。有些测验，如掌握性测验或标准参照测验，分数分布出现偏态是允许的。第二单元项目的区分度一、定义项目区分度也叫鉴别力（07年5月三级题），是指测验项目对被试的心理特性的区分能力。如果一个项目，实际水平高的被试能顺利通过，而实际水平低的被试不能通过，那么就可以认为该项目有较高的区分度。项目区分度是评价项目质量和筛选项目的主要指标，也是影响测验效度的重要因素。区分度低意味着项目不能区分被试的实际水平。区分度取值范围介于-1至+1之间，假如项目得分与实际能力水平之间呈负相关，则区分度为负值；若呈正

94、相关，则区分度为正值；相关系数越大，区分度越高。当区分度为负值时，则意味着被试实际能力越高，该项目的得分反而越低，这种情况一般很少发生，如果出现，该项目应该淘汰。二、计算方法(一)鉴别指数步骤如下：（1）按测验总分高低排列答卷；（2）确定高分组与低分组，每一组取答卷总数的27；（3）分别计算高分组与低分组在该项目上的通过率或得分率；（4）按下列公式估计出项目的鉴别指数： D=PH-PL 式中，D为鉴别指数，PH为高分组在该项目上的通过率或得分率，PL为低分组在该项目上的通过率或得分率。D越大，说明该项目区分两种不同水平的程度越高。若D0，则反映高水平组在该项目上的得分率反而低于低水平组，说明项

95、目有问题。1965年，美国测验专家伊贝尔根据长期的经验提出用鉴别指数评价项目性能的标准。表56 项目鉴别指数与评价标准(二)相关法计算区分度最常用的方法是相关法，即以某一项目分数与效标成绩或测验总分的相关作为该项目区分度的指标。相关越高，表明项目越具有区分的功能。1.点二列相关：适用于一类变量为二分称名变量，另一类变量为连续变量的成对变量的相关计算。2.二列相关：适用于两个连续变量，但其中一个变量被人为分成两类。3.相关法：适用于两个变量均为二分称名变量。若将测验总分按及格、不及格或录取、淘汰划分，便可计算相关系数。三、区分度与难度的关系区分度与难度之间有密切的关系。以鉴别指数(D)为例，假

96、如样本中通过某一项目的人数比率为1.00或0，则说明高分组与低分组在通过率上不存在差异，因此D为0；假如项目的通过率为0.50，则可能是高分组的所有人都通过了，而低分组却无人通过，这样D的最大值可能达到1.00。用同样方法可指出不同难度项目的可能的最大D值。如果每一个项目的难度均处于0.50，由于项目难度相同，有可能大多趋向于有关的内容或技能，结果造成项目同质性提高。在极端的情况下，有可能50的被试全部通过各项目得满分，另外50的被试全部为0分，形成U形分布，这样反而降低总分的区分能力。如果测验的所有项目都是中等难度，只有项目的内在相关为0时，整个测验才能产生常态分布。难度和区分度都是相对的，

97、绝对的难度和区分度是不存在的。一般来说，较难的项目对高水平的被试区分度高，较易的项目对水平低的被试区分度高，中等难度的项目对中等水平的被试区分度高（06年5月三级题）。这与中等难度的项目区分度最高的说法并不矛盾，因为对被试总体较难或较易的项目，对水平高或水平低的被试便成了中等难度。由于人的大多数心理特性呈常态分布，所以项目难度的分布也以常态分布为好（07年5月二级题）（06年5月二级题），即特别难与特别易的项目少些，接近中等难度的项目多些。这样不仅能保证多数项目具有较高的区分度，而且可以保证整个测验对被试具有较高的区分能力。第六节测验编制的一般程序第一单元测验的目标分析一、测验的对象在

98、编制测验前首先要明确测量的对象，也就是该测验编成后要用于哪些团体。只有对受测者的年龄、受教育程度和社会经济以及阅读水平等心中有数，编制测验时才能有的放矢。在我国，由于城市和农村人口在文化生活和教育程度上尚有某些差异，故在测验编制及建立常模过程中还应考虑文化背景的影响。二、测验的用途所编出的测验是要对被试做描述，还是做诊断，亦或是选拔和预测，这一点也是在测验编制前就应明确的。用途不同，编制测验时的取材范围以及试题难度等也不尽相同。一般地说，测验的用途可分两类：显示和预测。 (一)显示性测验显示性测验是指测验题目和所要测量的心理特征相似的测验。例如成就测验就是显示性的，它反映被试具有什么能力，能完

99、成什么任务。古德纳夫把显示性测验区分为样本测验和标记测验。题目取自一个很明确的总体的测验即是样本测验，例如测量学生的四则混合运算能力，我们就可以从四则混合运算能力总体中选择一组题目作为样本来测试被试，从而推论他对于这一类题目可能做到什么程度。题目取自一个全开放的总体的测验即是标记测验，例如智力测验。(二)预测性测验预测性测验是指预测一些没被测量的行为的测验。在一般情况下我们对测验感兴趣，主要还是由于测验分数使我们能够预测一个人在不同情境下的行为。当然，显示性测验和预测性测验的区分并不是绝对的，有时是统一的。如高考，题目均来自于高中课本，可以说高考是样本测验，但高考成绩常用来预测大学里的学习成绩

100、，因此又是预测测验。三、测验的目标心理测验的目标是指编制的测验是测什么的，即用来测量什么样的心理变量或行为特征。在实际工作中，不但要明确测验的目标，测验编制者还要对测验目标加以分析，将其目标转换成可操作的术语。目标分析以测验不同而异，一般可分为三种情况：(一)工作分析对于选拔和预测功用的预测性测验，它的主要任务就是要对所预测的行为活动作具体分析，称之为任务分析或工作分析。包括两个步骤：第一，确定哪些心理特征和行为可以使要预测的活动达到成功。如职业兴趣测验，若某项工作包括打字，那么测验编制者可以假定手指的灵活性、手眼协调等能力是必需的。第二，建立衡量受测者是否成功的标准，这个标准称之为效标。

101、(二)对特定概念下定义如果测验是为了测量某种特殊的心理品质或特点，那么测验编制者就必须给所要测量的心理或行为特质下定义，然后必须发现该特质所包含的维量将通过什么行为表现出来或怎样进行测量。如创造力的测量，有人将创造力定义为发散思维的能力，即对规定的刺激产生大量的、变化的、独特的反应。据此操作定义，创造力则应该从反应的流畅性、灵活性、独创性和详尽性四个方面来测量。 (三)确定测验的具体内容如果测验是描述性的显示测验，它的目标分析的主要任务则是确定显示的内容和技能，从中取样。成就测验就是典型的描述性显示测验，它的内容分析过程主要体现在双向细目表的编制过程中。这是一个由测量的内容材料维度和行为目标

102、维度所构成的表格，它能帮助成就测验的编制者决定应该选择哪些方面的题目以及各题目所占的比例。第二单元测题的编写编制测验题目是心理测验编制过程中最重要的一环，涉及到从写出、编辑，到预试、修改等这样一个循环过程。在得到一套令人满意的测题之前，这些步骤是不断重复的。一、搜集资料（06年11月三级题）测验计划编好后，就要搜集有关资料作为命题取材的依据，一个测验的好坏和测验材料的选择适当与否有密切关系。 (一)已出版的标准测验最简单、最直接的方法是从已经出版的各种标准测验中选择合适的题目。比如编制MMPI的简本，就是从MMPI完整测验中精选出168个题目编成简本。 (二)理论和专家的经验理论和专家经验有

103、时也可以作为题目的来源之一，比如要编制态度量表，那么理论上不少对态度的类型、性质维度、定义等等的描述就可以转换成题目，或用具体的例子。 (三)临床观察和记录临床的观察也可以作为题目的来源，各种观察量表或检核表很多都是来源于观察到的行为表现，对于人格测验而言，其题目就是临床上描述人格的术语或词汇。比如MMPI的题目就是从病历记录中筛选出来的。二、命题原则编制测验题目，应遵循的原则可以从内容、文字、理解和社会敏感性四个方面来考虑。(一)内容方面主要是要求题目的内容符合测验的目的，避免贪多而乱出题目；其次，内容取样要有代表性；第三，题目间内容相互独立。(二)文字方面使用准确的当代语言，避免使用生

104、僻的字句或词汇；语句要简明扼要；排除与答案无关的因素；最好是一句话说明一个概念（06年5月二级题）。(三)理解方面题目应有确切的答案，除创造力测验和人格测验外不应具有引起争议的可能；题目的内容不要超出受测团体的知识水平和理解能力；题目的格式要不被人误解。 (四)社会敏感性方面在人格和态度等测量中，有时会不可避免地涉及一些敏感性问题，如性关系。这些问题的回答是很容易获得规范性答案的。所以在编制测题时，应尽量避开社会敏感性问题。可是有些测验必须涉及这类社会敏感性问题，菲力普列举了几条策略值得参考：1.命题时假定被试具有某种行为，使他不得不在确实没有该行为时才否定，可避免否定答案过多的倾向。如：“你

105、平均多久才手淫一次，每月一次？”2.命题时假定规范不一致，如“有些医生认为吸烟有害，而另一些医生则认为吸烟有益，你认为呢？”3.指出该行为是常见的，虽然是违规的，如“多数人在看色情电影时有性冲动，你呢？” 三、编制要领对心理测验的题目进行分类的标准很多，常见的分类是根据对被试的要求不同来分，可以分为两大类：提供型和选择型题目。提供型题目要求被试给出正确答案，如论文题、简答题、填充题等；选择型题目要求被试在有限的几个答案中选择正确的答案，如选择题、是非题、匹配题等。 (一)选择题选择题由两部分构成：题干和选项。题干是呈现一个问题的情境，一般由直接问句或不完全的陈述句构成。选项是问题的多种可能答

106、案，常常是包含一个正确答案，若干(一般是15个)错误答案，其中错误的答案叫“诱答”。对选择题，我们既要编好题干，也要编好选项，有几点必须注意：1.题干所提的问题必须明确，尽量使用简单而且明晰的词语。2.选项切忌冗长，要简明扼要。3.每题只给一个正确答案，其他属诱答。4.各选项长度应相等，尽量不要有长有短。同时，选项与题干的联系要非常密切；诱答也必须一致，以免被试很容易就排除了诱答项目。5.避免题干用词与选项用词一致，否则成了选择答案的线索。“决不”、“从来”、“所有”；“惟一”、“绝对”等词，不适用于选项中。6.选项最好用同一形式。如同是人名，同是日期，同是物理现象等等，长度最好相等。选项的排

107、列最好随机。 (二)是非题是非题又叫正误题，是指出一个论点要被试判断是否正确，或是从是非两个答案做出选择。编制是非题应注意：1.内容应以有意义的概念、事实或基本原则为基础，不要在叙述中出现琐碎的细节或无关的话语，不要照抄原文。2.每道题只能包含一个概念，避免两个或两个以上的概念出现在同一个题目中，造成“半对半错”的情况。3.尽量避免否定的叙述，尤其是要避免用双重否定的叙述。4.若是表达意见的题目，最好说明意见的来源和根据，以便测出被试是否了解某个人或某些人的意见、信念或价值观念等。5.“是”、“非”题的数目应有适应比例，基本相等，且要随机排列。(三)简答题在客观测验试题中，只有简答题是提供型题

108、目，它要求被试用一个正确的词或句子来完成或填充一个未完成句子的空白，或者是提供一个正确的答案。有时将前者称之为填充题，后者称之为简答题。编制简答题有三条原则：（09年5月二级题）1.宜用问句形式。如果使用未完成的句子，则空格尽量放在最后。2.如果是填充形式，空格不宜太多，并且所空出的应该是关键词句。3.每题应只有一个正确答案，而且答案要简短而具体。 (四)操作题操作题是介于一般认知结果的纸笔测验和在未来真实情境的实际活动之间的测验，是让被试实际操作，如画图、走迷津、拼配物体等，可作为纸笔测验题的补充。编制操作测验有四条原则（07年5月二级题）：1.明确所要测量的目标，并将其操作化。2.尽量选择

109、真实性程度较高的项目。但由于客观条件如时间、成本、设备的可能性、实施和记分的困难等限制，有的可采用真实性较低的操作测验，有些工作在操作前需要先进行纸笔测验。3.指导语要简明扼要，要让被试明白要他们做什么和在什么条件下做。4.制定评分标准，确定计分方法。第三单元测验的编排和组织一、合成测验(一)选择与审定试题1.选择试题形式需要考虑以下几点：(1)测验的目的和材料的性质如果要考察被试对概念和原理的记忆，适于用简答题；要考察对事物的辨别和判断，适于用选择题；而要考察综合运用知识的能力，则适于用论文题。(2)接受测验的团体的特点如对幼儿宜用口头测验，对有言语缺陷的人(如聋哑、口吃)则要尽量采用操

110、作项目。(3)各种实际因素当被试人数过多，测验时间和经费又有限时，宜用选择题进行团体纸笔测验。2.审定题目审定试题要注意以下几个问题：(1)题目的范围应与测验计划所列的内容技能双向细目表相一致。(2)题目的数量要比最后所需的数目多一倍至几倍，以备筛选和编制复份。(3)题目的难度必须符合测验目的的需要。(4)题目的说明必须清楚明白。对测题的审定除考虑题目本身的性质，还应考虑各类题目的适当比例，再看看每一被选中的题目是否叙述清楚，是否提供了额外线索。(二)测题的编排测验题目选出之后，必须根据测验的目的与性质，并考虑被试作答时的心理反应方式，加以合理安排。测验编排的一般原则：1.测题的难度排列宜逐步

111、上升。2.尽可能将同类型的测题组合在一起。这样使每一类型的试题仅需作一次答题说明。3.注意根据各种类型测题本身的特点排列题目。如在是非题或选择题中必须避免将选择相同选项的测题安排在一起，以免引起被试的定势反应；在匹配题和重组题中，所有的选项必须安排在同一张纸上。两种常见的排列方式（06年5月三级题）（06年11月三级题）。1.并列直进式：此种方式是将整个测验按试题材料的性质归为若干分测验，在同分测验的试题则依其难度由易到难排列。2.混合螺旋式：此种方式是先将各类试题依难度分成若干不同的层次，再将不同性质的试题予以组合，作交叉式的排列，其难度则渐次升进。如比内西蒙智力量表。测验的编排还可以按题

112、目类型、题目的性质或难度等标准来进行。但是，一些研究证明编排方式对测验得分的影响不大。二、测验的预试初步筛选出的项目虽然在内容和形式上符合要求，但是否具有适当的难度与鉴别作用，必须通过实践来检验，也就是要通过预测进行项目分析。 (一)预测项目性能之优劣，不能仅凭测验编制者主观的臆测来决定，必须将初步筛选出的项目结合成一种或几种预备测验。预测的目的在于获得被试对题目如何反应的资料，它既能提供哪些题目意义不清，容易引起误解等质量方面的信息，又能提供关于题目好坏的数量指标，而且通过预测还可以发现一些原来想不到的情况，如测验时限多长合适，在施测过程中还有哪些条件需要进一步控制等。预测应注意以下几个问

113、题：1.预测对象应取自将来正式测验准备应用的群体。取样时应注意其代表性，人数不必太多，亦不可过少。2.预测的实施过程与情境应力求与将来正式测验时的情况相近似。3.预测的时限可稍宽一些，最好使每个被试都能将题目做完。4.在预测过程中，应对被试的反应情形随时加以记录。 (二)项目分析项目分析包括质的分析和量的分析。前者是从内容取样的适切性、题目的思想性以及表达是否清楚等方面加以评鉴；后者是对预测结果进行统计分析，确定题目的难度、区分度、备选答案的合适度等。根据分析结果，再选择、编制出较好的测验。为了检验所选出的项目的性能是否真正符合要求，通常需再选取来自同一总体的另一样本再测一次，并根据其结果进

114、行第二次项目分析，看两次分析结果是否一致。三、信度和效度考察编好后的测验可在小范围内试用，以对其可靠性和有效性进行鉴定，初步确定该测验是否可用。 (一)信度信度是衡量测验质量的最基本的指标，因而测验编好后首先要考察该测验的信度，如果一个测量工具，一人多次或多人测量结果不相一致，说明这一测量工具是缺乏信度的，即测量工具的可靠性不高。但获得较高的信度，并不是心理测验追求的最终目的。 (二)效度测验编好后，还必须考察该测验的效度。如果一个测验的效度很低，那么说明该测验所测得的东西不是它所要测的东西。四、常模制订测验分数必须与某种参照系统比较，方能显出它所代表的意义。建立常模的方法是，在将来要使用测验

115、的全体对象中，选择有代表性的一部分人(称标准化样本)，对此样本施测并将所得的分数加以统计整理，得出一个具有代表性的分数分布，此即该测验的常模。无论哪种测验，都要参照某个系统对原始分数加以转换，才能作出有意义的解释。编制测验的最后一步，就是编写指导手册，也称测验指导书。测验指导手册主要是向测验使用者说明如何实施测验，以提高测验结果的信度和效度。五、编写指导手册测验指导手册的内容有：1.测验的目的和功用。指出测验可用来测量哪种心理结构，是能力倾向还是人格特征，其功用是筛选还是诊断。2.测验编制的理论背景以及测验中的材料是根据什么原则、应用什么方法选择出来的。3.如何实施测验的说明。4.测验的标准答

116、案和记分标准。5.常模资料，包括常模表、常模适用的团体及对测验分数如何做解释。6.测验的基本特征，包括难度、鉴别力、信度、效度和因素分析的资料。第七节心理测验的使用第一单元主测者的资格主测者的资格包含技术和道德两方面的要求。在技术方面要求主试必须具备一定的知识结构、心理测验专业理论知识和相应的专业技能；在道德方面则要求主试恪守测验工作者的职业道德。一、知识结构主试者的知识结构是指开展心理测验工作所必须具备的基础知识和与专业相关的知识。在基础知识方面，主要包括普通心理学、发展心理学、社会心理学等广泛的心理学基础知识；心理统计学的基本知识；精通人格心理学、能力心理学、变态心理学。二、专业理论知

117、识和专业技能 (一)专业理论知识心理测验专业理论知识，这是主试资格考察的最基本条件。包括要求主试者对心理测验的特点和性质、它的作用和局限性有清楚的认识；了解测验的基本特征，如信度、效度、难度和区分度等心理测量学指标；熟悉保证心理测验标准化的必要性等。 (二)专业技能主试者必须具有实际操作心理测验的专业技能和经验，接受严格、系统的心理测验专业训练，熟悉有关测验的内容、适用范围、测验程序和记分方法等。对于个别测验由于对主试的要求很高，其测验能否取得预期效果在很大程度上主要依赖于主试的水平。人格测验中的投射测验，由于没有实现标准化，因而对主试的要求更高，担任这些测验的主试必须是经验丰富的心理咨询和

118、临床的专家或精神科医生。必须指出，即使某人具备了心理测验主试的资格，可以熟练地担任某些测验的主试，但并不意味着他就可以担任任何其他测验的主试了。三、职业道德（06年11月三级题）(一)测验的保密和控制使用对测验的保密是为了保证测验的价值，对于大多数心理测验来说，内容只有被试事先未曾熟悉才有价值可言。不可在报刊杂志上原封不动地刊登测验的内容，在对测验进行宣传介绍时，只能引用例题，正式测题是绝不能公开的。控制使用是指并非所有的人都可以接触和使用测验，测验的使用者必须是经过专业训练和具备一定资格的专业人员，切不可将测验借给不够资格的人员使用，以避免滥用和误用测验。 (二)测验中个人隐私的保护在测验工

119、作中，尤其是人格测验工作中经常遇到的一个不可忽视的问题是侵犯被试者的个人隐私问题。例如，在人格测验中有的条目可能会涉及人们的家庭关系、内心冲突、私人生活等问题。心理测验工作者应尊重被试者的人格，对测量中获得的个人信息要加以保密，并由有资格的专业人员妥为保管，除非对个人或社会可能造成危害的情况，才能告之有关方面。第二单元测验的选择测验的使用开始于测验的选择。可供选择的测验很多，选择何种或几种心理测验进行施测，是测验组织者和使用者首先要考虑的问题。一、所选测验必须适合测量的目的测验是进行科学研究和解决实际问题的一个工具，测验的选择首先必须符合我们进行测验的目的。不但不同的目的要选用不同的测验，而

120、且不能只是根据测验名称盲目选择测验，必须了解该测验的真正适用范围和功效。二、所选测验必须符合心理测量学的要术选测验不能仅根据测验目的，还应考虑该测验是否经过了标准化，它的信度、效度如何，常模样本是否符合你的测试对象，常模资料是否太久而失效等等。不具备心理测验知识的个人最好不要自己盲目选择测验及自行施测、解释。许多人常使用没有重新标准化的经典测验。标准化测验必须经常修订，使测验内容、常模样本、分数解释更符合变化了的时代。有人将国外的测验直接译过来使用，而不考虑是否符合我国国情。第三单元测验前的准备及注意事项一、测验前的准备工作准备工作主要包括以下几个方面。(一)预告测验事先应当通知被试，保证被

121、试确切知道测验的时间和地点以及内容范围、测题的类型等，使被试对测验有充分的准备，及时调整自己的情绪和生理状态。 (二)准备测验材料无论是个别测验还是团体测验，这一步都很重要。如是个别测验，应检查完整的问卷或器材一共多少，是否完整。如是团体测验，则所有的测验本、答卷纸、铅笔和其他测验材料都须在测验前清点、检查和摆放好，以免忙中出乱。(三)熟悉测验指导语对于个别测验，主试记住指导语是最基本的要求。如果是团体测验，先熟悉指导语会使主试在朗读指导语时不至于念错、停顿、重复或结结巴巴。(四)熟悉测验的具体程序对于个别测验来说，测验的实施必须由受过专门训练的人来完成，例如韦氏智力量表包括言语、操作两大部分

122、，操作部分的测试涉及到物体如何摆放、如何示范等具体程序。对于团体测验，尤其是被试量很大时，这样的准备还包括主试与助手的分工，使他们明确各自的任务。二、测验中主测者的职责第一，应按照指导语的要求实施测验，不带任何暗示，当被试询问指导语意义时，尽量按中性方式作进一步的澄清。第二，测验前不讲太多无关的话。另外这种与测验无关的说明不仅不会引起他们的注意，还会引起焦虑，或对主试产生敌意。第三，对于被试的反应，主试不应做出点头、皱眉、摇头等暗示性反应，这会影响对被试以后的施测，主试应时刻保持和蔼、微笑的态度。在个别施测时，主试不应让被试看见记分。这样做一是避免影响被试的测验情绪，二是避免分散被试的注意力。

123、第四，对特殊问题要有心理准备，比如在测验过程中出现突发事件(如停电、有人生病、计时器出故障等)，应沉着冷静、机智、灵活地应付。三、建立协调关系协调关系是一个专业术语，在临床心理咨询、心理治疗中经常用到。在心理测验实施中，这种关系指的是主试和被试之间一种友好的、合作的、能促使被试最大限度地做好测验的一种关系。在智力测验中，这种关系会促使被试尽最大努力发挥自己的能力；在人格测验中，它会促使被试真实坦白地回答有关个人一般行为特点的问题。测验的对象不同，建立协调关系的步骤也应有所不同。在测验学前儿童时，应考虑到儿童对陌生人的胆怯、恐惧和分心等特点，主试应以友好、愉快、轻松的自然态度与儿童交流。测试时也

124、应当更灵活、有趣，像做游戏一样引起孩子们的兴趣。对于年龄大一些(三年级以上)的学生则应当通过竞争来激发测验动机。由于成人具有不认真做测验的倾向，因此主试应强调测验的目的，强调测验对他们有利的方面，这样才能激发他们在能力测验中作最大努力，也能减少在人格测验中的伪装。第四单元测验实施的程序及要素一、指导语指导语包括两部分，一是对被试的指导语，另一部分是对主试的指导语。 (一)对受测者的指导语这种指导语一般印在测验的开头部分，由被试自己阅读或主试统一宣读。一般由以下内容组成（07年5月三级题）：1.如何选择反应形式；2.如何记录这些反应； 3.时间限制；4.如果不能确定正确反应时该如何操作(是

125、否允许猜测等)；5.例题(当题目形式比较生疏时，给出附有正确答案的例题十分必要)；6.有时告知被试测验目的。主试念完指导语后，应该再次询问被试有无疑问，如有疑问应当严格遵守指导语解释。 (二)对主测者的指导语由于主试的一言一行，甚至表情动作都会对被试产生影响，所以主试一定要严格遵守施测指导，不要任意发挥和解释。二、时限时限也是测验标准化的一项内容。时限的确定，在很多情况下受实施条件以及被试特点的限制。大多数典型行为测验是不受时间限制的（06年11月三级题），例如人格测验中，被试的反应速度就不很重要。但在最高作为测验中，速度是需要考虑的重要因素之一。在速度测验中，尤其要注意时间限制，不得随意延

126、长或缩短。测验的时间安排，也是影响测验结果的一个重要因素。例如在某项大规模活动的前后实施测验，则测验结果就很难反映被试的真正成绩。三、测验的环境条件测验环境会对测验的结果造成影响，主试必须对测验时的光线、通风、温度及噪音水平等物理条件做好安排，使之对每一个被试都保持相同。心理测验进行之时，务必不能有外界干扰。测验室的房门上应挂一个牌子，示意测验正在进行，旁人不许进入。团体测验时，可以把屋门锁上或派一名助手在门外等候，阻止他人进入。对于测验的环境条件，首先必须完全遵从测验手册的要求；其次是记录下任何意外的测验环境因素；第三，在解释测验结果时也必须考虑这一因素。第五单元受测者误差及控制方法一、应

127、试技巧与练习效应(一)应试技巧被试对测验的经验或应试技巧会影响测验成绩，对测验的程序和技能熟悉程度不同，所得分数便不能直接比较。有些人由于经历过多次测验，具有相当的测验经验或应试技巧，成为“测验油子”。他们能觉察出正确答案与错误答案的细小差别，懂得合理分配测验时间，而且常常是各种题型都见过，多数情况下会比与他们能力相当但缺乏测验经验或技巧的被试获得更高的分数。 (二)练习效应（06年11月二级题） 1.教育背景较差、经验较少或智力较高者，其受练习效应的影响较大； 2.着重速度的测验，练习效应较为明显； 3.重复实施相同的测验，受练习效应影响的程度要大于复本的测验； 4.两次测验之间的时距越大，

128、练习效应越小，相距三个月以上练习效应可忽略不计； 5.一般的平均练习效应，约在15个标准差以下，并且仅限于第一次及第二次重测，第三次以后练习效应增加不明显。要控制应试技巧和练习效应的影响，可以尽量设法使每个被试对测验材料的步骤和所需技巧有相同的熟悉程度。还要提高标准化测验的题目编制水平，对编制较好的标准化测验题，再提高应试技巧也不能提高测验分数。二、动机与焦虑因素 (一)应试动机在测量成就、智力和能力倾向等变量时，只有被试动机强烈，才可能尽力回答，取得好成绩。某些社会经济地位不高的被试，对测验的动机不强烈，则其能力往往被低估。例如，黑人儿童和白人儿童在测验分数上的差异反映的就不完全是能力的高低

129、，其中还掺杂有动机效应。动机效应在测量态度、兴趣及人格等典型行为表现时也有影响。例如，在实施MMPI测验时，某些被试若欲给人以好印象，就会考虑主试的期望或社会赞许行为，而不按自己的真实情况回答，从而使测验分数降低。相反，为了某种动机若欲给人以坏影响，则会使测验分数升高。投射测验受动机的影响不大（07年5月二级题）。 (二)测验焦虑一般来说，适度的焦虑会使人的兴奋性提高，注意力增强，提高反应速度，从而提高智力测验、成就测验和能力倾向测验的成绩（06年5月二级题）。过高的焦虑却会使工作效率降低，注意力分散，思维变得狭窄、刻板，记忆中储存的东西抽取不出来。但一点焦虑也没有，也不是好事情，因被试往

130、往采取满不在乎的态度而使测验成绩降低。测验焦虑会受到下列因素的影响：1.能力高的人，测验焦虑一般较低，而对自己能力没有把握的人，测验焦虑较高；2.抱负水平过高，求胜心切的人，测验焦虑较高；3.具有某种人格特点，如缺乏自信、患得患失、情绪不稳定的人易产生测验焦虑；4.测验成绩与被试的关系重大，或被试受到的压力过大，容易使其产生测验焦虑；5.经常接受测验的人焦虑较低，而对测验程序不熟悉，会增加测验焦虑。三、反应定势反应定势亦称反应风格是指独立于测验内容的反应倾向，即由于每个人回答问题的习惯不同，而使能力相同的被试得到不同的测验分数。饥饿、疲劳等生理原因会产生某种单调消极的反应定势，个人偏好或某种态

131、度等心理原因会使被试爱选某一特点的答案，等等。几种常见的反应定势对测验的影响： (一)求“快”与求“精确”的反应定势某些被试，不管题目的内容和难度如何，总是谨小慎微，慢慢琢磨，答题比别人慢，表现为求“精确”的反应定势；另一些被试答题时则习惯于特别快而粗心大意，表现为求“快”的反应定势。如果测验有时间限制，或测验本身属于速度测验，则求“精确”的反应定势必降低测验成绩；如果纯粹是难度测验，则求“快”的反应定势必降低测验成绩。为了避免这两种定势的出现，除非“反应速度”本身为重要的研究目标，否则应让被试有充分的时间反应，同时应该注明每题的答题时间，以减少求“快”与求“精确”定势的影响。(二)喜好正面

132、叙述的反应定势被试在无法确定“是非题”的正确答案时，选择“是”的人往往多于选“否”的人，或者说选“是”的人多于实际上应该选“是”的人，表现为喜好正面叙述的反应定势，亦称“肯定定势”。有些编制者在编制是非题时，也有“是”多于“否”的倾向。故在编制是非题时，“是”“否”题大致相等或答“否”题略多，是控制肯定定势的有效方法。(三)喜好特殊位置的反应定势在完成测验过程中，被试如果完全不知道选择题的正确答案，则不会以完全随机的方式来决定该选哪一个选项，而有特别喜好选择某一位置的答题倾向，如A、B、C、D、E选项中的B、C或D选项。有些测验编制者也存在喜好某个位置的反应定势，例如很少将正确答案安排在第一选

133、项或最后一个选项。在测验编制过程中，正确答案的位置在整个测验中出现在各位置的概率相等，就可以控制这种位置定势。 (四)喜好较长选项的反应定势有些被试认为选项长、内容多，一般是正确答案，在无法确定何者正确时，有偏好长选项的反应定势。在编制测验时，尽量使选项的长度一致，就不难避免这类问题。 (五)猜测的反应定势有些被试不愿猜测，即使事先告诉他要答完所有的题目，也无法使他改变；另外有些被试却敢于猜测，即使告诉他答错要倒扣分数，还是无法阻止其猜测行为。猜测确实可以提高成绩，因此如果不对猜测进行修正的话，那些敢于猜测的被试将比谨慎的被试更容易得高分。第六单元测验的评分评分或记分的标准化是必经的一步。一

134、、原始分数的获得只有评分客观时，才能把分数的差异完全归于被试的差异。对于自由反应的题目，评分者之间很难取得完全一致，而选择题、是非题的评分较为客观。为使评分尽可能客观，有三点要求。1.及时而清楚地记录反应情况。特别是对口试和操作测验，此点尤为重要，必要时可以录音和录像。2.要有一张标准答案或正确反应的表格，即记分键。投射测验不可能有明确而统一的答案，记分键上指明的是具有或缺少某种人格特征者的典型反应。3.将被试的反应和记分键比较，对反应进行分类。分数评出后还要进行合成计算，即将各题目分数合成分测验分数，再将分测验分数合成测验总分数。准确无误是对记分的基本要求。二、原始分数的转换要使测验分数具有

135、意义，并且使不同的原始分数可以比较，这就要对它们进行适当的转化处理或者与参照标准加以对照。经过处理和对照参照标准得来的分数就是导出分数。发展分数、百分位数、标准分数等都是导出分数。测验编制者提供的常模表就是原始分数的转化表。在使用时，只要根据常模样本的某些特征，找出被试者的原始分数对应的导出分数，就可以对测验的分数作出有意义的解释。第七单元测验结果的报告错误的测验分数的解释与报告将使我们在测验的选择、施测及评分过程中所作的努力前功尽弃。更重要的是，它还将对被试的身心发展造成不良影响，甚至使社会对心理测验本身产生怀疑和不满，产生极坏的副作用。一、测验分数的综合分析(一)应根据心理测验的特点进行

136、分析。由于测验误差的影响，被试测验分数会在一定范围内波动，故应该永远把测验分数视为一个范围而不是一个确定的点。如在韦氏智力测验中，通常是用测得的IQ值加减5(8590的可信限水平)的方法判断IQ值的波动范围，若测得某被试的IQ值为105时，他的IQ便在100-110的范围内变化。 (二)不能把分数绝对化，更不能仅仅根据一次测验的结果轻易下结论（06年5月三级题）。一个人在任何一个测验上的分数，都是他的遗传特征、测验前的学习与经验以及测验情境的函数，这些因素都会对测验成绩有所影响。1.为了能对测验分数做出有意义的解释，必须将个人在测验前的经历考虑在内。2.测验情境也是一个需要考虑的因素。例如，

137、一个被试可能会因为身体不适、情绪不好、不懂主试的说明或意外干扰而得到较低的分数，也可能会因为某些偶然情况而得到意外的好分数。(三)为了对测验分数做出确切的解释，只有常模资料是不够的，还必须有测验的信度和效度资料。没有效度证据的常模资料，只能告诉一个人在一个常模团体的相对等级，不能做出预测或更多的解释。即使有效度资料，由于测验效度的概化能力是有限的，在对测验分数做解释时也要十分谨慎。在解释测验分数时，一定要依据从最相近的团体、最匹配的情境中获得的资料（07年5月二级题）。(四)对于来自不同测验的分数不能直接加以比较。即使两个测验名称相同，由于所包含的具体内容不同，建立标准化样本的组成不同，量表的

138、单位(如标准差)不同，其分数也不具备可比性。如来自两个智力测验的分数，在没有其他信息的情况下，我们无法判断孰优孰劣。为了使不同测验分数可以相互比较，必须将二者放在统一的量表上。当两种测验取样于相同范围时，人们常用等值百分位法将两种分数等值化。具体做法是：将两个测验都对同一样本进行施测，并把两种测验的原始分数都换算成百分等级，然后用该百分等级作为中介，就可以做出一个等价的原始分数表。另一种方法是不用相同的百分等级作为中介，而用相同的标准分数作等值的基础，此种方法叫线性等值。二、报告分数的具体建议为了使被试本人以及与被试有关的人，如家人、老师、雇主等，能更好地理解分数的意义，在报告分数时要注意以下几个问题：第一，不应把测验分数直接告诉被试本人或家长、学校班主任等有关人员，应告诉的是测验分数的解释和建议。第二，避免使用专业术语。例如，你懂得标准差和标准分数，然而当事人可能不懂。第三，要保证当事人知道这个测验测量或预测什么。第四，要使当事人知道他是和什么团体在进行比较。第五，要使当事人知道如何运用他的分数。第六，要考虑测验分数将给当事人带来什么心理影响。第七，要让当事人积极参与测验分数的解释。

展开阅读全文

心理测量心理咨询师班

最新文档