第四章效度－金锄头文库

资源描述

《第四章效度》由会员分享，可在线阅读，更多相关《第四章效度（20页珍藏版）》请在金锄头文库上搜索。

1、第四章效度信度解决的是测验分数是否可靠的问题，但即使一个测验分数有跨时间的稳定性和跨情境的一致性，却不能保证测验分数代表了被试的真实水平。比如说，某测验的目的是测量能力，但测题却都是一些死记硬背的知识，测验分数是不能代表被试真实能力水平的。这就涉及了测量的客观性和准确性问题，即测验的效度问题。第一节效度概述一、效度的概念测验的效度（validity）指的是测验的有效性，即测验分数能够代表所要测量的心理特质的程度，或测验结果达到测验目的的程度。任何测验对所要测量的心理特质的测量都不是绝对客观和准确的。一些编制得好的智力测验一般是效度较高的，但也免不了受智力之外的因素的影响。因为测验

2、的题目必然要从人们的生活实践中选材，来自不同生活背景的人对同一个测验题目的熟悉程度是不同的，即使智力相同，测验分数也会不同。因此人们的知识经验就成了影响测验分数的无关因素之一。研究表明，文化和种族因素会造成测验的不公平，因为与测验分数有关的并不完全是智力。人格和成就测验同样存在无关因素影响测验分数的问题。效度总是针对一定的测验目的而言的。例如，用编制得好的人格测验测量人的个性，诊断心理障碍是有效的，即有一定效度，但若用来测量智力，测量结果就是无效的。因为人格与智力无关，故分数的高低不能代表智力的高低。以上讨论的是心理测量中的效度问题，在物理测量中，效度问题也是同样存在的。如，用不

3、标准的尺子量物体，用不准确的称去称物体，都会使测量的结果不准确。可见，效度是由于测量工具（量尺）本身的问题造成的，在多次测量中都会恒定地出现而无法消除，因而称系统误差。测量的效度问题是测验结果中包含了多大比例的系统误差的问题,系统误差可能是由以下几方面原因造成的:（1）所要测量的特质有多方面的含义，而量表本身未能全部包含这些方面：（2）测验题目中包I含了与所测特质无关的题目：（3）记分方面的问题，如选择题的备选答案是不全面的，即没有完全体现被试情况的差异，因此答案就不是足够准确的，而且各题目得分是简单累加而未经加权处理，不同题目的重要性程度就没有得到区分。在经典测验理论中，测验分数

4、分成真分数和误差两部分。但由于信度只表示测验分数的稳定性和一致性，因此就没有考虑真分数中的系统误差，因为系统误差也是稳定存在的。考虑测验效度时，就应该将测验分数进一步分解。同样是依据经典测验理论，测验分数可分解成代表测验目的的有效分数V,测量工具本身的误差，即系统误差I,和随机误差分数E。即X = V+I+E（4-1）在信度公式中，测验分数的方差可分解为真分数方差和随机误差方差，即：Ex= S2t+ S2e。如果将方差进一步分解，就得到：其中s2x为测验分数的方差，S2v为有效分数方差，S2I为系统误差方差，S2e为(4. 3)随机误差方差。由此我们可进一步推导出效度的表达式xy =-

5、 S 2X其中rxy为测验效度。上式表明效度等于有效分数方差在测验分数（实得）分数方差中所占的比重。二、信度与效度的关系效度等于有效分数的方差与实得分数方差的比，即：rxy = S2v/S2x，而信度rxx = S 2To/S2x，信度与效度的关系就是S2v与S2t的关系。真分数T不包含随机误差，但却包含系统误差，真分数的大小并不能代表被试能力（有效分数）的大小。同样，真分数方差 S2t也不决定有效分数方差S2v。因此，真分数方差大是有效分数方差大的必要条件，而非充分条件，因此信度高也就是效度高的必要条件，而非充分条件。当系统误差的方差是0时，信度才等于效度。信度对效度的影响可用一公式

6、表示，即：厂vr（4-4.）xyxx即效度不会大于信度的平方根。上式表明效度是受信度制约的，信度系数规定了效度系数的上限。三、效度的种类经典测验理论借助平行测验的假定为信度的计算提供了逻辑基础，但对效度却不然。有效分数方差是无法估计的，因此对测验的效度的检验就难以依靠心理计量学的理论。但由于潜在心理特质之间及与人的外显行为之间是有密切关系的，因此我们可以通过逻辑的和实证的方法对效度进行间接的验证。在检验效度时，心理学的有关理论和统计分析技术都是必要的。由于效度验证方法的间接性，单一的效度证据往往不能对测验效度作出充分的证明，我们往往要搜集多方面的证据。按照美国心理学会的标准（198

7、5）,测验效度的证据有以下三方面的来源：（1）与内容有关的证据；（2）与效标有关的证据；（3）与构念有关的证据。对应于上述三个方面的效度证据，人们习惯上将效度分为内容效度、效标关联效度和构念效度。其实这三方面的效度证据是密不可分的。第二节内容效度内容效度（content validity）是指测验题目对所要测量的内容范围的代表性程度。它体现的是与内容有关的效度证据。对知识测验和技能测验而言,我们要测量的是被试对所有要求掌握的知识和技能总体的掌握情况，但不能把所有内容偏成题目进行施测，这既不经济，也不科学。一般的做法是，从所有内容中选取一个有代表性的样本，编成测验。然后考察这一

8、样本对总体的代表性。代表性高时，就说明测验分数是有效的，即达到了测验目的。在这里，我们把测验所要测量的全部内容视为总体，将测验题目当成内容总体的一个样本。内容效度实际考察的题目样本是否代表了内容总体。一、验证测验内容效度的程序下面我们以教育测验为例说明验证一个测验的内容效度通常要遵循的程序。1. 确定所要测量的全部内容范围。比如考杳某一门学科测验是否有效度，就要根据教材和教学大纲列出这门课程的全部知识点。包括每一章、每一节的知识点数；2. 根据教育目标的要求，将测验目的具体化为不同戻次的测验目标。教育测验的目标一般采用布鲁姆(Bloom, B.S.)教育目标分类学中的分类标准，将测验

9、目标分成知识、理解、应用、分析、综合、评价六个层次。每一层次的测验目标对学生有不同的要求，相应地难度也不同。测验者要按照测验目标将该课程的内容即知识点分类；3. 依据教育者对学生的不同要求，确定每一层次测验目标在整个测验中所占的比重：4. 根据每一章节内容的多少和每一戻次测验目标在测验中的比重，及预定的测验长度，编制测验双向细目表。表4.1即为一假想的双向细目表。双向细目表的每一小格中的数字即为属于某一测验目标和教学内容的测题数量。表4.1 假想的某门课程期未测验双向细目表知识理解应用分析综合评价合计第一章34632220第二早33642220第三章55854330第四章3354322

10、0第五章12321110合计1517281812101005. 确定了每一小格中的测题数量后，再从相应部分内容中按比例随机抽取测验题目。在选择测题时还要参考难度、测验时间等方面的信息，对题目作适当调配；6. 请本专业的专家对测题的代表性、测题对测验目的的适合性讲行分析，并作必要的修改，直到多数专家对测验的内容效度感到满意为止。用这种办法编制的测验、能保证其有较好的内容效度。用以上的程序也能从逻辑上分析一个新编制的测验的内容效度。二、内容效度的确定以上验证内容效度的方法是纯粹逻辑的方法，在很大程度上依赖于测验编制者和有关专家的主观经验。测验内容效度的确定还可采用统计方法，以弥补专家判断

11、的不足。内容效度的统计指标可通过以下途径获得：1. 题目样本与总体得分相关法确定现测验的效度，可将该测验题目所来自的题目总体作为一个测验，计算两测验之相关。这种方法道理上讲是合理的，但操作起来不便。只有在个别情况下才使用。2. 两测验之相关法克伦巴赫提出，通过计算同一组被试在两个独立取自相同总体的测验复本间的相关系数，就可得到与内容有关的证据。这种方法也存在问题。因为如果两测验相关低，不能确定哪一个缺乏效度，如果相关高，也不能说明两者的效度高，因为两测验在取样上可能会有同样的偏差。3. 处理后的重测法在教学或训练前施测某一测验，此后再次施测，如果后测的成绩显著高于前测，则可认为训练

12、或教学的内容与测验成绩密切相关，即测验题目可视为教学或训练内容的一个代表性样本。4. 内容效度比让本专业的专家对取样的代表性进行分析，评价每一测验项目是否有代表性，统计出专家中认为某一项目能代表所要测量的内容范围的人数，再用公式计算出内容效度比n N /2CVR(4-5)n/2式中CVR表示内容效度比，片表示表示专家中认为某项目代表了相应测验内容的人数，N 为参加评定的专家的总人数。根据对所有项目的计算结果，就可删除CVR低的项目，增加 CVR高的项目，再计算全部项目的内容效度比的平均数，作为内容效度的指标。三、内容效度与表面效度与内容有关的效度证据往往要经由专家分析以判断测验题目是否反

13、映了测验目的，即测验在专家看来是否有效度。这就涉及另一个容易混淆的概念，即表面效度的概念。表面效度 (face validity)是被试主观上认为测验题目是否测量了所要测的心理特征，即测验表面上看起来是否有效。这是外行人的判断而非专家的判断，因此表面效度不是真正的效度指标。表面效度会影响被试的测验动机。被试只有在测验动机较强的情况下才能把测验认真地完成，而如果他感到测验题目无意义、荒唐、幼稚时，就会认为测验测不到所测的心理特征，因而会草率地应付测验或放弃测验，使测验信度、效度降低。另外测验的语言表达，卷面印刷也会影响表面效度。表面效度过高时，被试很容易识别出测验的目的，从而对一些敏感

14、性的题目如精神病、自杀、偷东西等题目作出掩饰反应，产生虚假分数。因此，适当的表面效度是必要的，这就要求测验题目要能引起被试的动机和兴趣，同时也要有较好的隐蔽性。第三节效标关联效度一、效标1. 效标的概念效标即效度标准(validity criterion), 是扌旨独立于测验结果，反映测验目的的行为参照, 也称效标行为。之所以要以效标为参照验证测验效度,是因为人的心理特质是无法直接测量到的，只能以某种能代表所要测量的特质水平高低的外显行为作为替代，计算测验分数与效标行为间的一致性程度，以此作为测验的效度证据。比如我们可以用飞行员的工作表现作为验证飞行员选拔测验的效标，这是因为飞行员的

15、工作表现能代表飞行员的能力，且飞行员的工作表现与其测验分数是相互独立的。企业的招聘考试可以用工作人员的工作成绩作为效标。因为二者是独立评定的，且后者反映了前者的目的。同样，测量心理病理的人格量表也可以用临床诊断结果作为效标。但医生的临床诊断不能依据被试人格测验的分数，否则二者就不是独立的，医生的诊断也就不能作为效标。这种情况称效标污染(criterion contamination), 即主试者由于知道了被试的测验分数而影响了对其效标分数的评定。人们选择效标的目的是以效标为参照标准, 计算测验测量相应特质的准确性程度，而效标一旦受到污染，效度就会出现偏差。3. 常用的效标人的心理特质往往会以多种形式，从多个方面表现出来，且不同的特质也会有不同的表现方式。因此作为代表特质水平高低的效标也就有复杂性和多样性的特点。心理测验中常用的效标有：(1) 学术成就包括在校成绩、学历、获奖情况、教师评定等，常作为智力测验和标准化成就测验的效标。以学术成就为效标时，还要考虑个人的社会经济地位和成就动机等非智力因素的影响(2) 实际工作表现常作为特殊能力测验及部分智力和人格测验的效标，是最常用的效标之一。但在实际测量时往往会遇到一些困难。如对不同性质的工作难以确定统一的评定标

展开阅读全文

第四章 效度

第四章效度