《语言测试》由会员分享,可在线阅读,更多相关《语言测试(49页珍藏版)》请在金锄头文库上搜索。
1、语言测试n第一节概说:发展、作用、学科特点n第二节语言测试基本类型n第三节语言测验开发过程n第四节题目编写和分析方法n第五节质量评估:信度和效度第一节第一节 概说概说1.语言语言测试主要发展阶段:测试主要发展阶段:(1)传统时期或前科学时期(20世纪初-50年代初)n语言观:语言是包括语法知识、词法知识、语音知识语言观:语言是包括语法知识、词法知识、语音知识的知识体系。的知识体系。n特点:测试结果主要根据教师的主观判断,评分的公特点:测试结果主要根据教师的主观判断,评分的公正性和准确性都不理想,主观性极强,可信度不高正性和准确性都不理想,主观性极强,可信度不高 。n题型:短文写作、翻译、语法分
2、析。题型:短文写作、翻译、语法分析。 n教学法:语法教学法:语法-翻译法。翻译法。(2)心理测量-结构主义时期或称科学时期(50年代末60年代初-70年代):n语言观:以结构主义语言学、行为主义心理学、语言观:以结构主义语言学、行为主义心理学、心理测量学为基础,以心理测量学为基础,以Robert Lado 语言测试语言测试外语测验的开发与使用外语测验的开发与使用(1961)为标志。为标志。 学学习第二语言就是要获得及操作这套符号系统的技习第二语言就是要获得及操作这套符号系统的技能、对刺激做出正确反应的一套语言习惯。能、对刺激做出正确反应的一套语言习惯。n特点:分立式测试特点:分立式测试disc
3、rete-point test 每题只考每题只考查一个考点。查一个考点。n题型:选择填空,词汇填空,语法填空,完成句题型:选择填空,词汇填空,语法填空,完成句子,改错。子,改错。n教学法:听说法。教学法:听说法。(3)心理语言学社会语言学时期或后现代时期(70年代-今):注意功能性社会性和语言应用。以ACTFL和欧洲功能意念大纲、交际大纲为基础。Bachman提出“语言交际能力模型”。n语言观:语言观:Chomsky区分语言能力和语言行为;区分语言能力和语言行为;Hymes提出了交际能力的概念,认为使用语言不但要提出了交际能力的概念,认为使用语言不但要能够按照语法规则产出形式合格的句子,而且还
4、应具能够按照语法规则产出形式合格的句子,而且还应具有在不同的语境中合理使用这些句子的能力,即语言有在不同的语境中合理使用这些句子的能力,即语言使用涉及社会文化因素。使用涉及社会文化因素。Canale和和Swain的的“四能力四能力”说:语言能力、社会语言能力、交际策略能力、语说:语言能力、社会语言能力、交际策略能力、语篇能力。篇能力。n特点:综合式测试特点:综合式测试(the integrative approach)被试)被试须综合运用各种语言知识或技能。须综合运用各种语言知识或技能。n题型:完形填空,综合改错,听写,口试,作文题型:完形填空,综合改错,听写,口试,作文。2.中国的语言测试中
5、国的语言测试(1)中国是最早使用考试(西周)的国家。(2)科举是一个标准化程度很高的测试体系。(3)70年代末受TOEFL等影响开始第二语言测试,出现“英语水平考试(EPT)”“大学英语考试(CET)”。(4)对外汉语教学界“汉语水平考试(HSK)”影响广泛。唐代科举考试范围除了经书之外还广及道家典籍、数学、法律等等。考试的方式大约有下列五种:n帖经:类如今日的填充题:以所习经,掩其两端,中间开,唯一行,凡帖三字,随时增损,可否不一。n墨义:类如今日的问答题。例如有云:作者七人矣。请以七人之名对。则对云:七人,某某也,谨对。n口义:以上两种一般合称为帖经。若帖经题以口试为之,则称为口译。n诗赋
6、题:唐时进士一科,例必试诗赋,或称为杂文。n策:一般称为时务策。策的原义是谋略。3.语言测试的作用语言测试的作用(1)一般作用:评价学习者的学业成就和语言水平。评估教学的实际效果。为选拔人才提供依据。为改进教学中的问题提供反馈。(2)对于各种有关人的语言能力的假说,需要实证性数据的证实,语言测试在这方面可以为语言研究(语言教学研究)提供信息,发挥重要作用。(3)语言测试研究能够为第二语言习得研究提供更为可靠而有效的方法和手段。4.语言测试的学科特点语言测试的学科特点(1)理论与实践结合非常紧密。(2)综合性很强:应用语言学(语言学、语言教学)、认知科学、心理测量学、教育统计学、信息科学。第二节
7、 语言测试基本类型一、从用途的角度分:一、从用途的角度分:1.成绩测验成绩测验 achievement test特点:特点:教什么测什么,学什么测什么,怎么教怎么测。测试内容必须以教学大纲、教材、教学内容为依据。典型的成绩测验:典型的成绩测验:期中、期末测验 分类:分类:最后成绩测验;进步测验2.水平测验水平测验 proficiency test 特点:特点:不以特定的教学大纲、教学课程或教学方法为依据,只看被试的语言水平如何。目的:目的:测试对目的语运用的熟练程度,选拔人才。 难点:难点:必须弄准什么叫“语言水平”、要求能够预测未来完成特定任务情况。3.3.能力倾向测验能力倾向测验 apti
8、tude test 目的:目的:预测被试学习目的语的能力。 难点:难点:必须弄准什么是“能力倾向”,Carrol等人认为包括:语音能力、语法能力、综合归纳能力、语言记忆能力、语言表达能力等。4.诊断性测验诊断性测验 diagnostic test 特点:学什么考什么,教什么考什么特点:学什么考什么,教什么考什么 与成绩测验相反。与成绩测验相反。 目的:目的:了解学习者对教学内容掌握情况,以便调整教学。不一定需要打分,非正式的测验。5.安置性测验安置性测验 placement test 目的:目的:妥善地将学习者按程度分班或编组。特点:特点:最好以本单位教学大纲或可能开设的课程内容为依据。各种用
9、途测验又互相联系:水平测验也可以安置学习者,成绩测验可以诊断教学问题。但各种测验用途有区别,基本特性也有区别。依据依据所测能力所测能力信息指向信息指向标准化程度标准化程度 规模规模水平测验水平测验语言理论一般语言水平将来?最高最大成绩测验成绩测验教学内容不一定过去可以较高可以很大倾向测验倾向测验认知理论学习潜能将来可以较高可以很大安置测验安置测验教学内容现有水平将来不高不大诊断测验诊断测验教学内容现有水平过去-将来低小各类测验的特点各类测验的特点二、从评分方法的不同分类:二、从评分方法的不同分类:1. 主观性测验主观性测验划分标准:划分标准:根据评分时是否需要凭主观判断。 形式:形式:作文、口
10、试、问答、简述、完成句子、完成会话、造句、翻译 优点:优点:考查有深度和层次;命题容易;很难猜测 缺点:缺点:评分不易做到完全一致;评分费时费力2. 客观性测试客观性测试 划分标准:划分标准:根据评分时是否需要凭主观判断。 形式:形式:选择题、是非判断题、配伍题(如连线)听写、填空是不是客观题 优点:优点:题量大,内容覆盖面广;评分简单、客观;容易满足统计学的要求。 缺点:缺点:不适合测试产出性语言技能和被试综合运用语言能力;可以猜题;编题费时费力。三、分立式测验和综合式测验三、分立式测验和综合式测验1.分分立式测验立式测验特点:特点:把语言分解成语音、语法、词汇等不同的语言点来测。形式:形式
11、:多项选择、是非判断等题型。优点:优点:评分客观、准确;试题针对性强。2.综合性综合性测验测验目的:目的:了解被试综合运用语言知识的能力。形式:形式:写作、口试、完形填空、听写、多项选择的阅读听力理解。优点:优点:有效测量被试整体语言水平。四、标准化测验非标准化测验四、标准化测验非标准化测验1. Standardized Tests 特点:特点:一是具有统一的标准,二是对整个测试过程可能出现的误差都可严格监控(试题编制、测验实施、阅卷评分、分数转化解释四个标准化) 缺点:缺点:忽视不同个体习得第二语言特点,客观性多项选择题能否测量真实语言水平受到怀疑,对语言教学产生误导。2.Non-stand
12、ardized Tests第三节 语言测验开发过程一、设计阶段一、设计阶段(1)明确测验目的:语言教育;选拔人才;改进教学(2)明确测验对象:背景:背景:个人特征;知识结构;语言水平;对测验的熟悉程度需求:需求:求学;求职(3)确定测验内容:教学内容;非教学内容(4)确定测验方式和卷面构成:题型;题量 汉语水平考试(HSK)的题量和时间分布考试内容考试内容试题数量试题数量试题比重试题比重答题时间答题时间听力理解听力理解5029.4%约35分钟语法结构语法结构3017.7%20分钟阅读理解阅读理解5029.4%60分钟综合填空综合填空4023.5%30分钟总计总计170约145分钟(5)确定评分
13、方式和分数体系:主观题的评分标准和分值(模拟)分分数数整体评分标准整体评分标准分项评分标准分项评分标准词汇词汇语法语法主题主题结构结构4词汇丰富,语法正确,主题鲜明,结构完整词汇丰富,没有错别字无语法错误主题鲜明结构完整,衔接自然3词汇较丰富,语法基本正确,主题鲜明,结构较完整词汇较丰富,偶有错别字偶有语法错误主题鲜明结构较完整,有不连贯的地方2词汇不丰富,语法错误较多,主题不鲜明,结构不完整词汇不丰富,错别字较多语法错误较多主题不鲜明结构不完整二、操作化阶段二、操作化阶段(1)编写测验说明和题目细则(2)训练命题员(3)聘请专家就有关问题向其咨询三、施测阶段三、施测阶段(1)预测:在测验正式
14、进行之前,让一组有代表性的被试试做题目分析(难易度、区分度等),筛选正式题目(2)实测:把符合标准题目合成正式试卷,进行测试,报告分数统计研究施测结果(信度、效度的定量定性分析)第四节 题目编写和分析方法 n一、题目编写n(1)多项选择题n优点:优点:A.可以测试各个层面的语言知识和技能;可以测试各个层面的语言知识和技能;nB.具有良好的诊断作用。多选可以将要测试的内容分解具有良好的诊断作用。多选可以将要测试的内容分解为若干项目进行,老师可以通过分析考生在各个项目中为若干项目进行,老师可以通过分析考生在各个项目中出现的错误及时发现问题,予以纠正;出现的错误及时发现问题,予以纠正;nC.答案固定
15、,评分客观,可以机器阅卷,省时省力;答案固定,评分客观,可以机器阅卷,省时省力;nD.试题覆盖面广,适用于大规模测试,测试信度高。试题覆盖面广,适用于大规模测试,测试信度高。n缺点:缺点:A.题目很难设计,费时费力;题目很难设计,费时费力;nB.不能测量考生的表达能力和推理、论证能力;不能测量考生的表达能力和推理、论证能力;nC.对教学和学习的反拨作用不明显。对教学和学习的反拨作用不明显。编写多项选择题的基本原则:编写多项选择题的基本原则:1.只有一个正确答案(1)目前还没有发现这类问题。A.现在 B.最近 C.看来 D.在眼睛前面(2)我们两家住斜对门,关系很好。A.隔壁 B.邻居 C.门有
16、些斜 D.门靠门2.只测一个语言要素 他们都认为,这是个好主意。 A.意思 B.办法 C.态度 D.建设 A.东西 B.办法 C.消息 D.现象3.每一个选项在语法上都应该是可替换的 不要再买点心了,再买妈妈又该说我们了。 A.解释 B.劝告 C.责备 D.表扬4.文本不能太难5.越简洁、越清楚越好(2)是非题、判断题n优点:优点:nA.命题容易,可以在短时间内编制大量的题;命题容易,可以在短时间内编制大量的题;nB.作答迅速,节省时间;作答迅速,节省时间;nC.适合于随堂测试使用,老师可以随时利用学生适合于随堂测试使用,老师可以随时利用学生易犯的错误编写试题;易犯的错误编写试题;nD.评分客
17、观。评分客观。n缺点:缺点:猜测机率大。猜中的机率高达猜测机率大。猜中的机率高达50%。因此,。因此,在重要的考试中一般不使用这种题型。在重要的考试中一般不使用这种题型。(3)配对题n可以看作是一种改良的多项选择题。可以看作是一种改良的多项选择题。n优点:优点: nA.能在小篇幅内测量大量内容,经济实惠;能在小篇幅内测量大量内容,经济实惠;nB.题目编制容易,很适用于随堂测试;题目编制容易,很适用于随堂测试;nC.能够有效地测量知识上的相关性,有利于培养能够有效地测量知识上的相关性,有利于培养学生观察、辨别、比较分析等方面的能力。学生观察、辨别、比较分析等方面的能力。n缺点:缺点:nA.不适于
18、测量较高层次的教学目标;不适于测量较高层次的教学目标;nB.由于其结构特殊,考生每答一题都要把所有选由于其结构特殊,考生每答一题都要把所有选项进行比较,因此浪费时间。项进行比较,因此浪费时间。(4)填空题n此题要求考生在句子的空白处把答案填写出来。答案可此题要求考生在句子的空白处把答案填写出来。答案可以是一个词、一个词组或者一句话,题目设计得好,对以是一个词、一个词组或者一句话,题目设计得好,对于测量学生的语法、词汇运用能力很有效。与多项选择于测量学生的语法、词汇运用能力很有效。与多项选择相比,填空题所测量的多是语言的运用能力,而不是辨相比,填空题所测量的多是语言的运用能力,而不是辨认能力,因
19、此比多选题更受欢迎,测试效度也高。认能力,因此比多选题更受欢迎,测试效度也高。n优点优点:这类题目设计比较容易,且不受猜测因素的影响,:这类题目设计比较容易,且不受猜测因素的影响,可以促使学生全面复习所学内容。试题形式也可以有多可以促使学生全面复习所学内容。试题形式也可以有多种变化,学生不会感到枯燥无味。种变化,学生不会感到枯燥无味。n缺点缺点是评分不客观,有时一题会出现多个答案,是题目是评分不客观,有时一题会出现多个答案,是题目设计者意想不到的。设计者意想不到的。(5)短文写作n优点:优点:nA.可以直接测量考生的写作能力;可以直接测量考生的写作能力;nB.对学生的学习态度和方式也有积极的影
20、响,有利于培对学生的学习态度和方式也有积极的影响,有利于培养学生实际使用语言进行交际的能力;养学生实际使用语言进行交际的能力;nC.试题设计起来比较容易。试题设计起来比较容易。n缺点:缺点:nA.信度低。一方面是题量小,有很大的偶然性,另一方信度低。一方面是题量小,有很大的偶然性,另一方面是有时题目指令不清楚,考生不知如何下手。面是有时题目指令不清楚,考生不知如何下手。nB.阅卷做不到客观。对同一作文,不同的老师会给出不阅卷做不到客观。对同一作文,不同的老师会给出不同的分数,这样会大大降低测试的信度;同的分数,这样会大大降低测试的信度;nC.阅卷工作费时费力。阅卷工作费时费力。(6)口试、面试
21、n考生与考官之间的简单对话,一般只能反映考生考生与考官之间的简单对话,一般只能反映考生的口头表达能力,如果考生过于紧张,有时会出的口头表达能力,如果考生过于紧张,有时会出现口误,使得口语测试的可靠性很差;如果测试现口误,使得口语测试的可靠性很差;如果测试的内容不一致,还会造成考生成绩之间的差异。的内容不一致,还会造成考生成绩之间的差异。n另外,面试实施起来费时费力,尤其是大规模考另外,面试实施起来费时费力,尤其是大规模考试,如果要对每个考生都进行面试,会浪费很多试,如果要对每个考生都进行面试,会浪费很多人力和时间。人力和时间。编制各种题型的试题都要注意:n1. 试题编制者对每道题要达到的目的应
22、当十分清楚,试题编制者对每道题要达到的目的应当十分清楚,要排除与测试目的无关的因素。要排除与测试目的无关的因素。n2. 试题要照顾目的语常用的句型和词汇。不应专挑试题要照顾目的语常用的句型和词汇。不应专挑难点和特殊点,不出偏题。难点和特殊点,不出偏题。n3. 试题应在教学大纲或考试大纲范围之内,一般不试题应在教学大纲或考试大纲范围之内,一般不应超纲。应超纲。n4. 除了考记忆能力外,还应当考思考能力和猜测能除了考记忆能力外,还应当考思考能力和猜测能力。力。n5. 成绩测试应当是客观测试和主观测试相结合,以成绩测试应当是客观测试和主观测试相结合,以提高效度。提高效度。n6. 题序安排要体现由易到
23、难,以排除受试者的心理题序安排要体现由易到难,以排除受试者的心理障碍。还要注意试卷的校对等技术问题。障碍。还要注意试卷的校对等技术问题。1 1. .难易度:难易度:指某个题目的答对率,即答对某题目的指某个题目的答对率,即答对某题目的被试占全部参加测试的被试的比例。被试占全部参加测试的被试的比例。 p p=答对此题人数/总人数,范围应在0.2-0.8之间。 平均难易度平均难易度(一个测试的各个题目的难易度相加,再除以题目的数量)。 特别要求:特别要求:被试的同质性同质性二、题目分析的方法二、题目分析的方法2 2. .区分度:区分度:指一个题目对于鉴别被试的水平所起的指一个题目对于鉴别被试的水平所
24、起的作用有多大。作用有多大。 (1)区分度指数区分度指数(极端分组法)(极端分组法):27%D=(高分组答对此题人数-低分组答对此题人数)/高分组或低分组人数。 D在-1+1之间,一般要求在0.3左右。特点:特点:简便;不够精确(2)点双列相关系数点双列相关系数:0.2以上pointbiserialcorrelation特点:精确;比较麻烦特点:精确;比较麻烦3 3. .选项选项分布情况分布情况 如:多项选择题中答案如:多项选择题中答案ABCDABCD的分布。的分布。4.4.主观评判:主观评判:是否有冒犯、是否为教学大纲规定重点三、题目的修改三、题目的修改题目分析报表题目分析报表题目编号:IT
25、98CR-107标准答案:A题目质量:不合格题目正文107.大学生们十分感动。A.激动B.感激C.震动D.感慨一年级组考生数:173 难易度:0.1053 区分度:0.0180选项 人数 平均分数 双列相关 点双列相关 A 26 20.81 0.0276 0.0180 B 95 21.82 -0.2921 -0.2324 C 19 16.26 0.4180 0.2493 D 32 19.22 0.1528 0.1050 E 1 17.50 0.1907 0.0048报告人:XX考试中心 报告日期: X X X X年X月X日题目分析报表题目分析报表题目编号:IT01CR1-107标准答案:A题目
26、质量:合格题目正文107.大学生们十分感动。A.震撼B.可怜C.努力D.骄傲一年级组考生数:138 难易度:0.5036 区分度:0.3976选项 人数 平均分数 双列相关 点双列相关 A 70 21.63 0.4983 0.3976 B 5 18.60 0.0777 0.0317 C 34 17.35 0.3069 0.2243 D 28 17.36 0.2819 0.1976 E 1 17.00 0.6710 0.1648报告人:XX考试中心 报告日期: X X X X年X月X日第五节 质量评估:信度和效度一、一、信度:信度:指测量结果的一致性、可靠性和稳定性程度。 一个高质量的测验对同样
27、一组被试反复测量结果应该保持一致。影响因素:影响因素:题目数量;题目的同质性;题目难易度分布;被试样本的异质程度。1. 重测信度(testretest reliability)n重测信度又称稳定性系数。它的计算方法是采用重测法,即使用同一测验,在同样条件下对同一组受测者前后施测两次,求两次得分间的相关系数。n由于人的多数心理特征,如智力、性格、兴趣等,具有相对的稳定性,间隔一段时间不会有很大变化。如果两次测验结果所得的分数差别较大,说明此测验未能反映较稳定的心理特征,而是受了随机变量的影响。另外,我们还经常要用测验分数对人做预测,此时测验分数的跨时间的稳定性更加重要。即使是随时间而变的特征,如
28、知道测验分数在短期内的稳定程度也是好的。n用重测法估计信度的优点在于能提供有关测验是否随时间而变化的资料,可作为受测者将来行为表现的依据。其缺点是易受练习和记忆的影响。如果两次施测相隔的时间太短,则记忆犹新,练习的影响较大;如果相隔的时间太长,则身心的发展与学习经验的积累等足以改变测验分数的意义,而使相关降低。最适宜的时距随测验的目的、性质和受测者的特点而异,一般是两周到四周较宜,间隔时间最好不超过六个月。2. 复本信度(alternateform reliability)n复本信度又称等值性系数。它是以两个等值但题目不同的测验来测量同一群体,然后求得受测者在两个测验上得分的相关系数,这个相关
29、系数就代表了复本信度的高低。复本信度反映的是测验在内容上的等值性,故又称等值性系数。在应用上,应该有半数的受测者先作A本再作B本,另一半受测者先作B本再作A本,由此可以抵消施测顺序的效应。n同重测信度一样,复本信度也要考虑两个等值测验实施的时间间隔。如果两个等值测验几乎是在同一时间内施测的,相关系数反映的才是不同等值测验之间的关系,而不掺有时间的影响。如果两个复本的施测相隔一段时间,则称重测复本信度或稳定与等值系数。稳定与等值系数既考虑了测验在时间上的稳定性,又考虑了不同题目样本反应的一致性,因而是更为严格的信度考察方法,也是应用较为广泛的方法。n复本信度的优点是能够避免重测信度的一些问题,如
30、记忆效果、学习效应等,但也有其局限性:其一,如果测量的行为易受练习的影响,则复本信度只能减少而不能完全消除这种影响;其二,由于第二个测验只改变了题目的内容,已经掌握的解题原则,可以很容易地迁移到同类问题上去;其三,对于许多测验来说,建立复本是十分困难的。3. 内部一致性信度(internal consistency reliability)n重测信度和复本信度主要考察了测验跨时间的一致性(稳定性)和跨形式的一致性(等值性),而内部一致性信度系数主要反映的是题目之间的关系,表示测验能够测量相同内容或特质的程度。n(一)分半信度(splithalfreliability)n分半信度指采用分半法估计
31、所得的信度系数。这种方法估计信度系数只需一种测验形式,实施一次测验。通常是在测验实施后将测验按项目编号的奇数、偶数分为等值的两半,并分别计算每位受测者在两半测验上的得分,求出这两半分数的相关系数。分半法经常会低估信度,必须通过一些公式去加以修正,借以估计整个测验的信度。n(二)同质性信度(homogeneityreliability)n同质性主要代表测验内部所有题目的一致性。当各个测题的得分有较高的正相关时,不论题目的内容和形式如何,其测验为同质的。相反,即使所有题目看起来好像测量同一特质,但相关很低或为负相关时,其测验为异质的。此外,对于一些复杂的、异质的心理学变量,采用单一的同质性测验是不
32、行的,因而常常采用若干个相对异质的分测验,并使每个分测验内部具有同质性,这样每个分测验就能用来预测异质效标的某一方面。4. 评分者信度(scorer reliability)n评分者信度用于测量不同评分者之间所产生的误差。为了衡量评分者之间的信度高低,可随机抽取若干份测验卷,由两位评分者按评分标准分别给分,然后再根据每份测验卷的两个分数计算相关,即得评分者信度。一般要求在成对的受过训练的评分者之间平均一致性达090以上,才认为评分是客观的。n当多个评分者评定多个对象,并以等级法记分时,可采用特定公式去估计评分者信度。估计信度的方法远不止上面介绍的几种,实际上有多少误差的来源,便有多少估计信度的
33、方法。所以,在考察测验的信度时,应根据情况采用不同的信度指标,原则上一个测验哪种误差大,便应该用哪种误差估计。有时一个测验需要有几种信度系数,这样我们就能把总分数的变异数分成不同的分支加以考察。二、二、效度:效度:n效度表示一项研究的真实性和准确性程度。又称真确性。它与研究的目标密切相关,一项研究所得结果必须符合其目标才是有效的,因而效度也就是达到目标的程度。效度是相对的,仅针对特定目标而言,因此只有程度上的差别。n测量效度的方法:考验效度的方法很多,J.W.弗伦奇和W.B.米歇贝根据测验目标把效度分为内容效度、构想效度和效标关联效度,这种分类为美国心理学会在1974年发行的教育与心理测验的标
34、准一书所采纳,成为通行的效度分类方法。(1)内容效度n指测验题目对有关内容或行为范围取样的适当性。成就测验和熟练测验特别注重这种效度。例如,在成就测验中,测验题目是根据教学大纲和教材内容适当抽出的,内容效度就是判断测验题目(内容)是否符合它欲测的目标。由于这种衡量效度的方法必须针对课程的目标和内容,以系统的逻辑方法详细分析题目的性能,故又称课程效度或逻辑效度。n确定内容效度的方法主要有两种:专家判断,即由有关专家对测验题目与原定内容范围的符合性作出判断;统计分析,即以一组被试在取自同样内容范围的两个独立测验上得分的相关作出估计。n内容效度很容易与表面效度相混淆,实际上两者意义不同。表面效度指从
35、外表(如测验的材料及用语、试题的印刷等)直观地看,测验题目与测量目标的一致程度,它与内容效度所指测验在实际测量上的有效程度不同。从技术意义上严格地说,表面效度不是效度,但为了取得被试的信任与合作,表面效度也不可忽视。(2)构想效度n指测验分数能够说明心理学理论上的某种结构或特质的程度。它主要适用于心理测验,其目的是以心理学的概念说明和分析测验分数的意义,即从心理学的理论观点对测验的结果加以解释和探讨。在心理学上,所谓构想是指心理学理论所涉及的抽象而属假设性的概念、特质或变量,如智力、焦虑、机械能力倾向、成就动机等,通常采用某种操作性定义并用测验来测量。确定构想效度的逻辑和方法一般是:先从某一构
36、想的理论出发,导出各项关于心理功能或行为的基本假设,据以设计和编制测验,然后由果求因,以相关、实验和因素分析等方法,审查测验结果是否符合心理学上的理论观点。(3)效标关联效度n指测验分数与效度标准的一致程度。效度标准简称效标,是足以反映测验所欲测量或预测的特质的独立量数,并作为估计效度的参照标准。测验分数与效标的一致程度以二者的相关系数表示,这种相关系数称为效度系数。效度系数越大,测验的效度越高。由于用相关系数这种统计数值表示,这种效度又称统计效度。n效标关联效度可分同时效度和预测效度。同时效度指测验分数与当前的效标之间的相关程度,通常与心理特性的评估和诊断有关,常用的效标资料包括在校学业成绩
37、、教师评定的等级、临床检查、其他同性质测验的结果等;预测效度指测验分数与将来的效标之间的相关程度,它对人员的甄选、分类与安置工作等甚为重要,常用的效标资料包括专业训练的成绩和实际工作的成果等。它运用追踪法对行为表现作长期观察、考核和记录,以累积所得的事实资料衡量测验结果对将来成就的预测性。n测量的各种效度的区别在于各自强调的方面不同。一个测验可以有多种效度,每种效度视使用者的具体目的而定,因此,一般不存在测验的统一效度。但各种效度又是相互联系和补充的。内容效度和构想效度既是效标关联效度的保证,又须得到它的支持。考察内容效度和效标关联效度又有助于确定构想效度。三三、信度、效度关系、信度、效度关系 n信度是效度的必要条件,但不是充分条件。一个测量的效度要高,其信度必须高,而一个测量的信度高时,效度并不一定高。