汉语测试的设计－金锄头文库

资源描述

《汉语测试的设计》由会员分享，可在线阅读，更多相关《汉语测试的设计（61页珍藏版）》请在金锄头文库上搜索。

1、汉语测试设计一、语言教学与语言测试二、语言测试的分类三、语言测试的信度和效度四、评分与试题分析一、语言测试理论的三代论1、第代：科学前语言测试(pre-scientifictesting)；2、第二代：心理计量结构主义测试(psychometric-structuralisttesting)；3、第三代：交际语言测试(communicativelanguagetesting)或心理语言学社会语言学测试 (psycholinguistic-sociolinguistictesting)；1、科学前语言测试语言观：知识，包括语法、词汇、语音；教学和测试语言观：知识；

2、测试范围：语言知识+背景(修辞、文学)知识；“关于语言”；语言学习观与测试观：(陈述性)知识的接受；测试知识是否记牢；测试实践(1)、内容的决定：主观判断；无定量定性；(2)、实施：知识型练习、试题；知识点，四技能分开处理；多书面语、无情景；语码为纲；(3)、评估：评估标准是准确性；判断方法是主观的量化评估；2、心理计量结构主义测试语言观：形式结构、符号系统；获得操作符号系统的机能；教学和测试语言观：机能；测试范围：(作为技能的)语言形式系统，“语言”本身；语言学习观：刺激反应的技能训练，不需要结合意义和运用，可以分项训练；测试分项的形式操作技能；测试实践(1)、内容的决定：按频率顺序或结构形

3、式的自身系统划定的有限数量的搭配力最强、使用率最高、概括性最广的基本形式结构；内容是有限的系统，可以明确定量分析、选择；(2)、实施学习方式是句型操练，分列式测试技能，客观题型(填空、替换变换、MC题型)；四技能分离处理，理论上每题测一个语言点；重听说；人工化的情景、语境，无交际需要，缺乏真实性，语码为纲；综合性测试根据单一语言能力假说，采用综合性测试，但还是没结合语言和情景；(3)、评估评估标准主要还是准确性，流利性仍局限于语言形式结构；判断方法是高度的两分判断法量化评估；3、交际语言测试语言观：知识+技能+人与人的交际能力；教学和测试语言观：能力；测试范围：(实际运用中的)交际能力(语言能

4、力+语篇能力+语用能力)；语言学习观与测试观：以学习者为主体，强调潜意识习得和认知性学习，以信息为焦点，学习以达到交际目的为目标；测试通过信息的(交际)运用进行，强调给受试者主动性；测试实践(1)、内容的决定：通过对学习者的学习需要的分析，以学习的目标行为作为教学和测试的内容；直接说明典型的目标行为或采用分维说明法，从行为的各个维度说明；如1990年高等学校英语专业高年级英语教学大纲六个参数：行为类型；身份和情景；篇章类型；题材领域；篇章规格；基础能力和促成技能。定量定性选定内容，通过需要分析确定交际行为范围，通过分维说明将行为要求具体化；(2)、实施教学、测试内容都是交际行为，任务型(tas

5、k-based)练习、试题；四技能综合处理，强调语言学习和测试要放在真实交际情景中，强调得体性，即使是朗读类习题也需要说明交际目的；信息为纲；(3)、评估评估对象是交际行为，所以，交际的有效性就是评估的标准，语言表现的准确性、流利性、得体性都考虑在内；判断标准是质的评估，采用连续判断法，不是简单区分对错，而是注重表现；二、语言测试的分类一般教学中，按学习阶段也可将考试分为分班测试、随堂测试、单元测试、期中测试与期末测试。但语言测试的分类主要有以下几个方面：(一)、按用途分类(二)、按测试方式或评分方式分类(三)、按参照性质分类(四)、按编制方式分类(一)、按用途分类1、诊断性测试(Diagno

6、sticTests)2、成绩测试(AchievementTests)3、分班测试(PlacementTests)4、水平测试(ProficiencyTests)5、语言潜能测试(AptitudeTests)1、诊断性测试(DiagnosticTests)用测试的方式对教学、学习、教材、教学法等因素进行诊断，目的是及时发现问题并改进教学。是教学后的测试，随堂测试、单元测试常是诊断性测试。教学中，经常是以两种语言的对比和错误分析为基础，针对某些具体的语言内容甚至某一语法点进行，了解学生整体或个体的具体困难，以针对问题改进教学。2、成绩测试(AchievementTests)成绩测试是以比较具体的教

7、学大纲内容为依据、以评价学生的学习成绩为目的而设计的测试。教学中的单元测试及期中、期末测试或毕业测试就是典型的成绩测试。成绩测试是教学后的测试，最大特点是以教学大纲为依据。入班测试也可以说是一种成绩测试。3、分班测试(PlacementTests)分班测试其实是在教学前以教学内容为基准，结合已学内容和即将教授的内容，以区分学生水平、辅助制定教学计划为目的而设计的测试。分班测试在内容上与成绩测试有相同之处，又由于一般跨度较大、目的在于区分学生能力水平而与水平测试相似。4、水平测试(ProficiencyTests)也叫能力测试，是不以具体教学内容为基础，而是根据一定的要求，检查学生的语言知识或综

8、合运用语言的能力是否合格，以选拔人才为目的一种标准化测试。水平测试是教学过程以外的测试。不考虑学生的个人、文化等环境因素、只看受试者语言水平，是水平测试区别于其他测试的最大特点。TOEFLEPTHSK5、语言潜能测试(AptitudeTests)语言潜能测试也叫学能测试、能力倾向测试，是一种并不以受试者已学或将学的语言知识为内容，而是以其他语言甚至是人造符号为内容，以预测学生学习语言的能力为目的而设计的测试。语言潜能测试是教学前的测试，理论基础主要是认知心理学。(二)、按测试方式或评分方式分类1、主观性测试和客观性测试2、分列式测试(Discrete-pointTests)和综合性测试(Int

9、egrativeTests)3、笔试、口试与计算机辅助测试1、主观性测试和客观性测试(1)按照评分方式分类，可将语言测试分为主观性测试和客观性测试。作文、回答问题(口头或书面)等主观性测试即使有比较严格的评分标准，评分员对标准的掌握和运用仍然会受主观因素影响。多项选择之类的客观性测试题评分客观准确，更为公正。1、主观性测试和客观性测试(2)主观性测试命题较易，基本排除猜测因素，能考查出客观性测试难以考查的语言写作和口语表达能力，考查的深度、自由度较好。客观性测试可以做到题量大，内容广，机器阅卷，更能满足统计学上的数据要求，但设计难度大。2、分列式测试和综合性测试(1)按照测试项目与所考查的语言

10、能力之间的对应关系，可将语言测试分为分列式测试和综合性测试。分列式测试的各个项目分别检查学生的一种语言技能或一类语言知识。一般是客观性测试。综合性测试全面检查受试者综合运用语言的能力。一般是主观性测试。2、分列式测试和综合性测试(2)综合性测试中容易出现使用语言的回避现象，因此，要诊断学生以及教学中教材、教学方法等其他因素存在的问题时，分列式测试更为合适。从学习理论和交际性原则看，分列式测试不太符合语言习得过程，也脱离交际的真实性，而综合性测试更能考查学生运用语言的实际能力。3、笔试、口试与计算机辅助测试根据受试者接受测试的方式分类。笔试可以测试时间长，题量大，内容全面，受试者的表现也比较充分

11、。口试主要是面试和录音。面试真实自然，有交流，但难以大规模测试。录音则相反。计算机辅助测试可以不受时地限制，还可以进行自适应性测试，提高测试效率。(三)、按参照性质分类(2)按照测试结果的参照标准分类，可以分为常模参照测试(Norm-referencedTests)与标准参照测试(Criterion-referencedTests)。常模参照测试的目的是确定学生在语言能力上的差异，将每个学生的成绩与其他人进行比较，区分出优劣。测试的目的可能是选拔，如水平测试。(三)、按参照性质分类(2)标准参照测试中，学生的成绩只与应达到的标准进行比较，看是否掌握了规定的技能或达到了既定的标准，并不比较成绩之

12、间的差异。如诊断测试和成绩测试。区别这两种测试，不仅在教师设计测试时是必要的，而且让学生明白具体要求也是必要的。(四)、按编制方式分类按编制方式分类，可分为统一编制的标准化测试与教师自编的非标准化测试。标准化测试有三个特点：有固定、标准的内容；测试和评分按标准程序进行；试题都经过预测。通俗地说就是：统一命题、统一组织测试、统一阅卷评分。标准化测试并不一定就是好的测试，但标准化测试的设计理论和标准对教师自编的非标准化测试有指导作用。三、语言测试的信度和效度测量理论两个原则：信度(Reliability)和效度(Validity)，或称可靠性和有效性。(一)、语言测试的信度(二)、语言测试的效度(

13、三)、信度和效度的关系(一)、信度信度，就是语言测试时结果的稳定性和一致性。在一定时间之内，对同一组受试者进行多次测试，如果测试的结果之间稳定、基本一致，这种稳定性就是测试的信度，也就是说：语言测试存在着可靠性。信度与检验语言测试的误差主要来源于：受试者、测试、测试环境、评分方式。由于这四个因素的影响，不可能存在完美的稳定、一致的测试，因此只有通过研究相关来确定测试的信度。研究相关就是对受试者进行多次测试，根据测试结果之间的关联来研究测试的信度。三种多次测试的方式：“重测法”：用同一测试对同一组受试者进行多次测试的方法。“对开法”或“半分法”：把较长的试卷分成两部分对同一组受试者进行两次测试的

14、方法。分列式测试最适合用此法。“对等法”：用同一测试的等效试卷对同一组受试者进行多次测试的方法。内部一致性信度测试本身的稳定程度；影响语言测试信度的因素包括：1、受试者的同质性2、测试试题的同质性3、测试的时间长度4、测试的题量5、试题的难度与测试的区分度(1)、受试者的同质性由于信度的计算方法与受试者之间的分数差异有关，受试者的能力越接近，分数差异越小，则信度系数越高。因此，设计、使用测试时就需要考虑受试者的同质性。学校中，同质分班的班级可以用信度来检测测试的可靠性，然而，参差分班的班级则因此而不能要求测试具有很高的信度。(2)、测试试题的同质性试题的同质性指试题的题型相似或一致的程度。如果

15、使用较多的试题类型测量受试者的总体能力，就不如使用同一类题型测试的信度高，为了追求高信度，就需要对题型的数量进行一些限制。(3)、测试的时间长度在题量和时限之间要求得平衡，而且如果因答题速度不够而不能回答完试题，同样会影响测试的信度。因此，如果严格限制测试的时间，则适宜使用再测信度。(4)、测试的题量题量越大，重复的次数越多，则测试的信度就越高。所以，可以根据对测试的信度要求，通过分析调整测试的题量。(5)、试题的难度与测试的区分度如同受试者的同质性对信度的影响，全得满分或零分的测试自然同质，也就不存在什么区分度。因此，标准化的常模参照测试的平均难度应该是0.5左右，这样才能保证高区分度。(

16、二)、语言测试的效度(1)一般定义：测试在何种程度上测量出了它所需要测量的内容。测试的内容应与测试的目的相符合。例A甲：你既然不想学这个专业，当初为什么要报这个专业呢？乙：当初没多考虑，随大溜就报了这个专业。A、当初报这个专业的人很少B、跟着大部分人报了这个专业C、他喜欢这个专业D、没有他更喜欢的专业例B甲：你既然不想学这个专业，当初为什么要报呢？是找不到自己喜欢的？乙：也不是啦。当初没多考虑，只是因为当时这专业挺热门的，就随大溜报了。四、评分与试题分析主观性试题评分：综合性评分(GlobalMarking;ImpressionMarking)：整体考虑表示的意思、要达到的交际目的；分解性评

17、分(AnalyticalMarking)：从语言形式或从内容、或结合语言和意义，从不同角度分解，各部分独立评定后评定总分；客观性试题评分：教学性测试应相应降低纯客观性试题的分数比重和权重，减少猜测因素对测试结果的影响；部分客观题同样可采用半客观性评分方式；如语句排序类试题，权重较大，可采用首句判断正确得一半分的方式；试题还有一些内在特性则需要对试题进行预测才能分析它的属性，如：难度、区分度、选项的分布。教师自编测试即使不进行预测，也应分析试题的这些内在特性，以改进自己的测试。(一)、试题的难度分析(1)一道试题的难度就是这道题的答对率，就是用答对的人数除以总人数，因此它的取值是01，数越大则难

18、度越低。同一测试的不同试题，如果用于同一批受试者，那么各试题之间的难度是可以比较的。这样就可以根据每一试题的难度计算出整个测试全卷的难度，计算方法就是把所有题目的难度加起来，再除以总题数。(一)、试题的难度分析(2)试题的难度分析可以用Excel计算：如20个考生，10道题，每题分值10。将第一题的得分输入A1-A20，类推将其他试题得分输入B-J列。在A21输入“average(A1:A20)/10”选中A21，光标移到右下角，出现“”时，拖动到J列，回车。在K21输入“average(A21:K21)”(一)、试题的难度分析(3)标准化语言测试一般全卷难度在0.5左右，客观性试题由于猜测因

19、素影响，答对率稍高，0.6左右。五种难度的试题所占比例是：极难(0.20)较难(0.21-0.40)中等(0.41-0.60)较易(0.61-0.80)极易(0.81)1020402010。简单区别可是：较难15%；中等70%；较易：15%。(二)、试题的区分度分析(1) 区分度就是试题对受试者的区分能力。水平不同的受试者对同一试题的反应之间存在的差异就是试题的区分度。一道试题，如果水平高的受试者答对率高，水平低的答对率低，则试题的区分度高。标准化语言测试需要较高的区分度，而与教学相关的测试则一般不宜如此要求。(二)、试题的区分度分析(2) 区分度的计算方法主要有：极端分组法(D值)；点双列相

20、关系数；双列相关系数。区分度取值是在1到1之间，数字越大，区分度越高。点双列、双列相关系数精确可靠，还可以使用于全卷分析，但计算复杂，可用计算机软件帮助。极端分组法则可手工计算，但不够精确，容易受极端值影响。(二)、试题的区分度分析(3)极端分组法：按总分分成人数相等的两组，如各50(人数多时可最高的、最低的各取27分成两极端组)。D值高分组答对率低分组答对率。一般来说，试题的答对率在0.5时，区分度最高。区分度低于0.3的小题最好控制在总题数的5%以内。(二)、试题的区分度分析(4)与教学相关的测试，由于难度、区分度不能太高，可以采用“教学敏感度”的做法。假设：对于试题，教学前后受试者答对的

21、可能性会不同。这样，通过对同一组学生教学前后的测试，或是对学过与未学过的两组学生的测试，来检验测试的敏感度。D=教学后答对率教学前答对率取值同样在1到1之间，数字越大，教学敏感度越高。(二)、试题的区分度分析(4)全距(Range)：所得最高分与最低分的距离；差距大的区分度高。可粗略反映一套试题或一道大题的区分度；也可以用以比较两套(等效)试卷的区分度。标准差：与平均数之间的差别；信度：0-1。与题量、标准差、答对率都有关。一般要求达到0.8。(三)、试题的选项分布分析(1)对客观试题的多项选择题，不只要分析难度和区分度，还需要对各选项进行分析。多项选择题的答案和干扰项，基本假设是：水平高的受

22、试者不易受干扰而能选择正确答案，而水平不高的受试者则较易受干扰项的干扰。如果出现没有差别甚至相反的情况，或是出现选项分布极不平衡，就可能是试题的难度太难或太易、某选项干扰性太弱或太强。(三)、试题的选项分布分析(2)对试题的选项进行分析，需要统计选择每个选项的人数和他们的平均分数。这些正是计算试题的难度、区分度所需要的。与教学相关的测试尽管不一定需要高的难度和区分度，但对选项分布的分析仍然可以了解试题的好坏，并对学生的学习情况有较清晰的了解，可以说是不可或缺的一项工作。(三)、试题的选项分布分析(3)例1：答案D考生数：195难度：0.4769区分度：0.5199选项人数平均分双列相关点双列相

23、关A2718.150.28400.1818B3119.190.20700.1369C4416.660.48900.3515D9325.680.65200.5199(三)、试题的选项分布分析(4)例2：答案A考生数：173难度：0.1503区分度：0.0180选项人数平均分双列相关点双列相关A2620.810.02760.0180B9521.82-0.2921-0.2324C1916.260.41800.2493D3219.220.15280.1050(三)、试题的选项分布分析(5)可以看出，例1至少在形式上是一个合格的试题，难度、区分度合适，三个干扰项的分布也较均匀。答对的受试者正是平均分最高的一组。而例2的难度高、区分度低不说，选择干扰项B的却是平均分最高的一组，因此，即使作为与教学相关的测试题也是不合适的。

展开阅读全文

汉语测试的设计

最新文档