《语言测试的功能与分类》由会员分享,可在线阅读,更多相关《语言测试的功能与分类(19页珍藏版)》请在金锄头文库上搜索。
1、第二章 语言测试的功能与分类教学目标1.了解语言测试的两大功能2.了解语言测试的分类及各类测试的特点与性质3.了解常模及差异显著性的含义q数据的类型q数据分布的集中趋势与离散程度q常模、标准化及差异的显著性2.1 考试、测量与评估TestMeasurementEvaluation一、语言测试功能1 教学功能入学课程结业入学课程结业考试考试一、语言测试的功能2 研究功能q研究问题及假设(Questions & Hypotheses)q研究对象及抽样(Objects & Sampling)q研究方法与过程(Methods & Procedures)n实验设计、测量工具、变量及类型、分析方法q研究结
2、果与讨论(Results & Discussions)n描述(统计图表)、解读(结果及原因)二、语言测试的类别n测试目的q水平测试(Proficiency Test)q学业测试(Achievement Test)q学能测试(Scholastic Aptitude Test)q分级测试(Placement Test)q诊断测试(Diagnostic Test)n测试方式q直接测试(Direct Test)q间接测试(Indirect Test)n测量形式q分离式测试(Discrete-point Test)q综合式测试(Integrative Test)n考分解释q常模参照测试(Norm-ref
3、erenced Test)q标准参照测试(Criterion-referenced Test)n考试时间q速度测试(Speed Test)q难度测试(Power Test)n影响力度q高风险测试(High-stakes Test)q低风险测试(Low-stakes Test)数据的类型及分布n定类(nominal scale):“”或“”,如姓名、类别n定序(ordinal scale):“”或“”,如学号、排名n定距(interval scale):“”或“”,如年龄、成绩n定比(ratio scale):“”或“”,如比率、权重nSPSS(统计产品及服务解决方案,Statistical P
4、roduct and Service Solutions)软件中仅有三种:名义、序号和度量信息尺度信息类型类别顺序间距比例定类定序定距定比分布的集中趋势(central tendency)n算术平均数(Mean)n众数(Mode) Mo: 数列中出现次数最多的数n中位数(Median) Me: 位于数列中间位置的数分布的离散程度(dispersion)n极差/全距(Range)n平均差(Average deviation)n方差(Variance)n标准差(Standard deviation)n标准差系数(标准差相对于均值的量)n标准误(抽样的平均误差,等于抽样均值的标准差)n 1为自由度自
5、由度(degree of freedom/df)n定义q当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数。n公式qdf = n k,n为样本量,k为被限制的条件数或变量个数。df = n,对总体均值的估计没有限制条件,样本中的每个x 都可以自由变化(k=0)df = n-1,对总体方差的估计,由于受样本均值的约束,只有 n-1 个 x 可自由取值(k=1)频数分布(Frequency)分分组组距距(l)频数数(fi)频率率(F)密度密度(D)50601025.00.2607010717.50.77080101127.51.18090101230.01.2901001082
6、0.00.8合计40成绩频数分布表成绩频数分布表成绩频数分布曲线图成绩频数分布直方图分布的正态性 (normality)、偏度(skewness)和峰度(kurtosis)正偏移负偏移峰度值越大,标准差越小三值归一,对称分布标准正态分布、标准化和标准分(Z Score)、T Score、 GRE Score、IQ不同平均值的正态分布123-1-2-3标准正态分布不同标准差的正态分布。标准正态密度函数*34%34%13.5%13.5%2%2%0.5%0.5%* *预测时,置信度与准确度、精确度(说服力)的关系怎样?原始分与标准分对比科科 目目总分总分均值均值标准标准差差原始数原始数标准分标准分甲
7、甲乙乙丙丙甲甲乙乙丙丙1. 语文7089171702.6250.1250.0002. 数学564506455-1.5002.000-0.2503. 英语425405140-0.4001.800-0.4004. 政治80108580750.5000.000-0.5005. 物理5046070502.5005.0000.0006. 化学40127545422.9170.4170.167合 计4013813326.6429.342-0.983甲、乙二考生相比,甲的总分高但标准分却低,请解释为什么?如果总分服从近似正态分布,丙的排名如何?求综合成绩排名n如下表所示,已知某两位毕业生的三科成绩、各科成绩
8、的平均分和标准差、综合标准化成绩的平均分和标准差。试结合概率分布表求两人在100名毕业生中的排名。课程成绩平均分标准差标准分甲乙甲乙C17069728C25553502C389957010综合标准化成绩31排名+1-.25 2.51.5-.381.92.54.153.621.15.62F(z)乙=.47F(z)甲=.75(1-.75)/2100=13(1-.47)/2100=27假设检验(Hypothesis Testing)拒绝区间/2接受区间1-p/2p/2拒绝区间/24、做出决策u如果p 值比 更小,则说明H0几乎不可能成立,完全有理由拒绝H0而接受H1;u相反,如果p 值大于 ,则说明
9、拒绝H0的理由还不够充分,只能接受H0。置信度(Confidence level, 1-)-1,1 F=0.6827-2,2 F=0.9500-3,3 F=0.99732、确定显著水平(Significance level, Sig. / ),通常为小概率,如.05(5%), .01(1%),.001(1/1000)等;分单双侧检验(单侧仅考虑一个方向的变化)。1、提出假设: 原(零、虚无)假设(Null Hypothesis)H0:大概率事件,通常用来被拒绝 备择(对立)假设(Alternative Hypothesis)H1:小概率事件,通常为期望结果3、计算抽样的统计量或概率值 p。 注
10、意:如果p值不大,即使接受H0,结论的说服力也不强;如果p值为大概率,那么接受H0同样具有说服力。两类错误决决 策策H0为真为真H0为假为假拒绝H0弃真(Type I error)决策正确接受H0决策正确纳伪(Type II error)弃真的概率为显著性水平,弃真也称错误。由于为一个很小的概率,所以犯弃真错误的可能性很小。纳伪的概率用表示,纳伪也称错误。“拒绝才有说服力”:H0通常为大概率事件,对于大概率事件,通过逻辑推理即可得出结论而没有必要进行假设检验,所以假设检验中的H0通常是用来被拒绝的,并且弃真的可能性很小。小概率原理:若能证实小概率事件(H1),证明一般情况下不可能发生的事情确实
11、发生了,那就意味假设中的“小概率”事实上很可能不是小概率,H1的发生肯定是有原因的。假设检验例析1.如果一般情况下不可能发生的事情通过实验证明确实发生了,说明实验说服力强。2.如果大家普遍接受的理论被证明确实有误,则证伪很有说服力。3.如果嫌疑人的指纹跟罪犯在现场留下的指纹一致,则嫌疑人正是罪犯。4.如果考生在高考中的排名位于前十万分之一,则加20分很有说服力。一、试用假设检验的“小概率”原理分析以下现象:二、试分别列出下列检验的H0、H1和期望的p值:1.正态分布检验(Test of Normality)2.方差齐性(同质性)检验(Test of Homogeneity of Variance )3.评分员之间的一致性检验(Test of Inter-Rater Consistency)4.数据的相关性检验(Test of Correlation)