论达标指数惠锦兴[摘 要]达标指数的理论基础是信息论及其关于相对熵的理论达标指数能把错综复杂 的情况化为明确的能区分的定量分析数据,能总体反映教学达标程度达标指数提供了关于等 第标准划分有效信息,可以评价和操作的采用达标指数,可发现学生群体的薄弱环节及区域 内各学校的达标程度;运用达标指数图可快捷分析教学问题便于管理者进行教学质量监控, 并有利教师进行针对性的有效教学关键词:信息量 相对熵 信息变差 有效信息 百分倍率 效果分析 黄金分割律 教学达标程度达标指数(又称差拍系数)(1)是指学生群体通过课程学习后,达成课程标准目标的程度达标指数)的主要功能在于能折射出样本学生之间存在的差异,又能表示样本学生群体对知 识掌握的同步情况,其数值反映学生群体达标程度一、达标指数的理论基础样本群体在经过一次测试后,大致可分三部分:做对人数,全错人数,部分做对人数这 给教师、管理者提供众多信息,出现非常多的分布区间,那么如何来分析数据进行评价呢?信息论告诉我们:信息的统计特征描述是早在1948年申农把热力学中熵的概念与熵增原理 引入信息理论的结果在考虑到系统性、统计性的基础上,我们认为:信息量是由具体信源和 具体信宿范围决定的,并用来描述信息潜在可能流动价值的统计量。
它符合熵增原理所要求的 条件:一、“具体信源和信宿范围”构成了孤立系统,信息量是系统行为而不仅仅是信源或信宿 的单独行为二、界定了信息量是统计量此种表述还说明,信息量并不依赖具体的传播行为而存在, 是对“具体信源和具体信宿”的某信息潜在可能流动价值的评价,而不是针对已经实现了的信 息流动的由此,信息量实现了信息的度量2)香农最初的信息论只对信息作了定量的描述,而没有考虑信息的语义和信息的效用等问题 而这时的信息论已从原来的通信领域广泛地渗入到自动控制、信息处理、系统工程、人工智能 等领域,这就要求对信息的本质、信息的语义和效用等问题进行更深入的研究,建立更一般的 理论,从而产生了信息科学相对熵的引入是信息论中的重要进展,其定义式为: /通常用于描述两个随机分布的“距离”当两个随机分布相同时,其相对熵为0当两个随机分 布的差别增加时,其相对熵也增加如右示 意图(摘自中科院叶莎妮《数学基础》)•1951年S.库尔伯克研究信息论在统计 学中的应用时,引入了信息变差的概念从 一种概率密度P0(x)转移到另一种概率密度p(x)的信息变差I(p0, p)为其中要求p (x)对p0 (x)绝对连续若P0 (x)是具有最大熵H0 (X)的概率分布,则信息变差I (P0, P)=H0 (X)-H (X), 所以一般情况下的信息熵H (X)可表示为:H(X)=H (X)-I(P,P)。
00即信息熵可理解为最大熵与信息变差之间的差值 由于它对离散熵和连续熵都适用,从信息变差出发就能使离散熵和连续熵有统一的含义, 并可以使连续熵的定义建立在更为合理的基础上3)由上述理论可见,达标指数Cp= (R-W) /N,达标指数是有效信息的统计量其中R表示正确 答题(或主观题得80%分以上)人数,W表示完全错误答题(或主观题得20%分以下)人数,N表 示参加测试总人数也可以表示为Cp=(R/N)-(W/N),其中可记:R/N表示为正确率,W/N表 示为全错率从公式变形:1. R=N ・Cp +W 条件: [RW(N—W)]2. WWN (1—C ) /2P3•全错率:(W/N)W(1—C ) /2P4. RWN (1+C ) /2P5. 正确率:(R/N)W(1+C ) /2P据变形公式,把达标指数Cp、正确率、错误率共存一图,绘制如下: ft C|—V. -1 -0.9 3 -0.7 -0.6 -0.5 -0.-1 -0.3 -0. Z -d. 1 0 0. L 0. Z 0. S 0.4 U.5 0.6 0. 7 O.S 口.百 1达标指数与正确率、错误率匡间错误率 正确率二一正确率亠谱误率I达标指叛5图一图一满足下列三个条件:① 连续性;② 对称性;③ 可加性。
这正是信息熵的基本条件那么达标用什么来表示呢?图一中,在正确率、错误率图线 上按达标指数竖直线两交点间的相对位置间连线,构成图二达标指數与正襦率、错误率区间&至东血L正确率--错泯率图二 图二有一系列重要性质,主要有:① 非负性正确率、错误率上两点间的相对位置间竖线长度作为cp的图象线段,可见分别 有正的百分比率描述,且测量值之间的比值是有意义的② 确定性相对位置间竖线长度是唯一的,可用以区分和评价的③ 极值性正确率、错误率都是指相对某一问题的两极,正确或错误④ 方向性相对位置间竖线长度只能下移,代表某一达标指数CP的所有区间⑤ 扩张性正确率、错误率两条函数图象的交点的含义是双重的,即C=0,而正确率、错 误率均为50%同样此交点只能下移,代表达标指数C=0的所有区间从交点出发,相对位置 间竖线长度向两边扩展,所代表的意义恰好相反达标指数公式中,达标指数Cp表示正确率与错误率差值,或者也可理解为正确率与错误率 的百分倍率其差值或百分倍率由正确率、错误率上两点间的相对位置间竖线长度来表示,具 有相对性,它与力学中的势能概念相仿右边竖线长度表示正确率范围,随着达标指数向 0点 移动而趋至50%;左边竖线长度表示错误率范围,随着达标指数向 -1点而趋至100%。
从图二可见,达标指数在+ 1〜一1间波动,是否具有测量性质呢?实践已经证实:测试卷 的达标指数(差拍)曲线和通过率曲线图形是相似的,反映了测试卷的固有属性(1)下例图三和图四分别表示某中学试卷差拍(达标指数)曲线和通过率曲线,横坐标为试题 题号差拍曲绒图三\ w t 0.88KO. 88\ n A/ \ 0 63t 0. 63x\, iL \ .沪A「V.3S/yy-0.63 7M4 -0. 88J试题通过率试题图四尽管相似,通过率与达标指数不能等效,通过率是按y「R/N规律分布;达标指数是按y2= (R—W) /N规律分布,其中R与W分别是变量,且纵坐标标度是不同的,存在负数所以,达标指数反映了学生群体学习课程后实现课程目标的达标程度,也提供了关于等第标准划分有效性方面的信息二、达标指数区间范围及其意义从图二可见,Cp变化0.1则正确率或全错率范围变化0.05;且Cp=0时,正确率或全错率 均为从 0.5 起点众所周知,黄金分割律是一个数字的比例关系,即把一条线分为两部分,此时长段 与短段之比恰恰等于整条线与长段之比,其数值比为 1.618 : 1 或 1 : 0.618 ,也就是说长 段的平方等于全长与短段的乘积。
画黄金分割线的第一步是记住若干个特殊的数字:0.191, 0.382 , 0.618 、0.809, 1.191 , 1.382 , 1.618, 1.809 , 2.00 , 2.618, 4.236, 6.854笔者通过十年的实践研究发现达标指数的评价标准与这些数字中的 0.191, 0.618, 0.809 非常吻合例如0.191~0.2,表示考生做该题得20%分为全错率的分割线;0.809~0.8,表示考 生做该题得80%分为正确率的分割线;0.618~0.6,表示C=0.6时为黄金分割线当C三0.6 pp 时,学生群体相对课程标准或测试目标为基本达标程度Cp=0.6时,此时有三种比率情况:正确率、全错率和中间率(未全错学生人数与总人数比 率)则更细的区间分隔会将三部分百分率一览无遗,表格如下:表序数CP正确率全错率中间率10.60.6000.4020.60.610.010.3830.60.620.020.3640.60.630.030.3450.60.640.040.3260.60.650.050.3070.60.660.060.2880.60.670.070.2690.60.680.080.24100.60.690.090.22110.60.700.100.20120.60.710.110.18130.60.720.120.16140.60.730.130.14150.60.740.140.12160.60.750.150.10170.60.760.160.08180.60.770.170.06190.60.780.180.04200.60.790.190.02210.60.800.20.00若将其画成图表见图五:达标指数为0.6的区间范围内学生达标情况V o OU 4 3 s a a 百分率0.100.001 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21区间范围序数正确率全错率f-中间率图五可见,图五所包含的区间有2 1 个之多。
如此众多复杂的区间,用达标指数一个量就可以 衡量了达标指数反映出来的是达标程度,都可以找到其共性的问题达标指数包含了 一个区间,每个达标指数都是一个独立的区间,性质是分立的,可用以评价和操作的用达标指数表示分立区间极其简单,化错综复杂的情况为明确的能区分的定量分析数据, 能反映总体的教学达标程度三、达标指数的运用功能与价值1.采用差拍系数来分析题目,与识别指数BI(3),有根本区别,因为有负数(负差拍)达 标指数用于考试测评分析,能折射出样本考生之间存在的差拍°c>0,表示样本群体对知识掌P握的同步情况,其数值反映考生群体达标程度°CV0,表示样本群体对课程标准远离的差距,P 若试题统计出来整体存在负数且数值偏大,说明考生群体偏离课标有很大差距,教学中存在失 误,应引起重视;当达标指数为零,则表示二种情况:要么命题存在问题,要么考生文不对题 张冠李戴,对概念或规律的内涵理解不清,运用失误从命题本身看,结合新课程标淮对照, 命题有无不妥之处,否则只能是知识运用能力有待提高,需要引发教学反思2•采用达标指数曲线⑴来分析题目,不同于试题特征曲线⑷如余民宁先生所说:“任何一 条试题特征曲线所代表的涵义是:答对某一试题的机率,是由考生的能力和试题的特性所共同 决定。
因此,试题反应理论(IRT)具有下列几项基本假设(单向度、局部独立性、非速度测验、 知道——正确假设等),唯有在这些假设都成立的前提下,试题反应模式才能被用来分析所有的 测验资料比如项目参数估计的不变性,根据IRT,应该是不管抽取什么样组,项目参数都 保持一致但事实上,IRT仍要通过某些数据去估计参数;这些参数还是通过被试样组获得, 不同的样组,测验数据就不同,据此估计的参数无法保证一致换言之,把任何一组测验数据 输入计算机,用IRT的软件进行估计,并不一定能得出稳定的参数值而要得出稳定的参数值, 其首要的条件是测验项目和模型拟合而拟合性指标又严重依赖于被试样组的大小,样组小, 即。