怎样对化学测验数据进行处理

资源描述

《怎样对化学测验数据进行处理》由会员分享，可在线阅读，更多相关《怎样对化学测验数据进行处理（12页珍藏版）》请在金锄头文库上搜索。

1、怎样对化学测验数据进展处理运用统计方法对通过化学测验等手段获得的大量数据进展处理，不但能使数据不再杂乱无章，而且能反映数据的分布特征，对数据所属总体作出具有一定可靠程度的估计和推断，揭露数据隐含的信息，为教学评价提供可靠根据。现对一些数据处理方法作扼要介绍。一、数据的初步处理通常采用列表法和图示法对数据进展科学分组、归纳、概括，使之系统化。一列表法表格形式中，以频数分布表最重要和常见。下面以某班级化学考试成绩为例，说明如何编制。1求全距R：在本例中R=最高分-最低分=95-50=452决定组数和组距：组数过多会失去分组化繁为简的意义，太少那么组距太大，造成计算结果的失真，一般以1020组为宜。

2、本例分为10组。组距指每一组的间距。一般是将数据等距分组并且进为整数。3决定组限：组限即每组的起止范围。最高组要包括最大值数据，最低组要包括最小值数据。本例中的组限为5054、5559、，也可省去上限，记为50、55、。4求组中值：组中值指各组的中点值，也称组中点，用X表示：本例中第一组的组中值为：5登记频数：将每个数据按所属的组一个一个登记于表中，登记时可用划“法或记“正法。登记完毕后，统计各组登记的数目，即得频数f。至此，一个简单的频数分布表制作完毕，由此表可大致理解数据分布的情况、整体程度及差异程度。二图示法处理教学测量数据常用的图形是直方图和多边图。1直方图由频数分布表可以制作频数直方

3、图：以分数为横轴，频数为纵轴，建立直角坐标系。在横轴上标出各组分数的上、下限，以组距为宽、各组频数为高作出各矩形，即得频数直方图。左以下列图就是根据表21的资料所作的直方图。2多边图频数多边图的画法与直方图相似，不同的只是它是以每组的组中值代表该组数据作横坐标，再在纵坐标上找出相应的频数相交成一点，然后把每个点用直线联接就成多边图。右上图为据表21制作的频数直方图。3频数分布曲线假设所考察的分数增多，组距减小，多边图的折线会变为光滑均匀的曲线，这种曲线称为频数分布曲线。下面是三种常见和有用的分布曲线。二、数据特征量的计算上述图表只是一种粗略、直观的概括，为了进一步分析研究，要计算出反映数据特征

4、的量数，如集中量、差异量、相关量等。一集中量集中量中以算术平均数用途最广。它的计算式为：其中，f1第i组数据的频数，Xi第i组组中值，N总频数N=fi当原始数据较多或分组较多时，可以通过有统计功能的计算器或计算机帮助运算。详细的使用方法参见各计算器的使用说明。二差异量研究数据分布不仅要考察它的集中趋势，还要考察分数的离散程度、变化的大小，即差异量。教育统计中常用的差异量有全距、方差和标准差等。全距计算方便，但它受两端数据的影响太大，没考虑中间数值差异，感应不灵敏。方差和标准差是最重要、最常用的两个差异量数。方差是离差平方和的算术平均数，用2或S2表示：N总频数方差考虑了所有数据的变异性，在理论

5、研究上有重要价值，也方便了代数运算。但方差与原数据单位不一致，因此将方差开平方后得到的标准差或S在实际中使用更多些。X组中值，f各组频数，标准差可以用有统计功能的计算器或计算机方便地算得。假设两组数据测量单位不同如两门不同学科、平均数相差较大的测量，不能直接利用标准差的大小来比较差异程度，而应用使用相对差异量差异系数。差异系数是标准差与算术平均数的百分比，这是一个没有单位的相对量，用v表示：利用差异系数可以比较不同学科或不同班级考试的差异程度，还能用于判断学习分化程度：假设v9，可以认为没有分化现象，假设v18，那么分化现象显著。三相关量对教育现象中两个变量间互相关系的研究，称为相关研究，两个

6、变量之间互相关系亲密程度的量称为相关量。相关研究对分析测验的质量以及进展教改实验研究，具有重要作用。相关量常用相关系数表示，取值范围为-1r1。正号表示正相关，说明两个变量变化方向一致同增同减；负号表示负相关，说明两个变量变化方向相反此增彼减。r的绝对值大小表示相关的亲密程度，r越大，说明两个变量关系越亲密，r越小，相关程度越低，r等于零称零相关，说明两个变量变化无关。相关系数的计算方法很多，需要根据不同类型的数据和条件选用。下面介绍在教学测量和评价中常用的两种相关系数计算法。1积差相关系数：Y数列的离差，N为两个变量的数对个数，x为X数列的标准差，y为Y数列的标准差。假设公式中的离差和标准差

7、用原始数据代入并化简，数据较多时，计算积差相关系数是一件很复杂的事。对于只有单变元统计功能的计算器，可用计算器分别求得。对于有线性回归功能的计算器，求积差相关系数简单又准确。详细见各计算器说明书。使用积差相关系数时，有几点说明：使用条件：两个变量都是正态变化的连续变量，两个变量的关系是线性的，数据要成对，一般大于30对。相关系数不是等单位度量，不能进展简单比较。例如，r1=0.6，r2=0.3，r3=0.20，r4=0.50，不能认为r1=2r2，r1-r2r4-r3。相关仅仅是两列变量联络的亲密程度和方向，并无因果关系。评判两列数据相关程度的强弱，首先要从性质上详细分析事物间是否真的存在相关

8、，因为毫无联络的两列变量代入公式，也可能会求出一个有显著意义的相关系数来。其次相关程度还与取样大小有关，对所求的相关系数，应根据详细情况选用适当的统计量进展显著性检验。积差相关系数可利用积差相关系数显著性临界值表附表1进展判断。例如：算得化学平时成绩和毕业考试成绩的相关系数r=0.780，自由度=N-2=10-2=8查表知显著性程度为=001时，r(8)0.01=0.7650.780这说明有99以上的把握说化学的平时成绩和毕业考成绩有显著关系。2等级相关系数：教学中，有些变量只能分出等级，如思想品德优劣、课堂教学质量等，这些变量是不连续的，应采用等级相关的方法处理。此方法又称等级差数法，适用于

9、两变量都为等级次序和可变为等级次序的资料，或当两列连续变量N30时，也要按大小顺序排列编号、变换为等级变量。rR等级相关系数，D两数列成对等级的差数，N总对数。rR的显著性可通过查等级相关系数临界值显著水准表附表2进展判断。下面以表3资料为例，说明等级相关的计算方法。求变量X、Y的等级Rx、Ry：将数列由大到小排号，最大为1，依次递增。遇一样数目，取几个值所占等级的平均数。求出对应的等级差数D和D2，并将D2加和。代入公式：查附表2，在双尾检验中，当N=10，显著性程度为=0.1时，rR(10)0.05=0.6480.744，故有90以上的把握判断化学毕业考成绩与平时成绩相关。等级相关不涉及变

10、量的分布状态及成对数目大小，它的适用范围更大，不过准确度比积差相关系数差。转贴于论文联盟.ll.三、测量数据的转换由于每次测验的参照点不同，原始分数没有绝对零点，不同测验的每“1分互不相等，因此不同次考试、不同学科的考试成绩不能直接用原始分数比较，也不具加和性。为了使原始分数具有意义并有可比性，必须将它们转换成具有一定参照点和单位量表的分数。通常转换成下面几种标准分：一Z标准分Z标准分是一种以平均数为参照点、以标准差为单位的导出分数：Xi原始分数；总体标准差Z标准分具有以下性质：1一组数据中，各Z标准分的平均数为零，标准差z等于1。因此它有固定零点位置，有相等单位，可进展四那么运算。2Z标准分

11、的分布形状同原始分数。为了两组数据的Z分数可进展比较，原始分数最好是正态分布或近似于正态分布。假设是非正态分布，可将原始分数转换成百分等级，然后从正态曲线面积表找到百分等级对应的Z分数，这个Z分数叫做正态化的Z分数，这样就能较准确地比较。3假设原始分数的分布是正态分布或近似正态分布，标准差的取值范围大约从-3个标准差到+3个标准差。Z标准分在教学测量中有广泛的应用：1确定考生在团体中的相对地位：正态分布的原始分数一经转换成Z分数，就可以通过查正态分布表得知此原始分数的百分等级，知道在它之下的分数个数占全体分数个数的百分之几，确定考生的相对地位。例：某学生化学分数Z=1，也就是说他的分数比平均分

12、多一个标准差，查表可知正态曲线下的面积P=0.3413如以下列图阴影部分。这样Z1的曲线面积为PP=0.50.3413=0.8413占全部曲线下面积的84.13，也就是说比该学生分数低的学生占84.13，比他高的占15.87。假设考生总数为100，那么该学生在其中处于第16名。2比较学生考试成绩的优劣：Z分数由于有可比性和加和性，可以用于比较同一考生同一学科不同次考试的成绩、同一考生不同学科的成绩，或不同学生多学科的总成绩。例1：一个学生期中、期末化学成绩的比较。从原始分数看，考生期末成绩低于期中考试，似乎退步准分Z看，期中时他处于全班平均分之下，而期末却在其上进步。例2：两名学生高考时三门学

13、科总分的比较。从原始总分看，两名学生学习程度无差异，但假设以标准总分看，乙的成绩比甲好。3在管理学生学习质量中的应用。根据标准分作出学习质量的Z管理图，可真实反映学生的学习进步情况。平处于全班平均分之上，折线总趋势是左下右上，说明高一阶段该生化学成绩在进步。二T标准分由于Z分数常出现小数、负数，不仅带来运算上的费事，也不易为人们所承受。教育统计中又常将Z分数转换成T分数：T=10Z50这种T分数的平均分为50。国外标准化学考试中还常采用分数，它以平均分为500分，标准差为100，其通式为：=100Z500四总体平均数的区间估计在数理统计中，一般把研究对象的全体称为总体，其中每一研究对象称为个体

14、，从总体中随机抽取的一部分个体称为样本。S；总体的各种特征量叫做总体参数，通常用希腊字母表示，如、。根据样本统计量的值去推断总体参数的值称为总体参数估计。为了使统计推断正确可靠，样本应该有较好的代表性。为此，要求抽样方法合理、样本容量尽可能大些。通常把样本容量30的称为大样本50更具代表性，30的称为小样本，它们往往采用不同的推断方法。当样本容量一定时，从总体中随机抽取样本有多种可能，存在抽样误差，各可能样本的某一统计量的分布称为抽样分布。各统计量抽样分布的标准差常称为该统计量的标准误，用SE并下标该统计量的符号来表示例如用于总体参数值，样本的代表性好，由此作出的总体参数估计比较可靠。抽样分布及其规律是统计推断的基矗对总体参数的估计一般采取确定总体参数有多大可能性置信度P出如今某一区间置信区间内的方式。置信度P=1-，为风险度，又称显著性程度，通常取=0.05或=0.01。置信区间以对应的样本统计量为中心，上、下限对称地距此中心间隔为样本统计量标准误的假设干倍。对于大样本，总体平均数按下式估计对于小样本，总体平均数按下式估计例：从1990年某省高考化学试卷中随机抽取400份的平均成绩是75.5分，标准差是10分，试估

展开阅读全文