定量分析中的数据处理及评价课件

资源描述

《定量分析中的数据处理及评价课件》由会员分享，可在线阅读，更多相关《定量分析中的数据处理及评价课件（54页珍藏版）》请在金锄头文库上搜索。

1、2-2 定量分析中的数据处理及评价,1、数据处理中的几个术语及其意义,在实际的分析测试工作中，测试所得的数据总是参差不齐，误差是客观存在的。如何对所得的数据进行处理和评价，找出其规律，判断分析结果的可靠性，并用于指导实践。数理统计法是处理与评价数据的科学方法。先介绍有关的的几个术语：（1）总体、样本和个体（2）平均值和中位数（3）精密度的表示方法,（1）总体、样本、个体和样本容量,总体：研究对象的全体称为总体（或母体）；样本：（或子样）：自总体中随机抽出的一部分样品称为样本（或子样）；个体：组成总体的每一个单元称之为个体；样本容量：样本中所含个体的数目称为样本大小（或样本容量）,

2、举例说明,对某一批软锰矿中二氧化锰含量的测定。分析人员按分析标准规定，对物料进行处理（取样、粉碎、过筛和缩分等前处理的过程），最后得到约500g供分析用的试样，这就是总体。从500g的试样（总体）中取12份软锰矿样品来进行分析，得到12个测定值，这一组测定值（12个数据）称为本软锰矿试样总体的随机样本，样本容量为12。,由于不可能对总体中的每一个个体都进行研究，应用统计学的方法对样本（有限的个体）的研究来研究总体。如上例中，通过12次的测定的数值，来确定该批软锰矿中二氧化锰的含量。,（2 ）平均值和中位数,平均值,总体平均值：当测量次数和测量数据无限多时，其平均值称为总体平均值或均值，即为真值

3、。真值：,样本算术平均值（也称平均值、均值,测定有限次，在分析测试工作中一般 n20），将所得数据的总和除于测定次数而得：,中位数,中位数：位于一系列按递增或递减排列数据中间的数据称为中位数。（1）数据的数目n为奇数时，居于中间的数值仅一个；（2）数据的数目n为偶数时，居于中间的数值有两个，此时中位数为它们的平均值；（3）采用中位数的优点是：计算简便，它与两端极值的变化无关，当测量次数较少、而且又有大误差出现，数据处理有困难时，采用中位数较好。,小结：平均值和中位数表示数据的集中趋势,即数据集中在平均值或中位数附近。,（3）精密度的表示法,在误差概念的讨论中己知,可用误差和偏差来表示测定

4、数据的准确度和精密度。而精密度是对有限次测定数据的离散程度。d、、、（极差）和公差来表示。根据对数据处理的要求不同，数据的精密度还常用以下几种方法表示。,方差,总体方差：测定值与真值的差的平方和除以测定次数n。,样本方差：,标准差,标准差：方差的平方根为标准偏差。总体的标准差也称标准误差，对真值言。,由于真值不知道，所以标准误差少用。,样本标准差（标准偏差）与变异系数,样本标准差也称为标准偏差：对平均值而言。相对标准偏差也称变异系数。,在要求较严格的测定数据时，一般用变异系数来表示误差。,标准误差与标准偏差的特点,标准误差相对真值而言，测定次数为n 标准偏差相对平均值而言，计算公式

5、中的n-1称为自由度（通俗的理解可为：做了n次实验，有n-1次可以做对比）。,精密度表示法小结,测定结果数据精密度的表示法有：偏差（d）平均偏差（）相对平均偏差（即精密度）标准偏差（s）相对标准偏差（即：变异系数）,例,用标准偏差比用平均偏差更能显示数据的离散性，因而更科学更准确。,例：有两位分析人员对同一样品进行分析，都平行做了8次，得到以下两组数据，计算两组数据的平均偏差（）与标准偏差（s）： 1 ： 0.11, -0.73, 0.24, 0.51, -0.14, 0.00, 0.30, -0.21, n= 8 =0.28 s1=0.38 2 ：0.18， 0.26，-

6、0.25，-0.37， 0.32 ， -0.28，0.31， -0.27 n=8 =0.28 s2=0.29 = , s1s2,2. 随机误差的分布,随机误差（偶然误差）是由一些偶然因素造成的误差，它的大小和方向难以估计，似乎没有什么规律，但如果用统计学方法处理，就会发现它服从一定的统计规律。为了弄清随机误差的统计规律，下面我们来讨论以下两个问题。（1）频数分布（2）正态分布,测定数据表,频数分布,对上表100个数据的分析：有两个极值，最小为1.27，最大为1.55。 R（极值）=1.55-1.27=0.280.30（方便处理）把数据分为10组则组距为0.03，将各测量值对号编入。制

7、频数分布表。,频数分布表（图表）,数据频数分布规律,由以上数据，我们可以发现位于中间数值1.361.44之间的数据多一些，其他范围的数据少一些，小于1.27或大于1.55的数据更少一些。这就是说测量数据中有明显的集中趋势。测量数据的这种既分散又集中的特性，就是其规律性。,频数分布图,在位于中间数值1.361.44之间的数据多一些，其他范围的数据少一些，小于1.27或大于1.55的数据更少一些。测量数据有明显的集中趋势。,2.随机误差的正态分布,定量分析的随机测量值或偶然误差的分布都符合正态分布规律，正态分布就是数学上的高斯分布，可用高斯方程描述： X 是随机测量值，y 称为概率密度。,高斯方程

8、曲线（1）,分析测定中的随机误差都遵从正态分布，从曲线中可以看到：偏差大小相等，符号相反的测定值出现的概率大致相等; 偏差小的测定值比偏差大的测定值出现的概率多、偏差很大的测定值出现的概率极小; 曲线呈两头小，中间大的势态。,高斯方程曲线（2）,曲线中的两个参数：（真值）和（标准差），当确定后，则：越小，落在附近的概率越大，测定值的精密度越好，曲线半宽度越小; 相反，则数据离散性更大;,高斯方程曲线（3）,由于正态分布方程中和都是变量，计算不便，采用变量转换的办法将平均值的偏差（x- ）以为单位，令：,则原高斯方程转换成只有一个变量的方程，即,此时变为：0和1的正态分布曲线，称为标准

9、正态分布曲线，以N（0，1）表示，其概率就容易求出。人们经过计算并制成了各种形式的正态分布概率表供使用者查阅。,3. 少量数据的统计处理,分析化学中通过样本研究总体,由于测量次数有限, 和无从知道。如何处理和评价有限次数测定结果的数据?而对多次测定的结果平均值又如何评价?在前面己讨论的基础上，讨论下面的问题：,3. 少量数据的统计处理,分析化学中通过样本研究总体，由于测量次数有限，和无从知道。英国化学家Gosset提出用t分布解决了这一问题。 (1) t分布和t分布曲线统计量t，定义为：称为平均值的标准偏差, 与样本容量n有关，即：,图115页图,平均值标准偏差与测量次数的关系,3. 少量

10、数据的统计处理,t 分布曲线与横坐标t某区间所夹面积，与正态分布曲线一样，表示测量值落在该区间的概率。显然，若选定某一概率和一定的自由度f，则 t 值也就一定。表2-2是最常用的 t 值,表中的 P 称为置信度，表示随机测定值落在(ts)区间内的概率，称为显著性水准，用 a 表示，即a=1-P。应用表时须加脚注，注明显著性水准和自由度，例如：t0.05, 9是指置信度为95%（显著性水准为0.05），自由度为9时的 t 值。,3.表2-2 值(双边),（2）平均值的置信区间,用样本研究总体时，样本均值x并不等于总体均值，但可以肯定，只要消除了系统误差，在某一置信度下，一定存在着一个以样本均值

11、x为中心，包括总体均值在内的某一范围,称为平均值的置信区间.由t的定义式得: 式中称为置信区间,其大小取决于测定的标准偏差测定次数和置信度的选择,置信区间愈小,平均值x愈接近总体平均值.,3. 少量数据的统计处理,(3)可疑数据的取舍一组数据中,可能有个别数据于其他数据差异较大,称为可疑值.除确定是由于过失所造成的可疑值可以舍弃外,可疑值还是要保留,应用统计学的方法来判断,不能任凭主观意愿决定取舍.常用的可疑值取舍方法有: 4 法 Q检验法格鲁布斯法,4 法,若一总体服从正态分布,x- 大于的测量值出现的概率很小,其误差往往不是随机误差所致,应舍去,当然,其条件是在校正了系统误差之后.

12、又总体的标准偏差于总体平均偏差两者的关系是 ,用样本平均偏差代替,则 ,这样, 便可将可疑值与之差是否大于作为可疑值取舍的根据. 应用法时,可先把可疑值处外,求出余下测量值的和 ,若可疑值与之差的绝对值大于 ,可疑值舍弃,否则保留.,Q检验法,此法是将数据从小到大排列,如设为可疑值,按下式求统计量Q,Q称为舍弃商. 上式的分母是极差,分子是可疑值与最临近值之差,把Q与值比较,若 , 可疑值应舍弃,否则保留,若是可疑值,Q从下式求出: 值与置信度和测量次数有关,如表2-3所示,Q检验法(表2-3),格鲁布斯法,该法用到正态分布中反映测量值集中与波动的两数和 S,因而可靠

13、性较高.应用此法时,在计算了和S后,将测量值从小到大排列,同Q检验法一样,应按测量次数多少,确定检验或 ,若两个都做检验,设x为可疑值,由下式求统计量T: 把T与表值比较,若 ,可疑值舍弃,否则保留,若为可疑值,T由下式求出: 值与测定次数和显著性水准有关,如表2-4,格鲁布斯法(表2-4),4.数据的评价显著性检验,分析工作者常常用标准方法与自己所用的分析方法进行对照试验,然后用统计学方法检验两种结果是否存在显著性差异.若存在显著性差异而又肯定测定过程中没有错误,可以认定自己所用的方法有不完善之处,即存在较大的系统误差. 因此结果的差异需进行统计检验或显著性检验. 显著性检验的一般步

14、骤是: 1, 做一个假设,即假设不存在显著性差异,或所有样本来源于同一体. 2, 确定一个显著性水准,通常 =0.1,0.05,0.01等值,分析工作中则多取0.05的显著性水准. 3, 统计量计算何作出判断. 下面介绍F检验法和t检验法.,F检验法和t检验法(1),(1) F检验法该法用于检验两组数据的精密度,即标准偏差 s存在显著性差异.F检验是将两组数据的s求得方差 ,把方差大的记为 ,方差小的记为 ,按下式求出统计量F: 把F值于表2-5的F表比较,若F F标值,则两组数据的精密度不存在显著性差异,若大小相反,则存在显著性差异.,F检验法和t检验法(2),(2) t检验法 t检验法用

15、于判断样本平均值是否存在系统误差,以计算所得的t统计量和选定的置信度与表2-2的值比较,若存在显著性差异,则被检验方存在较大的系统误差.分析化学中的置信度常用95%. a, 平均值与置信度的比较. b, 两组数据平均值的比较. c, 配对比较试验.,5. 误差的传递,分析过程各个步骤产生大或小,或正或负的误差,它们分散于各个步骤的物理量测量值中,并最终集合于这些物理量计算的结果上,这就是误差的传递. 分析结果计算式多数是加减式和乘除式,另外是指数式.误差传递包括系统误差的传递和偶然误差的传递 1, 系统误差的传递 2, 偶然误差的传递,(1)系统误差的传递,a.加减运算计算结果的绝对误差

16、等于各个测量值的绝对误差的代数和或差,若算式是R=A+B-C,则: b,乘除运算在乘法运算中,计算结果的相对误差是各个测量值的相对误差的和,而除法则是它们的差.如计算式是R=A*B/C ,则:,(2)偶然误差的传递,a.加减运算计算结果的方差(标准偏差的平方)是各测量值方差的和,如R=A+B-C ,则: b. 乘除运算计算结果的想的偏差的平方是各测量值相对平均偏差平方的和,对于算式R=A*B/C,则 c.指数运算对于 ,结果的相对偏差是测量值相对偏差的n倍,即,6. 提高分析结果准确度的方法,要提高分析结果准确度,首先要发现和消除系统误差,然后尽量减少偶然误差. (1)消除与校正系统误差系统误差来源于确定因素,为发现并消除或校正系统误差,可选用下面几种方法 a. 对照实

展开阅读全文