一地球化学数据预处理综述

资源描述

《一地球化学数据预处理综述》由会员分享，可在线阅读，更多相关《一地球化学数据预处理综述（51页珍藏版）》请在金锄头文库上搜索。

1、地球化学数据处理第一节地球化学数据的误差分析 1 1 系统误差系统误差特点：特点：影响准确度，不影响精密度（1）对分析结果的影响比较恒定，可以测定和校正；（2）在同一条件下，重复测定，重复出现；（3）影响准确度，不影响精密度；（4）可以消除。一、误差的分类产生的原因：产生的原因：（1）方法误差选择的方法不够完善例：重量分析中沉淀的溶解损失，滴定分析中指示剂选择不当（2）试剂误差所用试剂有杂质例：去离子水不合格；试剂纯度不够（3）仪器误差仪器本身的缺陷例：天平两臂不等，砝码未校正；滴定管容量瓶未校正（4）主观误差操作人员主观因素造成例：对指示剂颜色辨

2、别偏深或偏浅；滴定管读数不准 2 2 随机误差随机误差( (偶然误差偶然误差) ) 特点特点: : （1）不恒定,无法校正；（2）服从正态分布规律：大小相近的正误差和负误差出现的几率相等; 小误差出现的频率较高，而大误差出现的频率较低，很大误差出现的几率近于零。产生的原因产生的原因:（1）偶然因素(室温，气压的微小变化) ；（2）个人辩别能力(滴定管读数) 注意注意：过失误差属于不应有的过失。过失误差属于不应有的过失。二、误差的减免（一）（一）系统误差的减免系统误差的减免 1.1.方法误差方法误差采用标准方法作对照试验 2.2.仪器误差仪器误差校准仪器 3.3.试剂误差试剂误差

3、作空白试验（二）（二）随机误差的减免随机误差的减免增加平行测定的次数，取其平均值, 可以减少随机误差。正态分布曲线第一节地球化学数据的误差分析三、误差的来源 1取样产生误差取样产生的误差是影响地球化学数据质量的最重要的也是最不易被发现的误差。产生这种误差的途径可能有： 1）错误地将同一空间产出的不同单元作为同一单元。 2）没有正确确定不同空间的岩石是同一系列的同一单元还是不同系列的不同单元。 3）不能准确区分蚀变与原岩的界线。 4）判别风化岩石和新鲜岩石的界线不准确。 5）没有查明污染层的广度与深度。 6）土壤剖面分层不准确。 7）采集水样的时间或季节不当。 8）对矿

4、化与非矿石岩石的区分不当。 9）未能消除因断层等构造对原岩中元素活化迁移的影响。 10）取样工具、器具及取样方法不当。三、误差的来源 n2制备样品产生误差 1）没有将整个样品全部粉碎过筛，而仅粉碎了其易碎部分，难碎部分弃掉而造成粉碎的样品不代表整个样品。 2）样品分选不彻底。 3）筛网的原料不当，如不少样品不能用铜网或铁网筛。 4）碎样工具和筛具清理不净，造成样品污染。 5）样品缩分方法不当，未按缩分样品程序进行缩分而随意分取一部分样品。 n3分析测试产生误差 1）分析方法本身的原因，即分析的精度和灵敏度； 2）分析测试人员因操作的原因而产生误差； 3）所用器具清洗不净产生误差；

5、4）仪器设备的精密度和分析结果的再现性达不到有关要求而产生误差； 5）化学试剂达不到分析要求或试剂选取不当产生误差； 6）标准达不到要求产生误差； 7）分析测试环境产生误差。三、误差的来源 n四、分析质量的控制 1 内检 2 外检 3 双样品分析第二节地球化学数据的预处理 n一、基本概念 1总体、个体、样本总体是指我们要研究的对象的全体；个体（或叫样品）是指总体中的一个单位；样本（或叫子样）是指总体中取出的一部分个体。样本所包含的个体数目。叫做样本的大小（或叫样本容量）。一、基本概念 n2均值（1）算术平均值（2）加权平均值（3）几何平均值一、基本概念 n

6、3极值与方差（1）数据的极小值与极大值极小值 A min x1，x2，xn 极大值 B maxx1，x2，xn （2）方差、标准差 n4变异系数 Cv100%很大起伏。一、基本概念 n5 真值、中位数 n6 准确度和精密度准确度：表示分析结果与真实值接近的程度。精密度：表示各次分析结果相互接近的程度。常用重复性和再现性表示不同情况下的精密度。 7 误差和偏差误差：测定结果与真实值之间的差值。偏差：测定结果与平均结果之间的差值。准确度和精密度分析结果的衡量指标。一、误差和准确度准确度的高低用误差的大小来衡量；误差一般用绝对误差和相对误差来表示。二、偏差和精

7、密度精密度的高低用偏差来衡量，一、基本概念 n总体平均值：测定次数无限增多时，所得平均值即为总体平均值： n总体标准偏差：测量次数为无限多次时，各测量值对总体平均值的偏离，用表示。 n样本标准偏差s n检出限某一分析方法或分析仪器能可靠测试出样品中某一元素的最小质量。 n灵敏度（检出下限）一定条件下，某一分析方法能可靠测出的相对最低含量。 n 地球化学标样一、基本概念二、数据的统计分组、列表与作图 n 对观察数据分组、列表与作图使我们对数值和频率分布、数值集中位置和离散程度等性质有了一个直观了解。三、数据的质量分析 1正态分布及置信度正态分布就是通常所谓的高斯分布，

8、是无限次测量数据的分布规律。置信度通常用p表示，它表示在某一t值时，测定值落在（ts）范围内的概率。 n t0.05，10 置信度95自由度10时t值 t0.01，5 置信度99自由度5时t值置信度越高，置信区间就越大，在统计学中，一般将置信度定在95或90。 S: 有限次测定的标准偏差 n: 测定次数 n=6 置信度置信度真值真值在置信区间出在置信区间出现的几率现的几率置信区间置信区间以以平均值为中心平均值为中心，真值出现的，真值出现的范围范围几种样本的置信区间 2. 可疑性检验可疑数据的取舍过失误差的判断 1 1） Q Q 检验法检验法步骤步骤: （1）

9、数据从小至大排列x1，x2 ，，xn （2）求极差xnx1 （3）确定检验端：比较可疑数据与相邻数据之差 xnxn-1 与 x2 x1 ，先检验差值大的一端（4）计算：三、数据的质量分析（5）根据测定次数和要求的置信度（如90%）查表：表2-2 不同置信度下，舍弃可疑数据的Q值表测定次数 Q0.90 Q0. 95 3 0.94 0.98 4 0.76 0.85 5 0.64 0.73 6 0.56 0.69 7 0.51 0.59 8 0.47 0.54 9 0.44 0.51 10 0.41 0.48 （6）将Q计与Q表（如Q 0.90）相比， Q计Q表舍弃该数据,

10、（过失误差造成）若Q计Q表保留该数据, （随机误差所致）当数据较少时舍去一个后，应补加一个数据。 2 2）格鲁布斯格鲁布斯(Grubbs)(Grubbs)检验法检验法步骤步骤: : （1）数据从小至大排列x1，x2 ，，xn （2）计算该组数据的平均值和标准偏差S （3）确定检验端：比较可疑数据与平均值之差 -x1 与 xn ，先检验差值大的一端（4）计算：讨论：由于格鲁布斯(Grubbs)检验法使用了所有数据的平均值和标准偏差，故准确性比Q检验法好。（5）根据测定次数和要求的置信度（如95%）查表：表2-3 不同置信度下，舍弃可疑数据的G 值表测定次数 G 0

11、.95 G 0. 99 3 1.15 1.15 4 1.46 1.49 5 1.67 1.75 6 1.82 1.94 7 1.94 2.10 8 2.03 2.22 9 2.11 2.32 10 2.18 2.41 （6）将G计与G表（如G 0.95）相比，若G计G表舍弃该数据, （过失误差造成）若G计G表保留该数据, （随机误差所致）当数据较少时舍去一个后，应补加一个数据。（3）查表（表），比较：若F计F表，说明两组数据的精密度存在显著性差异若F计F表，说明两组数据的精密度无显著性差异，再用t检验法检验两组数据的准确度有无显著性差异。 1 1）检验法检验法（1）计

12、算两个样本的方差S 2 （2）计算值： 3 显著性检验 2 2） t t 检验法检验法分析方法准确度的检验分析方法准确度的检验系统误差的判断系统误差的判断 (1)(1)平均值与标准值平均值与标准值( ( ) )的比较的比较 a . 计算t 值 b . 由要求的置信度和测定次数,查表得到: t表 c . 比较t计与t表 ,若t计 t表 , 表示有显著性差异,存在系统误差,被检验方法需要改进。若t计 t表 ,表示有显著性差异 t计 t表 ,表示无显著性差异数据的检验解决两类问题数据的检验解决两类问题: : 1.1. 可疑数据的取舍可疑数据的取舍过失误差的判断可疑值检验：用数理统计方法检验

13、测定数据是否存在应剔除的值方法：Q检验法和格鲁布斯检验法结论：确定某个数据是否可用 2.2. 分析方法的准确性分析方法的准确性系统误差的判断(对照试验是检查分析过程中有无系统误差的最有效方法) 显著性检验显著性检验：用数理统计方法检验被处理的数据是否存在统计上的显著性差异方法方法：t t 检验法和F F 检验法结论：结论：确定某种方法是否可用 4 异常值的检验 n异常值是指分析数据中特别高或特别低的含量值。 n特异值产生的原因： n（1）异常值：与特殊地质背景、土壤类型或用地类型相关，往往有一定的分布规律； n（2）分析数据错误：常呈单点出现，特高或特低。 4 异常值的检验

14、n可以使用Excel的数据分析功能绘制直方图、累计频率图等图件，由直方图可以较清晰的分辨出母体的多重性，以及离群值的分布状况。直方图的绘制与简要读图 5 质量分析 n项目收到成果资料后，应将重复样品的分析成果筛选出来，并按样品类型进行排列，即第一次采样第一次分析、第一次采样第二次分析，第二次采样第一次分析、第二次采样第二次分析，分别计算分析的偏差。计算公式为： 1）重复样品分析成果处理 5 质量分析 n设因素A具有n个不同的水平，如有n个不同的采样点A1 ，A2An。因素B具有m个不同的水平，如每个采样点重复采样m次或每个样重复分析m次，或有m个单位各分析一次等，即B

15、1，B2Bm。 n两因素方差分析的数学模型为： nXij=+i+j+ij （i=1,2,n），（ j=1,2,m） n式中Xij第i个采样点第j次分析结果（或第j次采样）；某元素含量的总平均值（即数学期望值）；i 第i个采样点的真值与实测平均值之差； j第j次分析（或第j次采样）间的系统误差；ij第i个采样点第j次分析（或第j次重复采样）的偶然误差。 2）两因素方差分析（1）首先计算各离差平方和 nSS总称为总离差平方和，其自由度f总 = nm1 nSSA称为A因素离差平方和（如采样点间的离差平方和，它反映的是元素的自然变化，即与重复采样和样品多次分析无关，其自由度fA = n1 nSSB称为B因素离差平方和（如多次重复采样的离差平方和或多次重复分析的离差平方和或多个分析单位间离差平方和等，它与采样的具体地点无关）。其自由度 fB=m1 nSSE称为剩余离差平方和（常常反映偶然误差平方和或分析及偶然误差离差平方和，即除A和B两个因素之外的因素）。其自由度 fE = f总fAfB =（n1）（m 1）计算步骤（2）计算样本方差（3）作F检验

展开阅读全文