化学校正理论与主成分分析的应用

上传人:宝路 文档编号:2844867 上传时间:2017-07-28 格式:PPT 页数:63 大小:1.69MB
返回 下载 相关 举报
化学校正理论与主成分分析的应用_第1页
第1页 / 共63页
化学校正理论与主成分分析的应用_第2页
第2页 / 共63页
化学校正理论与主成分分析的应用_第3页
第3页 / 共63页
化学校正理论与主成分分析的应用_第4页
第4页 / 共63页
化学校正理论与主成分分析的应用_第5页
第5页 / 共63页
点击查看更多>>
资源描述

《化学校正理论与主成分分析的应用》由会员分享,可在线阅读,更多相关《化学校正理论与主成分分析的应用(63页珍藏版)》请在金锄头文库上搜索。

1、化学校正理论与主成分分析的应用,华东理工大学仪器分析教研室倪力军,校正(calibration):利用已知样本的信息建立自变量与未知量间的数学关系的过程,也可以说是一个建立定量模型过程。多元校正(multivariate calibration): 利用测得的多变量信息对混合物体系进行浓度预测的一种化学计量学方法。很多分析仪器都配有化学校正方法软件(HPLC、GC、NIR),常用概念,预测(prediction):预测未知样本信息的过程 校正集(calibration set):用于建模的已知样本集合 检验集(validation set):用于检验模型准确性的一组已知测定结果的样本集合 预测

2、集(prediction set):用于预测的未知样本集合。,分析化学校正理论发展的背景,(1)新型仪器(如色谱、光谱、波谱、极谱等)可提供含有样本的定性(结构)与定量信息的谱(多变量数据)。每一谱图在数学上可看成一个矢量。 (2)许多数学上过去由于计算困难而难以应用的问题也得以解决; (3)联用仪器还可产生矩阵(张量)类型的数据信息(如GC-MS, HPLC-DAD, GC-IR, HPLC-MS, 多维核磁共振谱等),分析仪器的进展促成了化学计量学中的校正理论从简单的一元校正到多元校正的发展。多元校正研究对象是以矩阵形式表达的Lambert-Beer Law,将化学原理与线性代数、统计、优

3、化等数学方法结合,提出了各类多元校正方法。多元校正理论目的是不经过分离或掩蔽实现多组分系统的同时测定,使得很多受实验条件限制而难以开展的定性、定量分析可以借助于数学方法和计算机手段去解决 。,校正理论的发展过程,标准曲线法单变量校正(相当于一元线性回归):经典分析化学的常用校正方法 直接校正:(1)多元线性回归(multiple linear regression, 简称MLR)(2)卡尔曼滤波法 间接校正:(1)K矩阵法;(2)P矩阵法;(3)主成分回归(PCR);(4)偏最小二乘法(PLS),单变量校正在HPLC中的应用,单变量校正在HPLC中的应用,建立校正表,第二个峰对应物质的标准工作

4、曲线,第5个峰对应物质的标准工作曲线,多元校正的理论基础,(53)是多元校正理论的基础,采用不同的方法确定系数矩阵B,形成不同的多元校正方法。,直接校正多元线性回归,原理:用纯组分灵敏度系数构成的矩阵直接代替(5-3)式中的系数矩阵B,然后求未知样本浓度矩阵X。注意:此处的多元线性回归的含义与统计回归分析中的意义不同:模型参数矩阵B不是由校正集矩阵X与Y回归得到的。,MLR法适用范围,混合物系中定性组分已知的白色体系; 体系的响应值与组分浓度间呈线性关系; 各组分的光谱之间线性无关(即光谱曲线形状相差很大,如果不同组分光谱曲线间存在倍数关系或完全重迭,相当于B矩阵中存在相关的行,会造成矩阵BB

5、T奇异,无法求逆); 各组分间无相互作用或相互作用很小。,例1:亮氨酸(组分1),异亮氨酸(组分2)均能与茚三酮发生显色反应,形成有色络合物。在546nm到590nm间每隔4nm测定纯组分1、2溶液的吸光度。用单变量校正曲线方法求得组分1、2在对应波长下的吸收系数,见表1。配制4个由组分1、2构成的混合物样本,经显色反应后在相同条件下分别测定4个样本的吸光度,吸光度值见表2。试用MLR法求4个混合物样品中组分1、2的浓度。,由(54)可求出4个混合物的浓度矩阵,结果见表53。,MLR法预测的组分浓度值与实测值相差很大,甚至出现负值,为什么?,这两种氨基酸的光谱曲线形状十分相似,矩阵B的行接近相

6、关,使得BBT病态,求逆时会带来很大误差,造成MLR模型预测值不合理。,间接校正法K矩阵法,基本思路根据混合物的校正矩阵X、Y,借助最小二乘法求得灵敏度系数矩阵B,然后根据B去求得未知待测混合物的各组分的浓度。基本模型优点可消除由纯组分物性代替其在混合物中物性带来的误差。,基本算法缺点 需要求两次逆,在各组分响应信号重叠较多时难免会增大计算误差,例2:对不同浓度的亮氨酸、异亮氨酸组成的16个混合样品,采用与例1相同条件测其吸光度。利用实验所得的16个样本的吸光度数值,由(5-12)可得K矩阵为: 配制3个混合物样本作为检验集,测定这3个样本在对应波长下的吸光度矩阵Y。由(5-13)有: X3*

7、2=YKT(KKt)-1 , X3*2的结果见表5-4。,结果比K矩阵法有所改进,但误差仍然较大。原因:Y接近相关造成K的行接近相关,对KKt求逆带来很大误差。,间接校正法P矩阵法,模型:P为回归系数矩阵未知样本浓度预测不足:校正集样本数n必须大于或等于测试点数p 。通常用选择测试点的办法降低p的个数。,主成分回归(PCR),PCR采用相互正交的矢量组成的矩阵替代矩阵Y,剔除了噪声,求回归系数矩阵时,不存在矩阵奇异无法求逆的问题,使校正模型的准确性得以提高。因而既保持了P-矩阵法可进行实验设计和一步计算的优点,又克服了P-矩阵法要丢失大部分量测信息及损失估计准确性的不足。,偏最小二乘(Part

8、ial Least Square),交叉验证(Cross-validation),用PCR、PLS建模时,取几个主成分,模型预测性能最好?依次取1m个主成分,在每个主成分下建模时,取n-1个建模,留第一个做检验,然后取第二个样本做检验,其余n-1个样本建模,将n个模型预测值与实际值的误差平方求和,称为PRESS (prediction sum of squares)。对应PRESS最小的主成分个数即为最佳建模主成分数。 此时模型的预测效果最好,这一过程叫交叉验证。,PCA的应用,用偏最小二乘方法建立 丹参提取过程的在线检测模型 近红外光谱是介于可见光和中红外之间,频率 为400010000cm

9、-1的谱区,分子内部的含氢基团 (C-H,N-H,O-H等)在这一谱区内产生伸缩 振动与弯曲振动的倍频与合频吸收。由于有机 物分子中一般都含有这些基团,因此这一谱区 包含了丰富的物质信息。可作为定性、定量分 析的基础。,不同提取时间下丹参水提液的NIR谱图,不同提取时间下丹参水提液的HPLC谱图,不同提取时间下的丹参酮IIA与 丹酚酸B的HPLC面积百分比,丹参酮IIA最小二乘建模 (取1300nm1600nm与1200nm2400nm的 二阶导数光谱分析),丹参酮IIA偏最小二乘建模分析结果 (最佳主因子数3),丹参酮IIA偏最小二乘建模分析结果 (相关系数R2=0.9427),丹参酮IIA

10、偏最小二乘建模分析结果 因子数、相关系数、校正标准差、PRESS,丹参水提液中丹参酮IIA的实测值与预测值,丹酚酸B偏最小二乘建模(取1300nm1600nm和2200nm2400nm的一阶导数光谱分析),丹酚酸B最小二乘建模分析结果 (最佳主因子数5),丹酚酸B偏最小二乘建模分析结果 (相关系数R2=0.9143 ),丹酚酸B偏最小二乘建模分析结果 因子数、相关系数、校正标准差、PRESS,丹参水提液中丹酚酸B的实测值与预测值,小结: K-矩阵、P-矩阵、PCR以及PLS方法相互贯通,经历了一个逐步发展的过程:P-矩阵法克服了K-矩阵法要求两次逆而引起误差扩大的缺点;主成分回归则克服了P-矩

11、阵不满秩求逆或需丢失光谱信息的弱点,采用PCA分解量测矩阵Y得其广义逆而显著改善了P-矩阵法;PLS则不仅分解矩阵Y也分解浓度矩阵X,并同时考虑这两个矩阵间的线性关系与相互影响,比PCR具有更好的回归预测效果。,多元校正理论的新进展,神经元网络结合PCA进行多元建模:如对光谱信息用PCA进行压缩,抽提若干主成分作为神经元输入节点值,需预测的组分浓度作为输出值。对偏最小二乘(PLS)的改进算法NIPLS引进数学中的一些新方法(如稳健算法、岭回归法等)建立多元校正模型。,校正理论在现代分析仪器中的应用,化学计量学的发展与计算机技术的普及给现代分析仪器带来了新的发展契机与革命。近红外技术(NIR)的

12、发展与普及就是一个典型的例子。NIR是一种测量技术,它能反映共价键联接的有机化合物的振动光谱。 NIR是一种分光光度学技术,遵循比尔(Beer)定律,A=abc;A是吸收率;a是分子衰减系数;b是样品的光程长;c是分析物浓度。,NIR区域(11002500nm或400010000波数)中活跃的吸收带是组合带及其谐波带。它分为四个子区域,在子区域中含R-H功能的分子,包括取代基的作用,都会吸收近红外辐射,每个子区域吸收的线性动态浓度范围响应不同的光程长度。总的来说是从中度(大于0.01%)浓度范围到纯(100%)浓度的范围都有NIR吸收。,合适的NIR分光仪拥有较高的能量(光通量),可以用来测定

13、粉末、颗粒和液体(包括混浊悬浮液)样品。光导纤维常用来把NIR射线从仪器传输到样品。 NIR采用化学计量学方法去“标定”或仿效一个分析过程。一旦模型建立和被检验通过,它就可以被使用或转移给其它的NIR仪器使用。, NIR技术被广泛应用的原因 (1)高分析速度; (2)极少或不需要样品预处理; (3)无需使用化学试剂或溶液; (4)高动态浓度范围; (5) 较深的样品穿透率,NIR光谱仪可以用来解决两类问题:(1)定性分析 一系列有代表性的样品经过光谱分析、数据经统计学评估通过后,加入到光谱数据库中,作为将来评估未知样品时使用的预测数据资料库。对新的样本用模式识别得方法确定其归属或分类。,(2)

14、定量分析(多元校正) 对于事先准备好的(浓度已知)样品依次进行NIR测试,相应谱图数据保存在校正表中,选择合适的回归模型(如多元线性回归、PCR、PLS等)建立谱图数据与样品浓度间的关系,然后进行模型校验。对于未知样品,其浓度可以根据所建模型与NIR光谱数据预测。,用烟叶的NIR光谱测定尼古丁含量,烟叶样品的NIR一阶导数谱,用已知样品进行PLS建模结果,尼古丁实测值与模型预测值,近红外光谱法测定缓释制剂中冰片释放量,冰片缓释制剂的制备:将冰片、乙基纤维素和聚乙二醇4000按两种不同配比制得两种缓释制剂(样品1与样品2),将其溶于一定量的乙醇中,在室温下不断搅拌使乙醇挥发,混合物再放置至没有乙

15、醇味得到冰片固体分散物。 近红外建模样品制备:因乙基纤维素不溶于50%乙醇,准确称取一定量的冰片和聚乙二醇4000,溶于50%乙醇溶液,配制成冰片浓度范围在0.6-10 mg/ml之间的一系列标准溶液作为建模样品。,实验步骤(1)以空气作参比,环境温度保持25,将配制好的建模样品放入2mm石英比色皿进行扫描,获取其近红外光谱。(2)将制备的缓释样品1和2分别溶于50乙醇溶液,于10分钟开始,每隔一定时间取样1ml进行近红外光谱测试,得到不同时间点下2个缓释制剂醇水溶液的近红外光谱。,冰片醇水溶液的近红外光谱,不同浓度范围PLS法建模结果,原始光谱,建模区间:5314-7032 cm-1,模型2预测两种缓释制剂冰片释放度,冰片相对累积释放率Ci/C,其中Ci为定时取 样的样品浓度,C为完全释放时样品浓度,思考题,化学计量学中多元校正的目的是什么?多元校正中的多元线性回归(MLR)适用前提是什么?该法存在哪些不足?主成分回归法(PCR)有哪些优点? 为什么PLS方法比PCR具有更好的回归预测精度? 校正理论中的多元线性回归与统计分析中的多元线性回归有什么区别? PCA在PCR及PLS方法中起到什么作用?,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号