互信息诱导子空间集成偏最小二乘在近红外光谱定量校正中的应用解析

资源描述

《互信息诱导子空间集成偏最小二乘在近红外光谱定量校正中的应用解析》由会员分享，可在线阅读，更多相关《互信息诱导子空间集成偏最小二乘在近红外光谱定量校正中的应用解析（8页珍藏版）》请在金锄头文库上搜索。

1、互信息诱导子空间集成偏最小二乘在近红外光谱定量校正中的应用I know no such thing as genius, it is nothing but labour and diligence. 【摘要】在集成框架下，提出了一种联合自助采样和基于互信息变量选择的子空间回归集成偏最小二乘算法MISEPLS。此算法的核心是通过训练集自助采样和随后计算互信息的方式来引入成员模型的差异性。由于互信息量小于一个特定阈值的变量被淘汰，每个成员模型在原始变量的一个子空间得到训练。模型融合考虑了简单平均和加权平均两种方式()。通过两个近红外光谱定量校正实验，与建立单模型的全谱偏最小二乘算法(PLS)和基

2、于互信息变量选择的偏最小二乘算法(MIPLS)进行了比较。结果表明，在不增加模型复杂度的情况下，MISEPLS能建立起更精确、更稳健的校正模型。Hide ones talents in a napkin. 【关键词】互信息，子空间，集成，校正，近红外光谱1引言近年来,近红外光谱(NIR)技术以其简便、快捷、低成本、无污染以及不破坏样品等优点，被越来越多地应用于石油、化工、医药、食品等领域1。近红外光谱对应分子中含氢基团的振动倍频与合频，加之各种干扰存在和物理因素影响，具有背景复杂、谱峰重叠、变动、信号弱的特点，其中的有效信息率非常低。因此，从复杂、重叠、变动的光谱信号中提取微弱的有用信息，并建

3、立校正模型是应用近红外光谱技术的难点和关键，直接决定了其可用性。化学计量学算法已成为近红外光谱技术的核心技术之一。具有代表性的化学计量学算法包括偏最小二乘(PLS)、人工神经网络(ANN),、支持向量机(SVM)1等(医药学/临床医学论文 )。传统的校正技术一般基于建立单一模型，在很多情况下，特别是当训练集较小时，单一模型的预测能力与稳健性难于达到要求1。起源于机器学习的集成或共识(Ensembleorconsensus)策略为解决该类任务提供了新思路1。所谓集成就是利用多个模型来解决同一个问题。对于模型设计者，不必试图采用复杂算法建立单个复杂模型，而是利用多个简单模型某种互补，可达到同样的目

4、标。通常，在集成框架下，需要通过某种扰动（如对样本或变量重采样）产生分散的训练子集，并建立相应的成员模型，再通过简单平均或加权平均等方式将多个成员模型整个合起来，最终产生一个所谓的集成模型。集成最早应用于模式识别，由于其呈现出的众多优势，在化学计量学领域也已受到广泛关注。文献中报道了一些有效的集成算法，如BaggingPLS1，BoostingKPLS1，SubaggingPLS1，ConsensusPLS1等。与单模型算法相比，集成类算法能更充分地利用训练样本信息，因而能产生更精确和更稳健的校正模型。在集成框架下，本研究提出了一种联合自助采样和基于互信息变量选择的子空间回归集成算法MISEP

5、LS。其主要特点是综合训练集自助采样(Bootstrap)1和互信息(Mutualinformation)1变量选择来引入成员模型的差异性。由于互信息量小于一个特定阈值的变量被淘汰，每个成员模型在原变量集的一个子空间训练，因此可避免多元共线性带来的诸多问题。同时，也比较了简单平均和加权平均两种模型整合（融合）方式。通过两个近红外光谱定量分析实例及与建立单模型的全谱偏最小二乘算法(PLS)、基于互信息变量选择的偏最小二乘算法(MIPLS)比较，验证了其综合性能：该算法能在不增加模型复杂度的前提下，显著提升校正模型的预测精度和稳健性。You never know what you can do t

6、ill you. 2原理与算法近红外光谱定量分析需借助校正模型。构建模型的过程即是校正，需根据校正集样本求回归系数b。不同的回归系数代表了不同的模型，具有不同的性能。在集成框架下，设计一个算法需考虑3个基本问题19：（1）成员模型类型“成员模型”即用于集成的单个模型，是与集成模型相比较而命名的。成员模型类型由基算法决定（基算法是训练成员模型的算法），所以成员模型也被称为基模型。本研究采用偏最小二乘（PLS）为基算法；（2）生成多个不同的成员模型本研究用自助(Bootstrap)重采样结合基于互信息计算的变量筛选方法。互信息是信息论中的重要概念，它可作为两个变量间相关性的量度，或一个变量包含另一

7、个变量的信息量的量度。设有随机变量x和y，它们的边缘概率分布和联合概率分布分别为Px(x),Py(x)和Pxy(x,y)，这两个变量间的互信息定义为：（x,y）=Px,y（x,y）Px(x)Py(y)Px,y(x,y)(1)可见，计算MI需先估计概率密度。一般先将x和y的取值范围细分为一定数量的小区间，并将XY平面划分为若干个方块，再通过统计直方图来近似概率分布。若x和y分别表示光谱某波长（波数）处响应和浓度，则MI(x,y)表示在获知样本在该波长变量的响应后，浓度值的不确定性减少的量。与相关系数相比，互信息能兼顾变量间的线性和非线性，而光谱响应与物质浓度间的非线性是普遍存在的；自助采样又使变

8、量间的互信息有所变化，这恰是集成建模所需的分散性，因此将互信息用在光谱集成校正中是可行的；（3）多个成员模型的融合本研究采用简单平均与加权平均两种方式。提出的MISEPLS算法主要包括以下步骤：（1）在训练样集上采用交叉验证的方式确定出最优全谱PLS模型的潜变量数Lvs（所有成员模型的潜变量数将设为这个数），并确定集成规模成员模型数（M）和候选成员模型总数。根据文献2，集成超过25个成员模型并无必要。因此，本研究固定这两个参数分别为30和100，即仅30%候选成员模型用于最后集成。（2）用自法助对原训练集重采样（随机有放回采样），产生一个同样大小的当前训练集。（3）在当前训练集上，计算光谱变量

9、和因变量（浓度）的互信息，产生互信息谱，并计算该谱的平均值(mean)和标准偏差(std.)。然后，定义阈值为：mean+1.5std.（根据前期实验研究）。通过仅保留互信息大于该阈值的变量，原光谱空间被削减为一个子空间，训练集光谱矩阵变为一小的子矩阵。（4）在子空间内，建立一个成员PLS模型fm(x)，并用其预测原始训练集样本，得RMSEC值；（5）重复步骤(2)(4)，直至候选成员模型数达到指定要求(100)。（6）根据RMSEC值从小到大对候选成员PLS模型排序，并保留前30个PLS模型用于集成。（7）用两种方法融合PLS模型为集成模型：(A)简单平均融合（SAF）；(B)加权平均融合(

10、WAF）。对于后者，还需求加权系数m。若用F(x)表示集成模型，则这两种融合方法可统一表示为：（x）=Mm=1mfm(x)（2）假设有N个训练样本，并用fm(xi)表示第m个成员PLS模型对第i个样本的预测值，yi表示浓度的参考值，则通过求解线性方程组：f1(x1)f2(x1)fM(x1)f1(x2)f2(x2)fM(x2)论文既是探讨问题进行科学研究的一种手段，又是描述科研成果进行学术交流的一种工具. f1(x)f2(x)fM(x)yyyN(3)可得加权系数m。当m=1(m=1,2,M)时，即为简单平均。可见，简单平均是加权平均的特例。一旦获得集成模型（系数向量），通过光谱与系数向量间的点积

11、运算即可对未知样品的浓度进行预测。两种融合策略SAF、WAF产生了MISEPLS算法的两个版本，分别用MISEPLS1和MISEPLS2表示。此外，基于互信息变量选择的建立单个PLS模型的算法用MIPLS表示。3实验部分3.1数据集本研究使用两个近红外光谱定量分析数据集：(1)烟草数据Cigarette：包含148个某卷烟厂的烟丝样本，扫描光谱范围为8302500nm（德国BRUKER公司MarixE仪器），每个光谱由691个数据点组成。每个样品的总糖(TS)和尼古丁(NIC)由连续流动分析仪（荷兰SKALAR公司San+仪器）给出，以质量百分数表示。所有样本均有TS参考值，仅81个样本有NI

12、C参考值。TS浓度范围为20.93%26.98%，标准偏差为1.46%；NIC浓度范围为1.59%2.76%，标准偏差为0.30%。对每一光谱均实施了变量标准化处理（SNV），以去除微粒尺寸和附加散射等物理效应的影响；(2)酒类数据Wine：该数据集来至文献2，包含124个酒类样本，扫描光谱范围为4004000cm1，每个光谱由256个数据点组成，并提供样本酒精(Alcohol)含量。3.2样本分割为构建校正模型并对其进行有效评价，需实施训练集和测试集分割。本研究采用样本排序与交替重采样相结合的方法来实现。排序采用Galvo等提出的SPXY算法22。该算法是在样本距离定义中引入了化学值（浓度）

13、，是对经典KS算法的扩展，特别适合于定量任务。在该分割方案中，先计算所有样本间的欧氏(Euclidean)距离，并挑选出相距最远的两个样本，再依次挑选出与已挑出样本具有“最大最小距离”的样本，直到所有的样本被挑出。按被挑出的次序，样本排列成一个序列；再用间隔采样，以21的比例产生训练集和测试集，结果如表1第3列所示。4结果与讨论In a great river great fish are found; but take heed lest you be drowned. 4.1算法性能比较采用两个基于均方误差（RMSE）的指标评价和比较不同算法的性能，对训练集和测试集，RMSE分别表示为RM

14、SEC与RMSEP。表1总结了4种算法所产生的校正模型的性能。考虑到自助采样具有一定的随机性，除全谱PLS外，其余3种算法(MIPLS，MISEPLS1，MISEPLS2)都运行100次，表1中后3列均为100次运行所建模型RMSEP的均值和标准偏差。对于TS，NIC和Alcohol，MISEPLS将变量数由原来的691，691和256分别减少到84，47和25，在一个小的子空间建模，使得变量数小于训练样本数。表14种算法校正模型的性能比较（略）论文教育信息网http:/ Table1PerformancecomparisonofthefourkindsofcalibrationAnswer

15、a fool according to his folly. 对于TS，MIPLS所建单模型的性能稍优于全谱PLS模型，而对于NIC和Alcohol，MIPLS所建单模型的性能不及全谱PLS模型，说明在互信息诱导的子空间内，建立单个模型并不可靠。而采用MISEPLS方法，所得校正模型却明显优于全谱PLS模型。以MISEPLS1为例，对于三成分，RMSEP均值分别由0.5585，0.0980和0.1790减小到0.5058，0.0815和0.1077。MISEPLS2与MISEPLS1类似，并无显著差别。此外，比较MIPLS和MIEPLS1/MISEPLS2还可发现，后者RMSEP的标准偏差平均低一个数量级以上，说明MISEPLS方法对训练集的依赖程度更低，稳健性较好。以Alcohol为例，图1显示了原始光谱的均值谱、一次运行中256个光谱变量与Alcohol量的互信息谱及在100个侯

展开阅读全文