偏最小二乘方法.ppt

上传人:资****亨 文档编号:127965249 上传时间:2020-04-07 格式:PPT 页数:48 大小:421.50KB
返回 下载 相关 举报
偏最小二乘方法.ppt_第1页
第1页 / 共48页
偏最小二乘方法.ppt_第2页
第2页 / 共48页
偏最小二乘方法.ppt_第3页
第3页 / 共48页
偏最小二乘方法.ppt_第4页
第4页 / 共48页
偏最小二乘方法.ppt_第5页
第5页 / 共48页
点击查看更多>>
资源描述

《偏最小二乘方法.ppt》由会员分享,可在线阅读,更多相关《偏最小二乘方法.ppt(48页珍藏版)》请在金锄头文库上搜索。

1、第六章偏最小二乘方法 偏最小二乘方法 PLS PartialLeastSquares 是近年来发展起来的一种新的多元统计分析法 现已成功地应用于分析化学 如紫外光谱 气相色谱和电分析化学等等 该种方法 在化合物结构 活性 性质相关性研究中是一种非常有用的手段 如美国Tripos公司用于化合物三维构效关系研究的CoMFA ComparativeMolecularFieldAnalysis 方法 其中 数据统计处理部分主要是PLS 在PLS方法中用的是替潜变量 其数学基础是主成分分析 替潜变量的个数一般少于原自变量的个数 所以PLS特别适用于自变量的个数多于试样个数的情况 在此种情况下 亦可运用主

2、成分回归方法 但不能够运用一般的多元回归分析 因为一般多元回归分析要求试样的个数必须多于自变量的个数 6 1多元线性回归 MLR 若自变量为m个 xj j 1 2 m 因变量为y 在y与xj间 我们可以建立一线性模型 即 6 1a 6 1b 6 1c 在式中 bj为回归系数 在式 6 1 中仅有一个试样 若有n个试样 即为yi i 1 2 n 它的列向量形式为y b与原来相同 矢量xj 为矩阵X的行 则 y Xb e 若用图形表示 则为 y XB e 1 m 1 1 n n n m 在此情况下 n为试样数 m为自变量数 有如下三种情况 1 m n 即变量数多于试样数 对于b来说 则有无穷多个解

3、 2 m n 变量数与试样数相等 若矩阵X满秩时 则矢量b有唯一解 但是 在实际工作中 这种情况是极少能碰到的 此时我们有 e y Xb 0 3 m n 变量数小于试样数 尽管我们得不到准确解b 但是可以使残差矢量e尽可能小而得到解 e y Xb 这就是我们所熟知的最小二乘法 其解为 6 2 在上边的叙述中 因变量为1个 而事实上可以有多个因变量 如有两个因变量y1和y2 我们可以简单地写成两个线性方程 y1 Xb1 e y2 Xb2 e 若用矩阵标表示 则 由此得到 Y XB E 对于2 P个因变量的图形表示为 Y XB E 2 p 2 p 2 p n m n m n 最小二乘的解为 6 3

4、 多元线性回归应用很广泛 因为在许多情况下该种方法具有良好的性能 但是 此种方法也有固有的缺点 假若体系的响应 即因变量 呈现线性 无干扰 无溶液间的相互作用 低噪声无共线性 则多元线性回归是一种非常好的方法 事实上 完全满足上述条件比较困难 当噪声较强 或干扰较严重时 有可能导致所得数学模型失真 如下例 运用式 6 3 则可得B矩阵 所用数学模型有效性的量度可用Err 式中 yik为矩阵Y中第i行第k列的矩阵元 为由矩阵B所得的计算值 ik为前面所介绍的矩阵E的矩阵元 此例中 Err 0 49 若由于噪音使得X增广一列 注意 对于试样浓度的测定 它并不包含有用信息 即 由此得到的B矩阵为 对

5、于此模型 Err 0 07 它比前者为小 这就意味着对于矩阵Y 第二个数学模型比第个要更有效 这是一种假象 由于X中引入最后一列 使得B2中上部3 3部分与前边所提B不相等 B为真实模型 由B2计算所得Y尽管误差要小 但其数学模型所描述的自变量与因变量间的关系并不真实 其原因主要为多元线性回归方法是采用整个X矩阵来建立数学模型 而并不顾及在X中的信息与真实模型相关与否 很显然 若所得结果偏离了其实际数学模型 则对于未知试样的预测也是错误的 为了克服多元线性回归的不足 在数学方法上引进了主成分回归方法 PCR 6 2主成分回归 主成分回归可分为两步 测定主成分数 并由主成分分析将X矩阵降维 对于

6、降维的X矩阵再进行线性回归分析 主成分分析的概念在前一章已经作了介绍 所谓主成分 它为一新的变量 而该新变量是原变量xij的线性组合 第一个主成分所能解释原变量的方差量最大 第二个次之 第三个再次之 等等 也就是说 主成分是一种线性组合 用它来表征原来变量时所产生的平方误差最小 运用主成分分析 原变量矩阵X可以表达为得分 即主成分 矩阵T 而T由X在本征矢量P上的投影所得 主成分与矩阵X的本征矢量一一对应 即T XP 设矩阵X的阶为I J 若T的阶与J相等 则主成分回归与多元线性回归所得结果相同 并不能显示出主成分回归的优越之处 选取的主成分数一般应该比J小 而删去那些不重要的主成分 因为这些

7、主成分所包含的信息主要是噪声 由此所得的回归方程稳定性较好 另外 由X所定义的空间可以进一步来说明主成分回归与多元线性回归的区别 多元线性回归应用了由X的列所定义的全部空间 而主成分回归所占用的是一子空间 当X的J列中 有一列可为其它J 1列的线性组合时 则X可用J 1列的矩阵T来描述 而并不丢失信息 新的矩阵T定义了X的一个子空间 综合上述 X可由它的得分矩阵T来描述 由于删去与小的本征值相应的维 所以T的维小于X的维 T XP 若用图形表示 则为 T XP a m a n n m 由此可得多线性方程 Y TB E 其解为 其图形表示为 Y TB E p p p a n n n a 主成分分

8、析可以解决共线问题 同时由于去掉了不太重要的主成分 因而可以削弱噪声 随机误差 所产生的影响 但是 由于主成分回归为二步法 若在第一步中消去的是有用的主成分 而保留的是噪声 则在第二步多元线性回归所得结果就将偏离真实的数学模型 6 3偏最小二乘 PLS 6 3 1基本原理 为了叙述上的方便 我们首先引进 因子 的概念 一个因子为原来变量的线性组合 所以矩阵的某一主成分即为一因子 而某矩阵的诸主成分是彼此相互正交的 但因子不一定 因为一因子可由某一成分经坐标旋转而得 在主成分回归中 第一步 在矩阵X的本征矢量或因子数测试中 所处理的仅为X矩阵 而对于矩阵Y中信息并未考虑 事实上 Y中亦可能包含非

9、有用的信息 所以很自然的一种想法是 在矩阵X因子的测试中应同时考虑矩阵Y的作用 偏最小二乘正是基于这种思想的一种回归方法 偏最小二乘和主成分分析很相似 其差别在于用于描述变量Y中因子的同时也用于描述变量X 为了实现这一点 在数学上是以矩阵Y的列去计算矩阵X的因子 与此同时 矩阵Y的因子则由矩阵X的列去预测 其数学模型为 6 4 及 6 5 此处 T和U的矩阵元分别为X和Y的得分 而P和Q的矩阵元分别为X和Y的装载 E和F分别为运用偏最小二乘模型法去拟合X和Y所引进的误差 T XP 主成分分析 TP XPP PP IX TP 因子分析 在理想的情况下 X中误差的来源和Y中的误差的来源完全相同 即

10、影响X与Y的因素相同 但实际上 X中误差与Y中误差并不相关 因而t u 但当两个矩阵同时用于确定因子时 则X和Y的因子具有如下关系 u bt e 6 6 式中b所表征的即为u和t间的内在关系 为了使因子T既可描述X矩阵 同时又可描述Y矩阵 则需采取折衷方案 即将T进行坐标旋转 显然 坐标旋转后的T因子对于X矩阵的表达已不再是最优的状况 如假设X矩阵和Y矩阵均为6 3 即行为6 列为3 在列空间 X和Y矩阵的行分别示于图6 1 上部 PLS第一个因子 t和u 方向在各自的空间均可解释试样的最大偏差 若PLS模型是正确的 将t对u作图则可得一线性关系 事实上 PLS要将各自空间中的因子进行折衷以增

11、加t对u的相关性 图6 1下部 由于这种折衷才可使所得数学模型较好地同时描述X和Y 在行空间 情况与列空间类同 图6 1PLS处理的图形表示 如有矩阵 见 6 2 数据的预处理为 每列减去相应列的平均值 mean centered PLS所得结果为 将t对u作图 图6 2 可显示出二者的线性关系 其斜率b 0 53 图6 2矩阵X的因子t对矩阵Y的因子u作图 对于未知试样的预测 要应用X和Y的得分模型及相关性bi 若有L个因子 则bl为表达第l个因子相关性的系数 其步骤为 由未知试样的测定值x末通过校正模型 式 6 4 计算出t末 进而由 式6 6 及bl可计算未知试样的得分矢量u末 最后由校

12、正模型 式6 5 得未知试样含量 u bt e 6 4 6 5 6 6 6 3 2偏最小二乘算法 1 校正模型的建立 首先我们从一最简单的模型开始 然后给出偏最小二乘的完整算法 若仅有二矩阵块 block 即X块和Y块 对于X 1 将某xj赋值给tstart 即tstart xj 5 比较步 2 和步 4 中的t 若二者相等 则停 否则转到 2 对于Y 1 将某yj赋值给ustart即ustart yi 5 比较步 2 和步 4 中的u 若二者相等 则停 否则到步 2 在上述的算法中 X和Y是分别独立进行的 为了建立二者内在的相关性 则将得分t和u在步 2 中的位置相交换 上述算法中的括号内部

13、分 1 令 8 将步 4 中t与前一次迭代所得t相比较 若二者相等 有一定的舍入误差 则停 否则转入步 2 若Y为一维 即仅一个变量 则跳过步 5 8 并置q 1 此算法一般收敛很快 所得到的为X和Y的经过旋转的主成分 即t不互相正交 其原因是在主成分计算中 运算的顺序发生了变化 因此 将权重w 见上述运算中括号内等式 替代p 并在收敛之后 再加入 以得到正交的t值 由 则可计算新的t t Xp p 其实此即为 T的相互正交并非绝对必要 但当与主成分回归比较时 t正交的条件还是需要满足的 当预测时 需将 作同样的标准化处理 否则 将引入误差 然后 t可用于内部的相关 下脚意为对于h因子 大小为

14、n 1 此处 其残差的计算分别为 将uh代入第二式 则得混合方程 由此混合方程可使模型参数用于测试集的预测 2 偏最小二乘算法 下面给出完整的一种偏最小二乘算法 若X和Y均已经过标准化处理 对于每一主成分 对于X块 对于Y 收敛测试 8 将步 4 中t与前一次迭代所得t相比较 若二者相等 包括一定的舍入误差 到步 9 否则到步 2 若Y仅有一个变量 则跳过步 5 8 并置q 1 计算X的装载 并重新标准化得分及权重 p q 和 用于预测 t和u用于 分类或诊断 计算回归系数b以用于内部关联 对于主成分h计算残差 之后 回到步 1 去进行下一主成分的运算 注 当第一个主成分运算之后 X在步 2

15、4 和步 9 及Y在步 5 和步 7 将分别由它们的残差Eh和Fh代替 3 未知样本预测 数学模型的求取 目的是用于未知样本的预测 其步骤为 1 如校正部分 将X及Y标准化 此时试样数为n1 而不是n 2 h 0 Y 均值 3 h h 1 4 h 主成分数 到步 5 否则到步 3 5 得到的Y为已经标准化 因此需按照标准化步骤的相反操作 将之恢复到原始坐标 4 关于主成分数 若X和Y间关系符合线性模型 则描述模型的主成分数应与模型的维数相等 主成分数是偏最小二乘模型的重要性质 由于测试数据一般隐含噪声 故主成分数通常与X的秩不相等 如前已述及 在实际问题的处理中 总是要消去一些因子 成分 因为

16、这些因子所表征的主要是测试误差 噪声及由于变量间相关所引起的共线问题等 确定主成分数的一种方法是以式 6 8 中Fh的模数为判据 图6 3为模数对主成分数所得关系曲线 可以选定某值作为门限 当小于此值时 则停止迭代 图6 3与偏最小二乘中因子书的关系 另一种方法是运用F检验来测试内在相关性 innerrelation 以确证所建立的模型 再一种方法为交叉验证法 在这种方法中计算一统计量PRESS predictionresidualsumofsquares 即预测残差之平方和 如图6 4所示 显然 人们总是希望采用某一主成分数时所产生的PRESS为最小 但最小的位置常难以准确确定 用这种方法确定主成数非常类似于测定下限的概念 所谓测定下限即在噪声存在下最小可以检出的信号 在图6 4的情况下 因子数可取4 8 图6 4PRESS与因子数的关系 5 应用实例 腐植酸和木质磺酸盐的荧光分光光度分析 5 磺酸木质素 ligninsulfonate 是水中的一种污染物 可用荧光分光光度法测定 尽管此种方法具有高灵敏度和高选择性 但在磺酸木质素的测试中腐植酸和去污剂中的光白剂 opticalwhi

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号