偏最小二乘法基本知识

资源描述

《偏最小二乘法基本知识》由会员分享，可在线阅读，更多相关《偏最小二乘法基本知识（7页珍藏版）》请在金锄头文库上搜索。

1、偏最小二乘法（PLS）简介-数理统计偏最小二乘法 partial least square method 是一种新型的多元统计数据分析方法，它于 1983年由伍德(S.Wold)和阿巴诺(C.Albano)等人首次提出。近几十年来，它在理论、方法和应用方面都得到了迅速的发展。偏最小二乘法长期以来，模型式的方法和认识性的方法之间的界限分得十分清楚。而偏最小二乘法则把它们有机的结合起来了，在一个算法下，可以同时实现回归建模(多元线性回归) 、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。这是多元统计数据分析中的一个飞跃。偏最小二乘法在统计应用中的重要性体现在以下几个方面：

2、偏最小二乘法是一种多因变量对多自变量的回归建模方法。偏最小二乘法可以较好的解决许多以往用普通多元回归无法解决的问题。偏最小二乘法之所以被称为第二代回归方法，还由于它可以实现多种数据分析方法的综合应用。主成分回归的主要目的是要提取隐藏在矩阵 X 中的相关信息，然后用于预测变量 Y 的值。这种做法可以保证让我们只使用那些独立变量，噪音将被消除，从而达到改善预测模型质量的目的。但是，主成分回归仍然有一定的缺陷，当一些有用变量的相关性很小时，我们在选取主成分时就很容易把它们漏掉，使得最终的预测模型可靠性下降，如果我们对每一个成分进行挑选，那样又太困难了。偏最小二乘回归可以解决这个问题。它采用对变量 X

3、和 Y 都进行分解的方法，从变量 X 和Y 中同时提取成分( 通常称为因子)，再将因子按照它们之间的相关性从大到小排列。现在，我们要建立一个模型，我们只要决定选择几个因子参与建模就可以了基本概念偏最小二乘回归是对多元线性回归模型的一种扩展，在其最简单的形式中，只用一个线性模型来描述独立变量 Y 与预测变量组 X 之间的关系:Y= b0 + b1X1 + b2X2 + . + bpXp 在方程中，b0 是截距，bi 的值是数据点 1 到 p 的回归系数。例如，我们可以认为人的体重是他的身高、性别的函数，并且从各自的样本点中估计出回归系数，之后，我们从测得的身高及性别中可以预测出某人的大致体重。

4、对许多的数据分析方法来说，最大的问题莫过于准确的描述观测数据并且对新的观测数据作出合理的预测。多元线性回归模型为了处理更复杂的数据分析问题，扩展了一些其他算法，象判别式分析，主成分回归，相关性分析等等，都是以多元线性回归模型为基础的多元统计方法。这些多元统计方法有两点重要特点，即对数据的约束性：1.变量 X 和变量 Y 的因子都必须分别从 XX 和 YY 矩阵中提取，这些因子就无法同时表示变量 X 和 Y 的相关性。2.预测方程的数量永远不能多于变量 Y 跟变量 X 的数量。偏最小二乘回归从多元线性回归扩展而来时却不需要这些对数据的约束。在偏最小二乘回归中，预测方程将由从矩阵 YXXY 中提取

5、出来的因子来描述；为了更具有代表性，提取出来的预测方程的数量可能大于变量 X 与 Y 的最大数。简而言之，偏最小二乘回归可能是所有多元校正方法里对变量约束最少的方法，这种灵活性让它适用于传统的多元校正方法所不适用的许多场合，例如一些观测数据少于预测变量数时。并且，偏最小二乘回归可以作为一种探索性的分析工具，在使用传统的线性回归模型之前，先对所需的合适的变量数进行预测并去除噪音干扰。因此，偏最小二乘回归被广泛用于许多领域来进行建模，象化学，经济学，医药，心理学和制药科学等等，尤其是它可以根据需要而任意设置变量这个优点更加突出。在化学计量学上，偏最小二乘回归已作为一种标准的多元建模工具。计算过

6、程基本模型作为一个多元线性回归方法，偏最小二乘回归的主要目的是要建立一个线性模型：Y=XB+E，其中 Y 是具有 m 个变量、n 个样本点的响应矩阵，X 是具有 p 个变量、n 个样本点的预测矩阵，B 是回归系数矩阵，E 为噪音校正模型，与 Y 具有相同的维数。在通常情况下，变量 X 和 Y 被标准化后再用于计算，即减去它们的平均值并除以标准偏差。偏最小二乘回归和主成分回归一样，都采用得分因子作为原始预测变量线性组合的依据，所以用于建立预测模型的得分因子之间必须线性无关。例如：假如我们现在有一组响应变量 Y(矩阵形式 )和大量的预测变量 X(矩阵形式) ，其中有些变量严重线性相关，我们使用提

7、取因子的方法从这组数据中提取因子，用于计算得分因子矩阵：T=XW，最后再求出合适的权重矩阵 W，并建立线性回归模型：Y=TQ+E，其中 Q 是矩阵 T 的回归系数矩阵，E 为误差矩阵。一旦 Q 计算出来后，前面的方程就等价于 Y=XB+E，其中 B=WQ，它可直接作为预测回归模型。偏最小二乘回归与主成分回归的不同之处在于得分因子的提取方法不同，简而言之，主成分回归产生的权重矩阵 W 反映的是预测变量 X 之间的协方差，偏最小二乘回归产生的权重矩阵 W 反映的是预测变量 X 与响应变量 Y 之间的协方差。在建模当中，偏最小二乘回归产生了 pxc 的权重矩阵 W，矩阵 W 的列向量用于计算变量 X

8、的列向量的 nxc 的得分矩阵 T。不断的计算这些权重使得响应与其相应的得分因子之间的协方差达到最大。普通最小二乘回归在计算 Y 在 T 上的回归时产生矩阵 Q，即矩阵 Y 的载荷因子(或称权重)，用于建立回归方程：Y=TQ+E。一旦计算出 Q，我们就可以得出方程：Y=XB+E，其中 B=WQ，最终的预测模型也就建立起来了。非线性迭代偏最小二乘法用于计算偏最小二乘回归的一种标准算法是非线性迭代偏最小二乘法(NIPALS)，在这种算法中有许多变量，有些被规范化了，有些却没有。下面提到的算法被认为是非线性迭代偏最小二乘法中最有效的一种。对 h=1.c，且 A0=XY,M0=XX, C0=I，变量

9、c 已知。计算 qh，AhAh 的主特征向量。wh=GhAhqh,wh=wh/|wh|，并将 wh 作为 W 的列向量。ph=Mhwh,ch=whMhwh, ph=ph/ch，并将 ph 作为 P 的列向量。qh=Ahwh/ch，并将 qh 作为 Q 的列向量。Ah+1=Ah- chphqh，Bh+1=Mh - chphph Ch+1=Ch- whph 得分因子矩阵 T 可以计算出来：T=XW，偏最小二乘回归系数 B 也可由公式 B=WQ 计算出。SIMPLS 算法还有一种对偏最小二乘回归组分的估计方法，被称为 SIMPLS 算法。对 h=1.c，且 A0=XY,M0=XX, C0=I，变量

10、c 已知。计算 qh，AhAh 的主特征向量。wh=Ahqh,ch=whMhwh, wh=wh/sqrt(ch)，并将 wh 作为 W 的列向量。ph=Mhwh，并将 ph 作为 P 的列向量。qh=Ahwh，并将 qh 作为 Q 的列向量。vh=Chph，vh=vh/|vh| Ch+1=Ch- vhvh，Mh+1=Mh - phph Ah+1=ChAh与 NIPALS 相同，SIMPLS 的 T 由公式 T=XW 计算出，B 由公式 B=WQ计算。其他的简介：偏最小二乘法是一种新型的多元统计数据分析方法，它于 1983 年由伍德(S.Wold)和阿巴诺(C.Albano)等人首提示来的 ,偏

11、最小二乘法有机的结合起来了，在一个算法下，可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析) 以及两组变量之间的相关性分析( 典型相关分析)。这是多元统计数据分析中的一个飞跃。偏最小二乘法在统计应用中的重要性体现在以下几个方面：偏最小二乘法是一种多因变量对多自变量的回归建模方法。偏最小二乘法可以较好的解决许多以往用普通多元回归无法解决的问题。偏最小二乘法之所以被称为第二代回归方法，还由于它可以实现多种数据分析方法的综合应用。主成分回归的主要目的是要提取隐藏在矩阵 X 中的相关信息，然后用于预测变量 Y 的值。这种做法可以保证让我们只使用那些独立变量，噪音将被消除，从而达到改

12、善预测模型质量的目的。但是，主成分回归仍然有一定的缺陷，当一些有用变量的相关性很小时，我们在选取主成分时就很容易把它们漏掉，使得最终的预测模型可靠性下降，如果我们对每一个成分进行挑选，那样又太困难了。偏最小二乘回归可以解决这个问题。它采用对变量 X 和 Y 都进行分解的方法，从变量 X 和Y 中同时提取成分( 通常称为因子)，再将因子按照它们之间的相关性从大到小排列。现在，我们要建立一个模型，我们只要决定选择几个因子参与建模就可以了基本概念偏最小二乘回归是对多元线性回归模型的一种扩展，在其最简单的形式中，只用一个线性模型来描述独立变量 Y 与预测变量组 X 之间的关系:Y = b0 + b1

13、X1 + b2X2 + . + bpXp 在方程中，b0 是截距，bi 的值是数据点 1 到 p 的回归系数。例如，我们可以认为人的体重是他的身高、性别的函数，并且从各自的样本点中估计出回归系数，之后，我们从测得的身高及性别中可以预测出某人的大致体重。对许多的数据分析方法来说，最大的问题莫过于准确的描述观测数据并且对新的观测数据作出合理的预测。多元线性回归模型为了处理更复杂的数据分析问题，扩展了一些其他算法，象判别式分析，主成分回归，相关性分析等等，都是以多元线性回归模型为基础的多元统计方法。这些多元统计方法有两点重要特点，即对数据的约束性：变量 X 和变量 Y 的因子都必须分别从 XX 和

14、 YY 矩阵中提取，这些因子就无法同时表示变量 X 和 Y 的相关性。预测方程的数量永远不能多于变量 Y 跟变量 X 的数量。偏最小二乘回归从多元线性回归扩展而来时却不需要这些对数据的约束。在偏最小二乘回归中，预测方程将由从矩阵 YXXY 中提取出来的因子来描述；为了更具有代表性，提取出来的预测方程的数量可能大于变量 X 与 Y 的最大数。简而言之，偏最小二乘回归可能是所有多元校正方法里对变量约束最少的方法，这种灵活性让它适用于传统的多元校正方法所不适用的许多场合，例如一些观测数据少于预测变量数时。并且，偏最小二乘回归可以作为一种探索性的分析工具，在使用传统的线性回归模型之前，先对所需的合适的变量数进行预测并去除噪音干扰。因此，偏最小二乘回归被广泛用于许多领域来进行建模，象化学，经济学，医药，心理学和制药科学等等，尤其是它可以根据需要而任意设置变量这个优点更加突出。在化学计量学上，偏最小二乘回归已作为一种标准的多元建模工具。如果在 Eviews 中消除异方差性用 wls,就够了, 如果不知道异方差的形式,就用 HACsas 可以实现，用 proc pls;

展开阅读全文