偏最小二乘回归是一种新型的多元统计数据分析方法,它与

资源描述

《偏最小二乘回归是一种新型的多元统计数据分析方法,它与》由会员分享，可在线阅读，更多相关《偏最小二乘回归是一种新型的多元统计数据分析方法,它与（18页珍藏版）》请在金锄头文库上搜索。

1、1偏最小二乘回归是一种新型的多元统计数据分析方法，它与 1983 年由伍德和阿巴诺等人首次提出。近十年来，它在理论、方法和应用方面都得到了迅速的发展。密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法。偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面：（1）偏最小二乘回归是一种多因变量对多自变量的回归建模方法。（2）偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的问题。在普通多元线形回归的应用中，我们常受到许多限制。最典型的问题就是自变量之间的多重相关性。如果采用普通的最小二乘方法，这种变量多重相关性就会严重危害参数估计，扩大模型误差，并破坏模型的稳定性。变量多重

2、相关问题十分复杂，长期以来在理论和方法上都未给出满意的答案，这一直困扰着从事实际系统分析的工作人员。在偏最小二乘回归中开辟了一种有效的技术途径，它利用对系统中的数据信息进行分解和筛选的方式，提取对因变量的解释性最强的综合变量，辨识系统中的信息与噪声，从而更好地克服变量多重相关性在系统建模中的不良作用。（3）偏最小二乘回归之所以被称为第二代回归方法，还由于它可以实现多种数据分析方法的综合应用。偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析由于偏最小二乘回归在建模的同时实现了数据结构的简化，因此，可以在二维平面图上对多维数据的特性进行观察，这使得偏最小二乘回归分析的图形功能十分强大。在

3、一次偏最小二乘回归分析计算后，不但可以得到多因变量对多自变量的回归模型，而且可以在平面图上直接观察两组变量之间的相关关系，以及观察样本点间的相似性结构。这种高维数据多个层面的可视见性，可以使数据系统的分析内容更加丰富，同时又可以对所建立的回归模型给予许多更详细深入的实际解释。一、偏最小二乘回归的建模策略原理方法21.1 建模原理设有 q 个因变量和 p 自变量。为了研究因变量和自变qy,.1 px,.1量的统计关系,我们观测了 n 个样本点,由此构成了自变量与因变量的数据表 X=和.Y= 。偏最小二乘回归分别在 X 与 Y 中提取出成分和px.1qy,.1 1t(也就是说, 是的

4、线形组合, 是的线形组合).在提取这两utpx1uqy,.个成分时,为了回归分析的需要,有下列两个要求:(1) 和应尽可能大地携带他们各自数据表中的变异信息;1t(2) 与的相关程度能够达到最大。u这两个要求表明，和应尽可能好的代表数据表 X 和 Y,同时自变量的成分 1t对因变量的成分又有最强的解释能力。1t在第一个成分和被提取后，偏最小二乘回归分别实施 X 对的回归1tu 1t以及 Y 对的回归。如果回归方程已经达到满意的精度，则算法终止；否则,1u将利用 X 被解释后的残余信息以及 Y 被解释后的残余信息进行第二轮的t 1t成分提取。如此往复，直到能达到一个较满意

5、的精度为止。若最终对 X 共提取了 m 个成分，，偏最小二乘回归将通过实施对，， 1tmt ky1tmt的回归,然后再表达成关于原变量，，的回归方程,k=1,2, ,q kyx1m。1.2 计算方法推导为了数学推导方便起见,首先将数据做标准化处理。X 经标准化处理后的数据矩阵记为 =( ， ) ，经标准化处理后的数据矩阵记为0E1p0njY=( ， ) 。0F1qFpn第一步记是的第一个成分，是的第一个轴，它是一个单位向1t01w0E量，既| |=1。1w3记是的第一个成分， = 。是的第一个轴，并且| |=1。1u0F1u0Fc10c1如果要，能分

6、别很好的代表 X 与 Y 中的数据变异信息，根据主成分分t1析原理，应该有Var( ) max1uVar( ) maxt另一方面，由于回归建模的需要，又要求对有很大的解释能力，有典型相1关分析的思路，与的相关度应达到最大值，既1tur（，） max1tu因此，综合起来，在偏最小二乘回归中，我们要求与的协方差达到最大，1tu既Cov( ， )= r( ， ) max1tu)(11tVart1正规的数学表述应该是求解下列优化问题，既 cw1,maxFE1010,s.t 1因此，将在| | =1 和| | =1 的约束条件下，去求( )的最大1212 w1E0Fc1值。如果采用拉格朗

7、日算法，记s= ( 1) ( 1)w1E0Fc1121对 s 分别求关于，，和的偏导并令之为零，有2= =0 (1 -2)1s011w= =0 (1-3)1cF0E12c14=( 1)=0 (1-4)1sw1=( 1)=0 (1-5)2c1由式(1-2)(1-5),可以推出 101021 ,cFwEc记 ,所以, 正是优化问题的目标函数值.021cFEw把式(1-2)和式(1-3)写成(1-6) 10 w(1-7) cEF将式(1-7)代入式(1-6),有(1-8) 12100 w同理,可得(1-9)1200 cFE可见, 是矩阵的特征向量,对应的特征值为 . 是目标函数值,它要1w

8、00FE21求取最大值,所以, 是对应于矩阵最大特征值的单位特征向量.而另100EF一方面, 是对应于矩阵最大特征值的单位特征向量.1c 21求得轴和后,即可得到成分w10wEtcFu然后,分别求和对 , 的三个回归方程0E1t(1-10)110Ept(1-11)Fqu5(1-12)10Frt式中,回归系数向量是(1-13)210|tEp(1-14)210|uFq(1-15)210|tr而 , , 分别是三个回归方程的残差矩阵.1EF1第二步用残差矩阵和取代和 ,然后,求第二个轴和以及第1EF0 2wc二个成分 , ,有2tu=2t1w=uFc2122,cFEt是对应

9、于矩阵最大特征值的特征值, 是对应于矩阵2w1E2最大特征值的特征向量.计算回归系数1FE212|tp212|tFr因此,有回归方程221EptFr如此计算下去,如果的秩是 ,则会有XA（1-16）ApttE10L6（1-17）AFrtrtF10L由于, 均可以表示成的线性组合,因此,式(1-17)还可以还原At,1LpE0,成关于的回归方程形式，即kkFy0*kjx0*k=1,2,qAkpkFxxy*1L是残差距阵的第 k 列。AkA1.3 交叉有效性下面要讨论的问题是在现有的数据表下,如何确定更好的回归方程。在许多情形下,偏最小二乘回归方程并不需要选用全部的成分进行回归建模

10、,而At1L是可以象在主成分分析一样,采用截尾的方式选择前 m 个成分,仅用这 m 个后续的成分就可以得到一个预测性较好)(,(XAm秩 t,1的模型。事实上,如果后续的成分已经不能为解释提供更有意义的信息时,采0F用过多的成分只会破坏对统计趋势的认识,引导错误的预测结论。在多元回归分析一章中,我们曾在调整复测定系数的内容中讨论过这一观点。下面的问题是怎样来确定所应提取的成分个数。在多元回归分析中,曾介绍过用抽样测试法来确定回归模型是否适于预测应用。我们把手中的数据分成两部分:第一部分用于建立回归方程 ,求出回归系数估计量,拟合值以及残差均方和 ;再用第二部分数据作为实验点,代入刚才所求

11、BbBy2B得的回归方程,由此求出。一般地,若有 ,则回归方程会有更好的Ty和 2TB预测效果。若 ,则回归方程不宜用于预测。2TB在偏最小二乘回归建模中,究竟应该选取多少个成分为宜,这可通过考察增加一个新的成分后,能否对模型的预测功能有明显的改进来考虑。采用类似于抽样测试法的工作方式,把所有 n 个样本点分成两部分: 第一部分除去某个样本点的i所有样本点集合( 共含 n-1 个样本点),用这部分样本点并使用 h 个成分拟合一个回归方程;第二部分是把刚才被排除的样本点代入前面拟合的回归方程,得到i在样本点上的拟合值。对于每一个 =1,2,n,重复上述测试,则可以定jyi)(ihjy7

12、义的预测误差平方和为 ,有jyhjPRES(1-18)niihjijhjy12)(定义 Y 的预测误差平方和为 ,有hPRES(1-19)pjhjhS1显然,如果回归方程的稳健性不好,误差就很大,它对样本点的变动就会十分敏感,这种扰动误差的作用,就会加大的值。hPRES另外,再采用所有的样本点,拟合含 h 个成分的回归方程。这是,记第个样本i点的预测值为 ,则可以记的误差平方和为 ,有hjiyjyhj(1-20)nihjiijhjS12)(定义 Y 的误差平方和为 ,有h(1-21)pjhjhS1一般说来,总是有大于 ,而则总是小于。下面比较hPREh 1hS和。是用全部样本

13、点拟合的具有 h-1 个成分的方程的拟合误1hShS1差; 增加了一个成分 ,但却含有样本点的扰动误差。如果 h 个成分的回PREht归方程的含扰动误差能在一定程度上小于(h-1)个成分回归方程的拟合误差,则认为增加一个成分 ,会使预测结果明显提高。因此我们希望的比ht )/(1hSPRE值能越小越好。在 SIMCA-P 软件中,指定 2195.0)/(hSPRE即时,增加成分就是有益的;或者反过来说,当195.0hhSPREt时,就认为增加新的成分 ,对减少方程的预测误差无明显S ht的改善作用.8另有一种等价的定义称为交叉有效性。对每一个变量 ,定义ky(1-22)khhkSPREQ

14、)1(2对于全部因变量 Y,成分交叉有效性定义为ht(1-23)1()1(2 hkhqkkh SPRESQ用交叉有效性测量成分对预测模型精度的边际贡献有如下两个尺度。ht(1) 当时, 成分的边际贡献是显著的。显而易0975.).1(22h ht见, 与是完全等价的决策原则。0Q2195.0)/(SPRE(2) 对于 k=1,2,q,至少有一个 k,使得 7.2hQ这时增加成分 ,至少使一个因变量的预测模型得到显著的改善,因此,也ht ky可以考虑增加成分是明显有益的。明确了偏最小二乘回归方法的基本原理、方法及算法步骤后，我们将做实证分析。附录function w=maxdet(A)%求矩阵的最大特征值v,d=eig(A);n,p=size(d);9d1=d*ones(p,1);d2=max(d1);i=find(d1=d2);w=v(:,i);%function c,m,v=norm1(C)%对数据进行标准化处理n,s=size(C);for i=1:nfor j=1:sc(i,j)=(C(i,j)-mean(C(:,j)/sqrt(cov(C(:,j);endendm=mean(C);for j=1:sv(1,j)=sqrt(cov(C(:,j);end%fu

展开阅读全文