[整理](真正的好东西)偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析

资源描述

《[整理](真正的好东西)偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析》由会员分享，可在线阅读，更多相关《[整理](真正的好东西)偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析（24页珍藏版）》请在金锄头文库上搜索。

1、偏最小二乘回归是一种新型的多元统计数据分析方法，它与1983年由伍德和阿巴诺等人首次提出。近十年来，它在理论、方法和应用方面都得到了迅速的发展。密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法。偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面：（1）偏最小二乘回归是一种多因变量对多自变量的回归建模方法。（2）偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的问题。在普通多元线形回归的应用中，我们常受到许多限制。最典型的问题就是自变量之间的多重相关性。如果采用普通的最小二乘方法，这种变量多重相关性就会严重危害参数估计，扩大模型误差，并破坏模型的稳定性。变量

2、多重相关问题十分复杂，长期以来在理论和方法上都未给出满意的答案，这一直困扰着从事实际系统分析的工作人员。在偏最小二乘回归中开辟了一种有效的技术途径，它利用对系统中的数据信息进行分解和筛选的方式，提取对因变量的解释性最强的综合变量，辨识系统中的信息与噪声，从而更好地克服变量多重相关性在系统建模中的不良作用。（3）偏最小二乘回归之所以被称为第二代回归方法，还由于它可以实现多种数据分析方法的综合应用。偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析由于偏最小二乘回归在建模的同时实现了数据结构的简化，因此，可以在二维平面图上对多维数据的特性进行观察，这使得偏最小二乘回归分析的图形功

3、能十分强大。在一次偏最小二乘回归分析计算后，不但可以得到多因变量对多自变量的回归模型，而且可以在平面图上直接观察两组变量之间的相关关系，以及观察样本点间的相似性结构。这种高维数据多个层面的可视见性，可以使数据系统的分析内容更加丰富，同时又可以对所建立的回归模型给予许多更详细深入的实际解释。偏最小二乘回归的建模策略原理方法1.1建模原理设有q个因变量 yi,，yq和p自变量咅,Xp。为了研究因变量和自变量的统计关系，我们观测了n个样本点，由此构成了自变量与因变量的数据表X= Xi,.,Xp和.Y= yi,.,yq。偏最小二乘回归分别在X与丫中提取出成分t和 Ui （也就是说，ti是Xi

4、，.,Xp的线形组合,Ui是yi,., yq的线形组合）.在提取这两个成分时，为了回归分析的需要，有下列两个要求：（1）ti和Ui应尽可能大地携带他们各自数据表中的变异信息；（2）ti与Ui的相关程度能够达到最大。这两个要求表明，ti和Ui应尽可能好的代表数据表 X和丫,同时自变量的成分 ti对因变量的成分Ui又有最强的解释能力。在第一个成分ti和Ui被提取后，偏最小二乘回归分别实施X对ti的回归以及丫对Ui的回归。如果回归方程已经达到满意的精度，则算法终止；否则 , 将利用X被ti解释后的残余信息以及丫被ti解释后的残余信息进行第二轮的成分提取。如此往复，直到能达到一个较满意的精度为止

5、。若最终对X共提取了 m个成分ti . tm偏最小二乘回归将通过实施yk对ti . tm 的回归,然后再表达成yk关于原变量x i x m的回归方程，k=i,2,q。1.2计算方法推导为了数学推导方便起见，首先将数据做标准化处理。X经标准化处理后的数据矩阵记为Eo=（ E0i，Ep）nxp，Yj经标准化处理后的数据矩阵记为F0 =（ F0i，F0q ） n p 。第一步记ti是Eo的第一个成分，Wi是Eo的第一个轴，它是一个单位向量，既 |wi | = i。记Ui是Fo的第一个成分，Ui=FoCi。Ci是Fo的第一个轴，并且|lCill=i。如果要t1 U1能分别很好的代表X与丫中的数据

6、变异信息，根据主成分分析原理，应该有Var(ujr maxVar(ti) max另一方面，由于回归建模的需要，又要求t1对U1有很大的解释能力，有典型相关分析的思路，1与5的相关度应达到最大值，既r (t1 u1) t max因此，综合起来，在偏最小二乘回归中，我们要求 t1与5的协方差达到最大，既Cov(t1uj=、；Var (tJVar (uJ r(t1uJ t max正规的数学表述应该是求解下列优化问题，既maxW1Cs.tW1 W1 i.C1 C1 i因此，将在|W1=1和|c2=1的约束条件下，去求(W1 E。FoC1)的最大值。如果采用拉格朗日算法，记S=W1 E 0 Fo C1

7、 _ 1 (W1 W1 - 1)_ 2 对s分别求关于W1C1 1和 2的偏导并令之为零，有(Ci Ci -1)-S小 = E0F0 C1 -21W1=0(1 -2)-：s = FoEw1- 2, 2 C1=0(1-3)-sT- =- (W1 W1 -1)=0(1-4).s=-(c1ciT)=(1-5)由式(1-2)(1-5)，可以推出II2 /.i 22 二 w1 E 0 FqC ： E oW , F oC匸记* =2i =22二wiEqFqCi,所以正是优化问题的目标函数值把式(1-2)和式(1-3)写成IEqFqC=二1 w(1-6)IF qEqw1 =日心(1-7)将式(1-7)代入式

8、(1-6),有 .2E q FqF qEqw1 =包 w1(1-8)同理，可得2F qEoEqFoG -片 c1(1-9)可见,w1是矩阵EqFqFqEq的特征向量，对应的特征值为宀2.宀是目标函数值，它要求取最大值，所以，W1是对应于Eq FqFqEq矩阵最大特征值的单位特征向量.而另一方面,C1是对应于矩阵fqEqEqFq最大特征值刊2的单位特征向量.求得轴w1和C1后,即可得到成分b = EqW1u - FqC1然后,分别求Eq和Fq对t1 , U1的三个回归方程Eq 二1E1(1-10)Fq 二 mql F 1(1-11)(1-12)式中，回归系数向量是Pl 二qiE otiF o

9、u12l|Ui |2F ot12lltlll2(1-13)(1-14)(1-15)而E1,F 1, F1分别是三个回归方程的残差矩阵第二步用残差矩阵E1和F1取代Eo和Fo，然后，求第二个轴W2和C2以及第二个成分t2,U2,有t2= E1 W2U2 = F1 C2-2 上2, u?二 w2 EC2IIQW2是对应于矩阵E1F1F1E1最大特征值二2的特征值,C2是对应于矩阵F1E1E1F1最大特征值的特征向量计算回归系数E 1t2F 1t2llt2因此，有回归方程E1 = t2 P 2 E2IF t2r 2 F2如此计算下去，如果X的秩是A,则会有(1-16)(1-17)Eo =匕 p1 t

10、AP AF0 二1tArA Fa由于,t1,tA均可以表示成E1,Ep的线性组合，因此，式(1-17)还可以还原成y二Fk关于Xj*=Ek的回归方程形式，即yk =k1 Xi kpX p FAkk=1,2,qFar是残差距阵Fa的第k列。1.3交叉有效性下面要讨论的问题是在现有的数据表下，如何确定更好的回归方程。在许多情形下,偏最小二乘回归方程并不需要选用全部的成分ti,，tA进行回归建模，而是可以象在主成分分析一样，采用截尾的方式选择前m个成分（m ：代A二秩（X）,仅用这m个后续的成分切，垢就可以得到一个预测性较好的模型。事实上,如果后续的成分已经不能为解释Fo提供更有意义的信息时，采

11、用过多的成分只会破坏对统计趋势的认识，引导错误的预测结论。在多元回归分析一章中，我们曾在调整复测定系数的内容中讨论过这一观点。下面的问题是怎样来确定所应提取的成分个数。在多元回归分析中，曾介绍过用抽样测试法来确定回归模型是否适于预测应用。我们把手中的数据分成两部分：第一部分用于建立回归方程，求出回归系数估计量 bB,拟合值?b以及残差均方和B；再用第二部分数据作为实验点，代入刚才所求得的回归方程，由此求出？T和岸。一般地若有禽，?B,则回归方程会有更好的预测效果。若；?；，?；,则回归方程不宜用于预测。在偏最小二乘回归建模中，究竟应该选取多少个成分为宜，这可通过考察增加一个新的成分

12、后，能否对模型的预测功能有明显的改进来考虑。采用类似于抽样测试法的工作方式，把所有n个样本点分成两部分：第一部分除去某个样本点i的所有样本点集合（共含n-1个样本点）,用这部分样本点并使用h个成分拟合一个回归方程;第二部分是把刚才被排除的样本点i代入前面拟合的回归方程，得到yj在样本点i上的拟合值？町（书。对于每一个i=1,2,n,重复上述测试，则可以定义yj 的预测误差平方和为PRESS有nPRESShj 八（yij -?hj（4）2（1-18）i =1定义丫的预测误差平方和为PRESSh，有pPRESS 八 PRESShj(1-19)j4显然,如果回归方程的稳健性不好，误差就很大,

13、它对样本点的变动就会十分敏感, 这种扰动误差的作用，就会加大PRESSh的值。另外,再采用所有的样本点，拟合含h个成分的回归方程。这是，记第i个样本点的预测值为？hji，则可以记Yj的误差平方和为SShj，有nSShj 八(Yij - ?hji )2(1-20)i=1定义丫的误差平方和为SSh，有pSS,八 S0(1-21)j m一般说来,总是有PRESSh大于SSh,而SSh则总是小于SSh。下面比较SSh和PRESSh。SSh是用全部样本点拟合的具有h-1个成分的方程的拟合误差PRESSh增加了一个成分th，但却含有样本点的扰动误差。如果h个成分的回归方程的含扰动误差能在一定程度上小于(

14、h-1)个成分回归方程的拟合误差，则认为增加一个成分th,会使预测结果明显提高。因此我们希望 (PRESSh/SShG的比值能越小越好。在SIMCA-P软件中，指定(PRESSh/SSh40.952即PRESS岂0.95SSh 4时,增加成分th就是有益的；或者反过来说,当.PRESS 0.95 SSh时,就认为增加新的成分th,对减少方程的预测误差无明显的改善作用.另有一种等价的定义称为交叉有效性。对每一个变量yk,定义2hkPRES%SS；h -4)k(1-22)-1对于全部因变量丫,成分th交叉有效性定义为qx PRESShk(1-23)22hk PRESShQ2 =1 _ =1h:一 SS(h)kSSg)用交叉有效性测量成分th对预测模型精度的边际贡献有如下两个尺度。(1) 当Qh 一(1 -0.952) =0.0975时，th成分的边际贡献是显著的。显而易见，Q2 0.0975与(PRESSh /SSh)：0.952是完全等价的决策原则。(2) 对于k=1,2,q,至少有一个k,使得Q -0.0975这时增加成分th,至少使一个因变量yk的预测模型得到显著的改善，因此，也可以考虑增加成分th是明显有益的。明确了偏最小二乘回归方法的基本原理、方法及算法步骤后，我们将做实证分析。fun cti

展开阅读全文