1偏最小二乘回归是一种新型的多元统计数据分析方法,它与 1983 年由伍德和阿巴诺等人首次提出近十年来,它在理论、方法和应用方面都得到了迅速的发展密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面:(1)偏最小二乘回归是一种多因变量对多自变量的回归建模方法2)偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的问题在普通多元线形回归的应用中,我们常受到许多限制最典型的问题就是自变量之间的多重相关性如果采用普通的最小二乘方法,这种变量多重相关性就会严重危害参数估计,扩大模型误差,并破坏模型的稳定性变量多重相关问题十分复杂,长期以来在理论和方法上都未给出满意的答案,这一直困扰着从事实际系统分析的工作人员在偏最小二乘回归中开辟了一种有效的技术途径,它利用对系统中的数据信息进行分解和筛选的方式,提取对因变量的解释性最强的综合变量,辨识系统中的信息与噪声,从而更好地克服变量多重相关性在系统建模中的不良作用3)偏最小二乘回归之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用偏最小二乘回归偏最小二乘回归=多元线性回归分析多元线性回归分析+典型相关分析典型相关分析+主成分分析主成分分析由于偏最小二乘回归在建模的同时实现了数据结构的简化,因此,可以在二维平面图上对多维数据的特性进行观察,这使得偏最小二乘回归分析的图形功能十分强大。
在一次偏最小二乘回归分析计算后,不但可以得到多因变量对多自变量的回归模型,而且可以在平面图上直接观察两组变量之间的相关关系,以及观察样本点间的相似性结构这种高维数据多个层面的可视见性,可以使数据系统的分析内容更加丰富,同时又可以对所建立的回归模型给予许多更详细深入的实际解释一、一、 偏最小二乘回归的建模策略偏最小二乘回归的建模策略\原理原理\方法方法21.1 建模原理建模原理设有 q 个因变量{}和 p 自变量{}为了研究因变量和自变qyy ,.,1pxx ,.,1量的统计关系,我们观测了 n 个样本点,由此构成了自变量与因变量的数据表 X={}和.Y={}偏最小二乘回归分别在 X 与 Y 中提取出成分 和pxx ,.,1qyy ,.,11t(也就是说, 是 的线形组合, 是 的线形组合).在提取这两1u1tpxx ,.,11uqyy ,.,1个成分时,为了回归分析的需要,有下列两个要求:(1) 和应尽可能大地携带他们各自数据表中的变异信息;1t1u(2) 与 的相关程度能够达到最大1t1u这两个要求表明,和 应尽可能好的代表数据表 X 和 Y,同时自变量的成分 1t1u对因变量的成分 又有最强的解释能力。
1t1u在第一个成分和 被提取后,偏最小二乘回归分别实施 X 对 的回归1t1u1t以及 Y 对 的回归如果回归方程已经达到满意的精度,则算法终止;否则,1u将利用 X 被解释后的残余信息以及 Y 被 解释后的残余信息进行第二轮的1t1t成分提取如此往复,直到能达到一个较满意的精度为止若最终对 X 共提取了 m 个成分,…,,偏最小二乘回归将通过实施 对,…,, 1tmtky1tmt的回归,然后再表达成关于原变量,…,, 的回归方程,k=1,2,…,q kyx1xm1.2 计算方法推导计算方法推导为了数学推导方便起见,首先将数据做标准化处理X 经标准化处理后的数据矩阵记为=(,…,),经标准化处理后的数据矩阵记为0EE01Ep0pnjY=(,…,)0F01FqF0pn第一步 记是的第一个成分,是的第一个轴,它是一个单位向1t0E1w0E量,既||||=11w3记是的第一个成分,=是的第一个轴,并且||||=11u0F1u0Fc1c10Fc1如果要,能分别很好的代表 X 与 Y 中的数据变异信息,根据主成分分1t1u析原理,应该有Var()max1uVar()max1t另一方面,由于回归建模的需要,又要求对有很大的解释能力,有典型相1t1u关分析的思路,与的相关度应达到最大值,既1t1ur(,)max1t1u因此,综合起来,在偏最小二乘回归中,我们要求与的协方差达到最大,1t1u既Cov(,)=r(,) max1t1u)()(11utVarVar1t1u正规的数学表述应该是求解下列优化问题,既 cw11,maxcFwE1010,s.t 111' 11' 1ccww因此,将在|||| =1 和|||| =1 的约束条件下,去求()的最大1w2c12w'1E' 0F0c1值。
如果采用拉格朗日算法,记s=- (-1)- (-1)w'1E' 00Fc11w'11w2c'1c1对 s 分别求关于,,和的偏导并令之为零,有1wc112=-=0 (1 -2)1ws E' 00Fc1121w=-=0 (1-3)1cs F'00E1w22c14=-(-1)=0 (1-4)1sw'11w=-(-1)=0 (1-5)2sc'1c1由式(1-2)~(1-5),可以推出1010100'1' 21,22cFwEcFEw记,所以,正是优化问题的目标函数值.100'1' 21122cFEw1把式(1-2)和式(1-3)写成(1-6) 11100'wcFE(1-7)11100'cwEF将式(1-7)代入式(1-6),有(1-8) 12 1100' 00'wwEFFE同理,可得(1-9)12 1100' 00'ccFEEF可见,是矩阵的特征向量,对应的特征值为.是目标函数值,它要1w00' 00'EFFE2 11求取最大值,所以, 是对应于矩阵最大特征值的单位特征向量.而另1w00' 00'EFFE一方面, 是对应于矩阵最大特征值的单位特征向量.1c00' 00'FEEF2 1求得轴和后,即可得到成分1w1c101wEt 101cFu 然后,分别求和对,的三个回归方程0E0F1t1u(1-10)11' 10EptE(1-11)11' 10FquF5(1-12)11' 10FrtF式中,回归系数向量是(1-13)2 110'1||||ttEp (1-14)2 110'1||||uuFq (1-15)2 110'1||||ttFr 而,,分别是三个回归方程的残差矩阵.1E1F1F第二步 用残差矩阵和取代和,然后,求第二个轴和以及第1E1F0E0F2w2c二个成分,,有2t2u=2t1E2w=2u1F2c211'2' 222,cFEwut是对应于矩阵最大特征值的特征值, 是对应于矩阵2w11' 11'EFFE2 22c最大特征值的特征向量.计算回归系数11' 11'FEEF2 221'2||||ttEp 2 221'2||||ttFr 因此,有回归方程22' 21EptE22' 21FrtF如此计算下去,如果的秩是,则会有XA(1-16)AAptptE'1' 10L6(1-17)AAAFrtrtF'1' 10L由于,均可以表示成的线性组合,因此,式(1-17)还可以还原Att,,1LpEE001,,L成关于的回归方程形式,即kkFy0*kjEx0* k=1,2,…,qAkpkpkkFxxy** 11*L是残差距阵的第 k 列。
AkFAF1.3 交叉有效性交叉有效性下面要讨论的问题是在现有的数据表下,如何确定更好的回归方程在许多情形下,偏最小二乘回归方程并不需要选用全部的成分进行回归建模,而Att,,1L是可以象在主成分分析一样,采用截尾的方式选择前 m 个成分,仅用这 m 个后续的成分就可以得到一个预测性较好))(,(XAAm秩mtt,,1L的模型事实上,如果后续的成分已经不能为解释提供更有意义的信息时,采0F用过多的成分只会破坏对统计趋势的认识,引导错误的预测结论在多元回归分析一章中,我们曾在调整复测定系数的内容中讨论过这一观点下面的问题是怎样来确定所应提取的成分个数在多元回归分析中,曾介绍过用抽样测试法来确定回归模型是否适于预测应用我们把手中的数据分成两部分:第一部分用于建立回归方程,求出回归系数估计量,拟合值以及残差均方和;再用第二部分数据作为实验点,代入刚才所求BbBy ˆ2ˆB得的回归方程,由此求出一般地,若有,则回归方程会有更好的2ˆˆTTy和2ˆT2ˆB预测效果若 ,则回归方程不宜用于预测2ˆT2ˆB在偏最小二乘回归建模中,究竟应该选取多少个成分为宜,这可通过考察增加一个新的成分后,能否对模型的预测功能有明显的改进来考虑。
采用类似于抽样测试法的工作方式,把所有 n 个样本点分成两部分:第一部分除去某个样本点 的i所有样本点集合(共含 n-1 个样本点),用这部分样本点并使用 h 个成分拟合一个回归方程;第二部分是把刚才被排除的样本点 代入前面拟合的回归方程,得到i在样本点 上的拟合值对于每一个 =1,2,…,n,重复上述测试,则可以定jyi)(ˆihjyi7义的预测误差平方和为,有jyhjPRESS(1-18) niihjijhjyyPRESS12 )()ˆ(定义 Y 的预测误差平方和为,有hPRESS(1-19) pjhjhPRESSPRESS1显然,如果回归方程的稳健性不好,误差就很大,它对样本点的变动就会十分敏感,这种扰动误差的作用,就会加大的值hPRESS另外,再采用所有的样本点,拟合含 h 个成分的回归方程这是,记第 个样本i点的预测值为,则可以记的误差平方和为,有hjiy ˆjyhjSS(1-20) nihjiijhjyySS12)ˆ(定义 Y 的误差平方和为,有hSS(1-21) pjhjhSSSS1一般说来,总是有大于,而则总是小于下面比较hPRESShSShSS1hSS和。
是用全部样本点拟合的具有 h-1 个成分的方程的拟合误1hSShPRESS1hSS差; 增加了一个成分,但却含有样本点的扰动误差如果 h 个成分的回hPRESSht归方程的含扰动误差能在一定程度上小于(h-1)个成分回归方程的拟合误差,则认为增加一个成分,会使预测结果明显提高因此我们希望的比ht)/(1hhSSPRESS值能越小越好在 SIMCA-P 软件中,指定2 195. 0)/(hhSSPRESS即时,增加成分就是有益的;或者反过来说,当195. 0hhSSPRESSht时,就认为增加新的成分,对减少方程的预测误差无明显195. 0hhSSPRESSht的改善作用.8另有一种等价的定义称为交叉有效性对每一个变量,定义ky(1-22)khhk hkSSPRESSQ)1(21对于全部因变量 Y,成分交叉有效性定义为ht(1-23))1( )1(1211 hhkhqkhkhSSPRESSSSPRESS Q用交叉有效性测量成分对预测模型精度的边际贡献有如下两个尺度ht(1) 当时, 成分的边际贡献是显著的显而易0975. 0)95. 01 (22hQht见, 与是完全等价的决策原则。
0975. 02hQ2 195. 0)/(hhSSPRESS(2)对于 k=1,2,…,q,至少有一个 k,使得0975. 02hQ这时增加成分,至少使一个因变量的预测模型得到显著的改善,因此,也htky可以考虑增加成分是明显有益的ht明确了偏最小二乘回归方法的基本原理、方法。