偏最小二乘回归分析

资源描述

《偏最小二乘回归分析》由会员分享，可在线阅读，更多相关《偏最小二乘回归分析（4页珍藏版）》请在金锄头文库上搜索。

1、偏最小二乘回归分析偏最小二乘回归法是一种新型的多元统计数据分析方法，它主要研究的是多因变量对多自变量的回归建模，特别当各变量内部高度线性相关时，用偏最小二乘回归法更有效。另外，偏最小二乘回归较好地解决了样本个数少于变量个数等问题。考虑p个因变量Y , Y，,Y与m个自变量x ,x ,x的建模问题。偏最小二12 p12 m乘回归的基本作法是首先在自变量集中提出第一成分u（u是x ,x ,x的线性 1112 m组合，且尽可能多地提取原自变量集中的变异信息）；同时在因变量集中也提取第一成分v，并要求u与v相关程度达到大。然后建立因变量Y , Y，,Y与U的11112p 1回归，如果回归方程已

2、达到满意的精度，则算法中止。否则继续第二对成分的提取，直到能达到满意的精度为止。若终对自变量集提取r个成分u ,u ,u，偏 1 2 r 小二乘回归将通过建立y , Y ,Y与u , u ,u的回归式，然后再表示为12p12rY , Y ,Y与原自变量的回归方程式，即偏小二乘回归方程式。12p为了方便起见，不妨假设p个因变量Y , Y ,Y与m个自变量x , x ,x均12 p12 m为标准化变量。自变量组和因变量组的 n 次标准化观测数据矩阵分别记为A=A11 1m,B =_ b11.b.1pA Abbn1nm一 n1np步骤：（1）分别提取两变量组的第一对成分，假设从两组变量分别提出

3、第一对成分为U并使之相关性达到最大。和V , u是自变量集X = x , x ,x T11112 nT 的线性v ， u11的线性组合u =a x +a x =p（1）tX , v是因变量集Y =111 11 m m1组合v =P y +卩y =y（1）tY。为了回归分析的需要，要求：111 11 p p u和v各自尽可能多的提取所在变量组的变异信息；11 U和V的相关程度达到最大。11由两组变量集的标准化观测数据矩阵A和B，可以计算第一对成分的得分向量, 记为U和V1 11m ma11A1ma11u = Ap（1）=1v = Ay（1）=1An1b11Anmb1 pa1m卩11bn1第一对成

4、分u和v的协方差Cov（u ,v ）可用第一对成分的得分向量U和V的内积 1 1 1 1 1 1 来计算。故而以上两个要求可化为数学上的极值条件问题p-B丿=PT AtB （I）max（U , v ）=11P (1)T p (1)=p(1)f=1y (1)Ty (1) = |y(1)=1利用Larange数乘法，问题化为求单位向量p和y，使6 = p (1)t At By (1)达到最 1大。问题的求解只需通过计算mxm矩阵M = AtBBtA的特征值和特征向量，且 M的最大特征值为6 2，相应的单位特征向量就是所求的解p(1)，而y可有p(1) 1计算得到，即(2)建立 y , y ,12假

5、定回归模型为1y =孑 B t Ap(i).1x ,x ,x对u的回归。其中：c =c , c , Q11 12J A = u c (1)T + A,B = u t(i)t + B . 11T ,t, ,t11 12 1 pT，分别是多对一的回归模型中的参数向量；A和B是残差阵。回归系数向量c(1), T(1)的最小二乘估计为111m1 2 m 1atuc二 -B吃T =1.ujl2称c(1)，T(1)为模型效应负荷量。(3) 用残差阵A和B代替A和B，重复以上步骤。11记A = uc(1)t,B = uT(1)t，则残差阵A = A- A,B = B-B。如果残差阵B中元素的 1 1 1

6、1 1 绝对值近似为0，则认为用第一个成分建立的回归式精度已满足需求了，可以停止抽取成分。否则用残差阵A和B代替A和B重复以上步骤，即得11T,P,a Jr,y二B，,P212m212 p而u = A p(2),v = By为第二对成分的得分向量，且2 1 2 1At uBtuc =1_ ,T =1_2 Kii2XII2分别为X, Y的第二对成分的负荷量。这时有I A = u c (1)T + u c (2)T + A ,J 1 2 2I B = u T (1)T + u T T + B .1 2 2(4) 设nx m数据阵A的秩为r min(n- 1,m)，则存在r个成分u ,u ,u，使

7、12 r得J1rrB = u T (1)T HH u T (r )T + B .1rr把u =a x + +a x ,k = 1,2,r，代入 Y = ut + + u t(门，即得 p 个因变量k k 1 1km m1的最小二乘回归方程式为y = c x + c x ,j = 1,2,p.jj 1 1jm m(5) 交叉有效性性检验每次舍去第i个观测数据(i二1,2,n)，对余下的n-1个观测数据用偏最小二乘回归方法进行建模，并考虑抽取h(h 0.952.SS (h 1)时，就认为增加新的成分uz，对减少方程的预测误差无明显的改善作用。h与传统多元线性回归模型相比，偏最小二乘回归的特点是：(1) 能够在自变量存在严重多重相关性的条件下进行回归建模；(2) 允许在样本点个数少于变量个数的条件下进行回归建模；(3) 偏最小二乘回归在最终模型中将包含原有的所有自变量；(4) 偏最小二乘回归模型更易于辨识系统信息与噪声(甚至一些非随机性的噪声)；(5) 在偏最小二乘回归模型中，每一个自变量的回归系数将更容易解释。

展开阅读全文