文档详情

偏最小二乘回归方法

公****
实名认证
店铺
DOCX
204.47KB
约14页
文档ID:383651014
偏最小二乘回归方法_第1页
1/14

偏最小二乘回归方法1偏最小二乘回归方法2任)背景介绍在经济管理、教育学、农业、社会科学、工程技术、医学和生物学中,多元线性回归分 析是一种普遍应用的统计分析与预测技术 .多元线性回归中,一般采用最小二乘方法(Ordinary Least Squares : OLS)估计回归系数,以使残差平方和达到最小,但当自变量之 间存在多重相关性时,最小二乘估计方法往往失效.而这种变量之间多重相关性问题在多元 线性回归分析中危害非常严重,但又普遍存在为消除这种影响,常采用主成分分析(principal Components Analysis :PCA)的方法,但采用主成分分析提取的主成分,虽然能较好地概括自 变量系统中的信息,却带进了许多无用的噪声,从而对因变量缺乏解释能力最小偏二乘回归方法(Partial Least Squares Regression: PLS)就是应这种实际需要而产生和 发展的一种有广泛适用性的多元统计分析方法它于1983年由S.Wold和C.Albano等人首次 提出并成功地应用在化学领域近十年来,偏最小二乘回归方法在理论、方法和应用方面都 得到了迅速的发展,己经广泛地应用在许多领域,如生物信息学、机器学习和文本分类等领 域。

偏最小二乘回归方法主要的研究焦点是多因变量对多自变量的回归建模,它与普通多元 回归方法在思路上的主要区别是它在回归建模过程中采用了信息综合与筛选技术它不再是 直接考虑因变量集合与自变量集合的回归建模,而是在变量系统中提取若干对系统具有最佳 解释能力的新综合变量(又称成分),然后对它们进行回归建模.偏最小二乘回归可以将建模 类型的预测分析方法与非模型式的数据内涵分析方法有机地结合起来,可以同时实现回归建 模、数据结构简化(主成分分析)以及两组变量间的相关性分析(典型性关分析),即集多元 线性回归分析、典型相关分析和主成分分析的基本功能为一体.下面将简单地叙述偏最小二 乘回归的基本原理2偏最小二乘法的工作目标21偏最小二乘法的工作目标在一般的多元线性回归模型中,如果有一组因变量丫=忆,...%}和一组自变量XHXj".*}, 当数据总体能够满足高斯一马尔科夫假设条件时,根据最小二乘法,有Y =X (XtX) -1XtY『将是Y的一个很好的估计量从这个公式容易看出,由于(XtX)必须是可逆矩阵,所以 当X中的变量存在严重的多重相关性时,或者在X中的样本点数与变量个数相比显然过少时, 这个最小二乘估计都会失效并将引发一系列应用方面的困难。

考虑到这个问题,偏最小二乘回归分析提出了采用成分提取的方法在主成分分析中, 对于单张数据表X,为了找到能最好地概括原数据的综合变量在X中提取了第一主成分F1, 使得F1中所包含的原数据变异信息可达到最大,即Var(F1)f max在典型相关分析中,为了从整体上研究两个数据表之间的相关关系,分别在X和Y中提取了 典型成分F1和G1,它们满足r(F1,G1) —maxFiT Fi=1G心1在能够达到相关度最大的综合变量F1和G1之间,如果存在明显的相关关系,则可以认 为,在两个数据表之间亦存在相关关系提取成分的做法在数据分析的方法中十分常见,除主成分、典型成分以外,常见到的还 有Fisher判别法中的判别成分.实际上,如果F是X数据表的某种成分,则意味着F是X中 变量的某一线性组合F=Xa,而F作为一个综合变量,它在X中所综合提取的信息,将满足 我们特殊的分析需要2偏最小二乘回归分析的建模方法设有q个因变量{",...,*}和P个自变量{x1,…,xp},为了研究因变量与自变量的统 计关系,观测n个样本点,由此构成了自变量与因变量的数据表XTxj,...,xp】n*p和Y=【yj"., Yq I n ^q °偏最小二乘法回归分别在X与Y中提取出t1和u1(也就是说,t1是x1".,xp的线性组合,u1是 y1,...,yq的线性组合)°在提取这两个成分时,为了回归分析的需要,有下列两个要求:(1) t1和u1应尽可能大地携带它们各自数据表中的变异信息(2) t1和u1的相关程度能达到最大这两个要求表明,^和u1应尽可能好地代表数据表X和Y,同时自变量的成分t1对因变 量的成分u1又有最强的解释能力。

在第一个成分t1和u1被提取后,偏最小二乘法回归分别实施X对t1的回归以及Y对t1 的回归.如果方程达到了满意的精度,则算法终止否则,将利用X被t1解释后的残余信息以 及Y被t1解释后的残余信息进行第二轮的成分提取.如此递推,直到能达到一个较为满意的 精度为止若最终对X共提取了 m个成分t1?^,tm,偏最小二乘法回归将通过实施Yk对如."皿 的回归,然后再表达成Yk关于原变量x^Xp的回归方程,k=1,…,q3计算方法推导3.1普遍采用的计算推导过程为了数学推导方便起见,首先将数据做标准化处理X经标准化处理后的数据矩阵记为En=(E,…,,Y经过标准化处理后的数据矩阵记为Fn=(F ._,F ) . o 0 01 0P’n*p' 0 01, 9 0q n 沏第一步,记t1是E0的第一个成分,JEoWj,w1是E0的第一个轴,它是一个单位向量,即 ||w1 II =1 ;记U1是F0的第一个成分,u1=F0c19 C1是F0的第一个轴,它是一个单位向量,即 I I c1| I =1.如果要t1,%能分别很好德代表X与Y中的数据变异信息,根据主成分分析原理应该 有Var (t】)—maxVar(U])—max另一方面,由于回归建模的需要,又要求t1对u1有最大的解释能力,由典型相关分析 的思路,.与u1的相关度应达到最大值,即r (Ju】)一max因此综合起来,在偏最小二乘回归中9我们要求t1与%协方差达到最大,即Cov(t1, u1)=^Var(t1)Var(u1)r(t1, ul) t max即求解下列优化问题I max W1T W1=1 (3-1)C1T c1=1因此,将在||wj|=1和| I C1| I =1的约束条件下9去求(WjTEoTFoCj)的最大值。

此种情 况下我们就可以用拉格朗日算法求其最优解,记s= w tE tF C —入 (w T w —1)-入(c T c -1) s w10 0c1 1、VV1T w1 2、c1' C1 J■/对s分别求关于 w「c「入「入2的偏导,并令之为零,有ds伽=E0TF0C1-2 入 1 w1 = 0(3—2)1ds=FnTE w-2 V, c=0(3-3)dc0 0 1 2 11dsd人1=—(w1T w1—1)=0(3-4)ds苛=-(c』C1-1) =0 (3-5)2由(3-2广(3—5)可以推出2 入 1=2 入 2= witEotFoci= 记01=2入1=2入2= witE0tF0c1,所以91是优化问题的目标函数值把式(3—2)和式(3—3)写成EoTFoC1= ©1 W1 (3-6)FoTEoW1= ©1 C1 (3-7)将式(3—7)代入式(3-6),有EotFoFotEoW1= ©12 W1 (3-8)由式(3—8)可知,W1是矩阵EotFoFotEo特征向量,对应的特征值为©12, ©1是目标函数值,要求取得其最大值,所以w1是对应于矩阵EotFoFotEo最大特征值©12的单位特征向量。

求得轴w1和c1后,即可得到成分t1=E0W1U1=Foc1然后,分别求Eo和Fo对t1和U1的回归方程E = t Pt + E , F = uQT + F*, F = t r + F0 1 1 1 0 1 1 1 0 1 1 1其中,P = ETt /t ||2, Q = FTu /|U ||2,向量r = FTt /t ||2; e,F"〔为回归1 0 1 1 1 01、" 1 0 1 1 111方程的残差矩阵第2成分t2的提取,以E1取代Eo ,、取代Fo ,用上面的方法求第2个轴W2和第2个成分t2,有W = .1^, t = E W2时财2 11同样局,f1分别对t2做回归,得到E = t Pt + E , F = trT + F1 2 2 2 1 2 2 2同理可推得第h成分th, h的个数可以用交叉有效性原则进行,h小于X的秩如此计算下去,如果X的秩为A,则会有E0=t1P1T+-+tAPATF0= t1r1T+-+tArAT+FA由于",.•.,tA均可以表示成eo1,...,eop的线性组合,因此,上式可以还原成yk=fok关于Xj=E0J的回归方程形式YK=bkiXi+“・+ bkpXp+FAK k=1, ..,q3.2 一种简洁的计算推导过程3.1中介绍的推导思路是最为常见的,在3。

2中将介绍一种更为简洁的计算方法,即直 接在E0,...,Em-1矩阵中提取成分",...,%(m〈p).要求th能尽可能多地携带X中的信息,同时,th 对因变量系统F0有最大的解释能力这时无需在F0中提取成分uh,并且在迭代算法中也无 需使用其残差矩阵,而始终直接用F0进行计算这可以使计算过程大为简化,并且对算法结 论的解释也更为方便下面讨论成分",...,tm(m〈=A,A=R(X))的一种新原则1中推导偏最小二乘法 回归算法时,第一步的思路是在因变量F0抽取一个成分u1=F0c1,同时在自变量E0中抽取一 个成分t, E w成分的抽取原则是max1= 0 1 0 1 0 1在这个原则下得知W/ CpU/ t1的计算方法如下:(1) w1是矩阵E0tF0F0tE0最大特征值的特征向量,成分t1=E0w1;(2) c1是矩阵F0tE0E0tF0最大特征值的特征向量,成分u1=F0c1;在求得成分u1,t1以后,分别实施E0在t1上的回归,并生成残差矩阵Ej,以及F0在t1 上的回归,得到残差矩阵、.再以E1,F1取代EF0进行第二轮成分的提取计算,注意到成分 %,...,um是不参加回归计算的,因此是否可以考虑不提取因变量的成分呢?为此,用下述原则提取比变量中的成分t2是与3.1中介绍的方法,结果是完全等价的, 即踏*网)由于f0K是标准化变量,所以Cov(F0K, £热)=龙以(EOwl) r(F0K,E0W1)因此,该优化原则是求成分t ^w,使得t,能携带尽可能多的E。

变异,同时,t对因 1= 0 1 1 0 1变量F0K(k=1,...,q)的解释能力会综合达到最大值由于在目标函数上配上常量(n—1)2 不影响其求解,即£ £(n—1)2 Cov2(F, E w )= 〈 F, E w >20K, 0 1 0K, 0 1k=1 k=1=' w.T E„tF F„.jE,w= wt E/r( ' F 〜,F 〜,t)E-w.= w.t E„tF F tF w.k=1k=11 0 0K 0K 0 1 1 0 0K 0K 0 1 1 0 0 0 0 1为了求w1采用拉格朗日算法求解,记s= ' < Fc,, E„w >2- X (WT w“一1)= w T E„tF F tE w - X (W“T w-1)0K 0 1 V1 1 7 100001 1 1 1 7k=1对s求关于w1和X J的偏导,并令之为零,得ds如=2 E0TF0F0TE0w1-2 X 1 w1=0 (3—9)1ds~d^ = -( w1T w1—1) =0 (3 —10。

下载提示
相似文档
正为您匹配相似的精品文档