偏最小二乘法回归建模案例

上传人:n**** 文档编号:88916384 上传时间:2019-05-13 格式:DOC 页数:21 大小:1.50MB
返回 下载 相关 举报
偏最小二乘法回归建模案例_第1页
第1页 / 共21页
偏最小二乘法回归建模案例_第2页
第2页 / 共21页
偏最小二乘法回归建模案例_第3页
第3页 / 共21页
偏最小二乘法回归建模案例_第4页
第4页 / 共21页
偏最小二乘法回归建模案例_第5页
第5页 / 共21页
点击查看更多>>
资源描述

《偏最小二乘法回归建模案例》由会员分享,可在线阅读,更多相关《偏最小二乘法回归建模案例(21页珍藏版)》请在金锄头文库上搜索。

1、人工智能课程论文 论文题目:论文题目: 偏最小二乘算法(PLS)回归建模 学生姓名:学生姓名: 张帅帅 学学 号:号: 172341392 专专 业:业: 机械制造及其自动化 所在学院:所在学院: 机械工程学院 年 月 日 人工智能 偏最小二乘法 (PLS) - 1 - 目录 偏最小二乘回归1 摘要1 1 偏最小二乘回归原理 1 2 一种更简洁的计算方法 5 3 案例分析 6 致谢.15 附件:.16 人工智能 偏最小二乘法 (PLS) - 2 - 偏最小二乘回归 摘要 在实际问题中,经常遇到需要研究两组多重相关变量间的相互依赖关系, 并研究用一组变量(常称为自变量或预测变量)去预测另一组变量

2、(常称为因 变量或响应变量) ,除了最小二乘准则下的经典多元线性回归分析(MLR) ,提取 自变量组主成分的主成分回归分析(PCR)等方法外,还有近年发展起来的偏最 小二乘(PLS)回归方法。 偏最小二乘回归提供一种多对多线性回归建模的方法,特别当两组变量的 个数很多,且都存在多重相关性,而观测数据的数量(样本量)又较少时,用 偏最小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优点。 偏最小二乘回归分析在建模过程中集中了主成分分析,典型相关分析和线 性回归分析方法的特点,因此在分析结果中,除了可以提供一个更为合理的回 归模型外,还可以同时完成一些类似于主成分分析和典型相关分析的研究内

3、容, 提供更丰富、深入的一些信息。 本文介绍偏最小二乘回归分析的建模方法;通过例子从预测角度对所建立 的回归模型进行比较。 关键词:关键词:主元分析、主元回归、回归建模 1 1 偏最小二乘回归偏最小二乘回归原理原理 考虑 p 个变量与 m 个自变量 的建模问题。偏最小二乘 p yyy,., 21m xxx,., 21 回归的基本作法是首先在自变量集中提出第一成分 t(t是 m xxx,., 21 的线性组合,且尽可能多地提取原自变量集中的变异信息) ;同时在因变量集中 也提取第一成分 u,并要求 t与 u相关程度达到最大。然后建立因变量 与 t的回归,如果回归方程已达到满意的精度,则算法中止。

4、否则 p yyy,., 21 继续第二对成分的提取,直到能达到满意的精度为止。若最终对自变量集提取 r 个成分,偏最小二乘回归将通过建立与的回归 r ttt,., 21p yyy,., 21r ttt,., 21 式,然后再表示为与原自变量的回归方程式,即偏最小二乘回归方 p yyy,., 21 程式。 为了方便起见,不妨假定 p 个因变量与 m 个自变量均为 p yyy,., 21m xxx,., 21 人工智能 偏最小二乘法 (PLS) - 3 - 标准化变量。因变量组和自变量组的 n 次标准化观测数据阵分别记为: nmn m npn p xx xx yy yy F E : , : 1 1

5、11 0 1 111 0 偏最小二乘回归分析建模的具体步骤如下: (1)分别提取两变量组的第一对成分,并使之相关性达最大。 (2)假设从两组变量分别提出第一对 t和 u,t是自变量集,的 T m xxX,., 1 线性组合:,u是因变量集的线性组Xwxwxwt T mm111111 . T p yyY, 1 合:。为了回归分析的需要,要求: Yvyvyvu T pp111111 . t1 和 u1 各自尽可能多地提取所在变量组的变异信息; t1 和 u1 的相关程度达到最大。 由两组变量集的标准化观测数据阵和,可以计算第一对成分的得分向量, 0 E 0 F 记 为和: 1 t 1 u 1 11

6、 1 11 1 111 10 1: . : . nmnmn m t t w w xx xx wEt 1 11 1 11 1 111 10 1: : npnpn p u u v v yy yy vFu 第一对成分 和的协方差可用第一对成分的得分向量和的内积 1 t 1 u),( 11 utCov 1 t 1 u 来计算。故而以上两个要求可化为数学上的条件极值问题: 1, 1 max, 2 111 2 11 1001101011 vvvwww xFEwvYwEut TT TT 利用 Lagrange 乘数法,问题化为求单位向量和,使最大。 1 w 1 v 10011 VFEw TT 问题的求解只须

7、通过计算矩阵的特征值和特征向量,且 mm 0000 EFFEM TT M 的最大特征值为,相应的单位特征向量就是所求的解,而可由计算 2 1 1 w 1 v 1 w 得到。 100 1 1 1 wEFv T 人工智能 偏最小二乘法 (PLS) - 4 - (3)建立,对 的回归及,对的回归。 p yyy,., 211 t m xx ,., 1 1 t 假定回归模型为: 11 1 0 11 1 0 FuF EtE T T 其中分别是多对一的回归模型中的参数向量, T p T m11111111 ,.,., 和是残差阵。回归系数向量的最小二乘估计为: 1 E 1 F 11, 2 11 01 2 1

8、1 01 / / ttF ttE T T 称为模型效应负荷量。 11, (4)用残差阵和代替和重复以上步骤。 1 E 1 F 0 E 0 F 记则残差阵。如果残差, 1 1 01 1 0 TT tFtE 0 01101 , FFFEEE 阵中元素的绝对值近似为 0,则认为用第一个成分建立的回归式精度已满足 1 F 需要了,可以停止抽取成分。否则用残差阵和代替和重复以上步骤 1 E 1 F 0 E 0 F 即得: 分别为第二对成分的权数。而 T m T m vvvwww 22122212 ,.,;,., 为第二对成分的得分向量。 21 2 21 1,vFuwEt 分别为 X,Y 的第二对成分的负

9、荷量。这时有 2 2212 2 2212 /,/ ttFttE TT 22 2 1 1 0 22 2 1 1 0 FttF EttE TT TT (5)设 nm 数据阵的秩为 r0 表示在主对角线上方,k1; Q_h2(i)=1-press(i)/ss(i-1); else Q_h2(1)=1; end if Q_h2(i)0 表示在主对角线上方,k1; Q_h2(i)=1-press(i)/ss(i-1); else Q_h2(1)=1; end if Q_h2(i)0.0975 fprintf(提出的成分个数 r=%d,i);%p(68) fprintf( ); fprintf(交叉的有效

10、性=%f,Q_h2(i); r=i break end end %计算回归系数 bi(求 Y*关于自变量主元 t 的回归系数) beta_z= t(:,1:r),ones(num,1)f0;%求 Y*关于自变量主元 t 的回归系数 beta_z(end,:)=; %删除常数项 %第五步根据所求相关回归系数求出自变量 Y 和 X 的回归系数,并求出原始回归 方程的常数项最后建立回归方程 xishu= w_star(:,1:r)*beta_z;%求 Y*关于 X*的回归系数,每一列是一个回归 方程 mu_x=mu(1:n);mu_y=mu(n+1:end);%提出自变量和因变量的均值 sig_x=

11、sig(1:n);sig_y=sig(n+1:end);%提出自变量和因变量的标准差 for i=1:m ch0(i)=mu_y(i)-mu_x./sig_x*sig_y(i)*xishu(:,i); % %计算原始数据的 回归方程的常数项 end for i=1:m xish(:,i)=xishu(:,i)./sig_x*sig_y(i);%计算原始数据回归方程的系数,每 一列是一个回归方程 end sol=ch0;xish% %显示回归方程的系数,每一列是一个方程,每一列的第一个 数是常数项,每一列为一个因变量与自变量们的回归方程%此为还原为原始变量 后的方程 save mydata x0

12、 y0 num xishu ch0 xish w1=w(:,1) w2=w(:,2) 人工智能 偏最小二乘法 (PLS) - 20 - w3=w(:,3) w4=w(:,4) wx1=w_star(:,1) wx2=w_star(:,2) wx3=w_star(:,3) wx4=w_star(:,4) tx1=t(:,1) tx2=t(:,2) tx3=t(:,3) tx4=t(:,4) beta_z %回归系数 xishu%系数矩阵,即未还原原始变量的系数,每一列为一个因变量与自变量的回 归方程 作图程序如下: load mydata ch0=repmat(ch0,num,1);%以 ch0

13、 的内容堆叠在(numx1)的矩阵 ch0 yhat=ch0+x0*xish;%计算 Y 的预测值 y1max=max(yhat);%求预测值的最大值 y2max=max(y0),%求观测值的最大值 ymax=max(y1max;y2max);%求预测值和观测值的最大值 cancha=yhat-y0;%计算残差 figure(2) subplot(2,2,1);%画直线 y=x,并画预测图 plot(0:ymax(1),0:ymax(1),yhat(:,1),y0(:,1),*); title(第一产业预测) subplot(2,2,2); plot(0:ymax(2),0:ymax(2),yhat(:,2),y0(:,2),O); title(第二产业预测) ; subplot(2,1,2); plot(0:ymax(3),0:ymax(3),yhat(:,3),y0(:,3),H); title(第三产业预测) figure(1) bar(xishu); title(回归系数直方图); % 拟合效果的确定 %所有点都在对角线附近均匀分布,则效果较好

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号