主成分回归多重共线性

上传人:第*** 文档编号:34260809 上传时间:2018-02-22 格式:DOCX 页数:8 大小:120.91KB
返回 下载 相关 举报
主成分回归多重共线性_第1页
第1页 / 共8页
主成分回归多重共线性_第2页
第2页 / 共8页
主成分回归多重共线性_第3页
第3页 / 共8页
主成分回归多重共线性_第4页
第4页 / 共8页
主成分回归多重共线性_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《主成分回归多重共线性》由会员分享,可在线阅读,更多相关《主成分回归多重共线性(8页珍藏版)》请在金锄头文库上搜索。

1、实验八:主成分回归实验题目:对例 5.5 的 Hald 水泥问题用主成分方法建立模型,并与其他方法的结果进行比较。例 5.5 如下:本例为回归经典的 Hald 水泥问题。某种水泥在凝固时放出的热量 y(卡/克,cal/g)与水泥中的四种化学成分的含量(%)有关,这四种化学成分分别是 x1 铝酸三钙(3CaO.Al 2O3) ,x 2 硅酸三钙(3CaO.SiO 2) ,x 3 铁铝酸四钙( 4CaO.Al2O3.Fe2O3) ,x 4 硅酸三钙(2CaO.SiO 2) 。现观测到 13 组数据,如表 5-3 所示。表 5-3x1 x2 x3 x4 y7 26 6 60 78.51 29 15

2、52 74.311 56 8 20 104.311 31 8 47 87.67 52 6 33 95.911 55 9 22 109.23 71 17 6 102.71 31 22 44 72.52 54 18 22 93.121 47 4 26 115.91 40 23 34 83.811 66 9 12 113.310 68 8 12 109.4实验目的:多重共线性的诊断及解决方法、利用主成分回归解决多重共线性问题。SPSS 输出结果及答案:一、主成分法:多重共线性诊断:相关性y x1 x2 x3 x4Pearson 相关性 1 .731* .816* -.535 -.821*显著性(双侧

3、) .005 .001 .060 .001yN 13 13 13 13 13Pearson 相关性 .731* 1 .229 -.824* -.245显著性(双侧) .005 .453 .001 .419x1N 13 13 13 13 13Pearson 相关性 .816* .229 1 -.139 -.973*显著性(双侧) .001 .453 .650 .000x2N 13 13 13 13 13Pearson 相关性 -.535 -.824* -.139 1 .030显著性(双侧) .060 .001 .650 .924x3N 13 13 13 13 13Pearson 相关性 -.82

4、1* -.245 -.973* .030 1显著性(双侧) .001 .419 .000 .924x4N 13 13 13 13 13*. 在 .01 水平(双侧)上显著相关。由表可知,x1,x2,x4的相关性都比较大,较接近,所以存在多重共线性主成分回归:解释的总方差初始特征值 提取平方和载入成份 合计 方差的 % 累积 % 合计 方差的 % 累积 %1 2.236 55.893 55.893 2.236 55.893 55.8932 1.576 39.402 95.294 1.576 39.402 95.2943 .187 4.665 99.959 .187 4.665 99.9594 .

5、002 .041 100.000 .002 .041 100.000提取方法:主成份分析。输出结果显示有四个特征根,最大的是 1=2.236,最小的是 4=0.002。方差百分比显示第一个主成分 Factor1 的方差百分比近 56%的信息量;前两个主成分累计包含近 95.3%的信息量。因此取两个主成分就已经足够。由于前两个主成分的方差累计已经达到 95.3%,故只保留前两个主成分。成份矩阵 a成份1 2 3 4x1 .712 -.639 .292 .010x2 .843 .520 -.136 .026x3 -.589 .759 .275 .011x4 -.819 -.566 -.084 .0

6、27提取方法:主成分a. 已提取了 4 个成份。由解释的总方差表中累计贡献性知,f1和f2的累计贡献性就在85%95%之间。所以主成分取f1,f2。得到因子得分的数值,并对其进行处理:sqrt(2.236)* FAD1_1, sqrt(1.576)* FAD2_1可以得出主成分表(f1 f2)。对 f1 f2 进行普通最小二乘线性回归系数 a非标准化系数 标准系数模型 B 标准 误差 试用版 t Sig.(常量) 95.423 .855 111.635 .000f1 9.882 .595 .982 16.610 .0001f2 .125 .709 .010 .176 .864a. 因变量: y

7、由系数表可得,主成分回归方程为:y=95.423+9.882 f1+0.125 f2分别对两个主成分f1和f2做因变量,以4个原始自变量为自变量做线性回归非标准化系数 标准系数模型 B 标准 误差 试用版 t Sig.(常量) -.643 .000 . .x1 .081 .000 .318 . .x2 .036 .000 .377 . .x3 -.062 .000 -.264 . .1x4 -.033 .000 -.366 . .a. 因变量: f1f1=-0.643+0.081x1+0.036x2-0.062x3-0.033x4对 f2 和 x1x2x3x4 进行回归非标准化系数 标准系数模

8、型 B 标准 误差 试用版 t Sig.(常量) -.938 .000 -1119037.661 .000x1 -.087 .000 -.405 -9710099.545 .000x2 .027 .000 .330 3071727.057 .000x3 .094 .000 .482 10459854.955 .0001x4 -.027 .000 -.359 -3177724.589 .000a. 因变量: f2f2=-0.938-0.087x1+0.027x2+0.094x3-0.027x4所以还原后的主成分回归方程为:y=88.951624+0.789567x1+0.359127x2-0.6

9、00934x3-0.329481x4从主成分法得出的方程中我们可以看出某种水泥在凝固时放出的热量与铝酸三钙,硅酸三钙成正比,与铝酸四钙和硅酸二钙成反比,且当该水泥放出 1 单位的热量时,需要消耗0.789567g 的铝酸三钙和 0.359127g 的硅酸三钙;当该水泥吸收 1 单位的热量时,需要消耗0.600934g 的铝酸四钙和 0.329481g 的硅酸二钙。二岭回归法首先做普通二乘回归,得到结果如下:系数 a非标准化系数 标准系数 共线性统计量模型 B 标准 误差 试用版 t Sig. 容差 VIF(常量) 62.405 70.071 .891 .399x1 1.551 .745 .60

10、7 2.083 .071 .026 38.496x2 .510 .724 .528 .705 .501 .004 254.423x3 .102 .755 .043 .135 .896 .021 46.8681x4 -.144 .709 -.160 -.203 .844 .004 282.513由系数表中的方差扩大因子 VIF 可以初步看出直接建立的线性模型具有严重的共线性,所以我们直接用岭回归方法进行处理,与再与主成分法进行比较。岭回归INCLUDE C:Program FilesIBMSPSSStatistics19SamplesEnglishRIDGE regression.sps.RID

11、GEREG enter x1 x2 x3 x4/dep=yR-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF KK RSQ x1 x2 x3 x4_ _ _ _ _ _.00000 .98238 .606512 .527706 .043390 -.160287.05000 .98092 .465987 .298422 -.092800 -.394132.10000 .97829 .429975 .299810 -.115702 -.382409.15000 .97492 .403545 .300180 -.129867 -.370747

12、.20000 .97105 .382726 .299130 -.139136 -.360181.25000 .96676 .365601 .297070 -.145317 -.350594.30000 .96212 .351071 .294335 -.149432 -.341806.35000 .95717 .338452 .291156 -.152107 -.333674.40000 .95195 .327295 .287687 -.153747 -.326089.45000 .94649 .317289 .284036 -.154628 -.318970.50000 .94082 .308

13、211 .280279 -.154942 -.312254.55000 .93497 .299900 .276467 -.154827 -.305892.60000 .92897 .292231 .272638 -.154384 -.299846.65000 .92284 .285109 .268820 -.153688 -.294083.70000 .91660 .278460 .265032 -.152797 -.288577.75000 .91027 .272222 .261287 -.151756 -.283306.80000 .90386 .266349 .257597 -.1505

14、98 -.278251.85000 .89740 .260798 .253968 -.149351 -.273396.90000 .89089 .255537 .250406 -.148037 -.268726.95000 .88436 .250537 .246913 -.146671 -.2642281.0000 .87780 .245775 .243491 -.145269 -.259892由上述的岭迹图可以看出,所有的回归系数的岭迹线的稳定性较强,整个系统呈现比较平稳的现象,所以我们可以对最小二乘有信心,且x1,x2的岭迹线一直在零的上,对y产生正影响,而x3,x4系数的岭迹线一直小于零,所以对y产生负影响。再做岭回归:当岭参数k=0.2时,4个自变量的岭回归系数变化幅度较小,此时逐渐稳定,所以我们给定k=0.2,再做岭回归Run MATRIX procedure:* Ridge Regression with k = 0.2 *Mult R .976585082RSquare .953718422Adj RSqu .944462107SE 3.545275735ANOVA tabledf SS MSRegress 2.000 2590.073 1295.037

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号