实验五 相关和回归分析

上传人:ldj****22 文档编号:29959988 上传时间:2018-01-26 格式:DOC 页数:20 大小:858.50KB
返回 下载 相关 举报
实验五  相关和回归分析_第1页
第1页 / 共20页
实验五  相关和回归分析_第2页
第2页 / 共20页
实验五  相关和回归分析_第3页
第3页 / 共20页
实验五  相关和回归分析_第4页
第4页 / 共20页
实验五  相关和回归分析_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《实验五 相关和回归分析》由会员分享,可在线阅读,更多相关《实验五 相关和回归分析(20页珍藏版)》请在金锄头文库上搜索。

1、 1 实验五 相关和回归分析相关分析是指对变量之间的相关关系进行描述与度量的一种分析方法,简单相关分析通常指对两变量间相关关系的研究,其目的是确定两个变量之间是否存在相关关系,并对其相关关系的强度进行度量,常用方法是考察两个变量的散点图和计算变量间的相关系数。多元线性回归分析研究多个变量的数量伴随关系,内容主要包括模型的假定与检验、参数的估计与检验、回归诊断与预测。很多非线性回归问题都可以转化为线性回归问题处理,如多项式回归、指数回归、对数回归、幂函数回归等。5.1 实验目的掌握使用 SAS 进行简单相关分析和多元线性回归分析及非线性回归分析的方法。5.2 实验内容一、用 INSIGHT 模块

2、作简单相关分析与一元线性回归分析二、用“分析家”作多元线性回归分析三、使用 REG 过程作回归分析四、一元非线性回归分析5.3 实验指导一、用 INSIGHT 模块作简单相关分析与一元线性回归分析【实验 5-1】比萨斜塔是一建筑奇迹,工程师关于塔的稳定性作了大量研究工作,塔的斜度的测量值随时间变化的关系提供了很多有用的信息,表 5-1 给出了 1975 年至 1987年的测量值(sy5_1.xls)。表中变量“斜度”表示塔上某一点的实际位置与假如塔为垂直时它所处位置之偏差再减去 2900mm。表 5-1 比萨斜塔的斜度年份 x 75 76 77 78 79 80 81 82 83 84 85

3、86 87斜度 y(1/10mm) 642 644 656 667 673 688 696 698 713 717 725 742 757试分析 y(斜度)关于年份 x 的相关关系,写出 y 关于 x 的线性回归方程,并利用所建回归方程预测 1988 年时比萨斜塔的斜度值。1. 数据的导入首先将上表在 Excel 中处理后导入成 SAS 数据集 Mylib.sy5_1,如图 5-1 所示,其中 x 2 表示年份 y 表示斜度。2. 制作散点图制作斜度 y 与年份 x 的散点图,以便判断变量之间的相关性。步骤如下:(1) 在 INSIGHT 中打开数据集 Mylib.sy5_1。(2) 选择菜单

4、“Analyze(分析) ”“Scatter Plot (Y X)(散点图) ”。(3) 在打开的 “Scatter Plot (Y X)”对话框中选定 Y 变量:Y;选定 X 变量:x,如图 5-2 左所示。(4) 单击“OK”按钮,得到斜度 y 与年份 x 的散点图,如图 5-2 右所示。从散点图中可以看出,斜度 y 与年份 x 之间具有一定的线性关系。图5-2 斜度y与年份x的散点图3. 相关系数计算在 INSIGHT 中打开数据集 Mylib.sy5_1。(1) 选择菜单“Analyze(分析) ”“Multivariate (Y X)(多变量) ”。(2) 在打开的 “Multiva

5、riate (Y X)”对话框中选定 Y 变量:y;选定 X 变量:x,如图5-3 左所示。.图5-3 计算相关系数(3) 单击“OK”按钮,得到结果如图 5-3 右所示。结果显示斜度 y 与年份 x 的样本相关系数很大,为 0.994。(4) 为了检验总体变量 y 与 x 的相关系数是否为零,选择菜单:“Tables”“CORR 图5-1 数据集Mylib.sy5_1 3 p-values”,得到相关系数为零的原假设的 p 值,如图 5-4 所示。由于 p 值很小,应拒绝原假设,可以认为斜度 y 与年份 x 之间均存在着显著的正相关关系。4. 一元线性回归在 INSIGHT 中打开数据集 M

6、ylib.sy5_1。(1) 选择菜单“Analyze”“Fit(Y X)(拟合) ”,打开“Fit(Y X)”对话框。(2) 在“Fit(Y X)”对话框中,选择变量 Y,单击“Y ”按钮,将 Y 设为响应变量;选择变量 x,单击“X”按钮,将 x 设为自变量,如图 5-5 左所示。(3) 单击 Output 按钮,在“Fit(Y X)”输出选项表中增加选中 Residual Normal 复选项,要求输出残差的正态 QQ 图,如图 5-5 右所示。图5-5 “Fit(Y X)”输出选项设置(4) 两次单击“OK”按钮,得到分析结果。显示的结果分为若干张表,其中第二张表给出回归方程: xY3

7、187.920.6方程表明回归直线截距的估计值为-61.1209 ,斜率的估计值为 9.3187,如图 5-6 左下。回归系数 9.3187 表示比萨斜塔的“斜度”年平均增加 9.3187。图5-6 回归方程与散点图第三张表是带有回归直线的散点图,给出了回归的图形表示,如图 5-6 右。图的下面是参数回归拟合表(图 5-7) 。图5-7 参数回归拟合表其中判定系数 R-Square(R 2)= 0.9880,指出 x 能够解释 Y 的 98.8%的信息。还有 1 98.8% = 1.2%的信息不能被解释,这些信息由其他变量和随机因素所解释。图5-4 相关系数的检验图5-8 拟合汇总表 4 第四

8、张拟合汇总表(图 5-8)中 Mean of Response(响应变量的均值)693.6923 是变量Y 的样本平均值,Root MSE(均方残差平方根)4.181 是对各观测点在直线周围分散程度的一个度量值,为随机误差 的标准差(也是实测值 Y 的标准差) 的无偏估计。Adj R-Sq 是修正的判定系数。第五张方差分析表(图 5-9)包含对回归方程的显著检验,其中 F 统计量的值:12.90485.173MSEFF 检验的 p 值 0.05,因此不能拒绝残差来自正态总体的假定。5. 预测通过回归诊断得知模型: 3210948.0785.369.027814.3 xxxy 是合适的,可以用于

9、预测。1) 假定 02,03 年国内生产总值(x1) 、商品房屋销售额(x2) 、财政支出(x3)的数据已存入数据集 Mylib.sy5_2_new 中,如图所示。图5-26 数据集Mylib.sy5_2_new2) 重复上面逐步回归步骤,并在图 5-16 所示的“Linear Regression(线性回归) ”对话框中,单击“predictions”按钮,打开“Linear Regression:predictions”对话框。按图 5-27所示进行预测的 Input(输入) 、Output(输出)设置。 11 图5-27 “Linear Regression:predictions”对话

10、框3) 两次单击 “OK”,得到结果。在分析家的项目管理器中点击“predictions”可以看到预测结果,如图 5-28 所示。图5-28 预测结果三、使用 REG 过程作回归分析【实验 5-3】某种水泥在凝固时放出的热量 y(cal/g)与水泥中四种化学成分x1,x2,x3,x4 有关,现测得 13 组数据,如表 5-3(sy5_3.xls)所示。试从中选出主要的变量,建立 y 关于它们的线性回归方程。表 5-3 热量 y 与四种化学成分的实测数据x1 x2 x3 x4 y7 26 6 60 78.51 29 15 52 74.311 56 8 20 104.311 31 8 47 87.

11、67 52 6 33 95.911 55 9 22 109.23 71 17 6 102.71 31 22 44 72.52 54 18 22 93.121 47 4 26 115.91 40 23 34 83.811 66 9 12 113.310 68 8 12 109.4 12 1. 建立数据集输入以下代码建立数据集 sy5_3 并显示:data mylib.sy5_3;input x1 x2 x3 x4 y;cards;7 26 6 60 78.51 29 15 52 74.311 56 8 20 104.311 31 8 47 87.67 52 6 33 95.911 55 9 22

12、 109.23 71 17 6 102.71 31 22 44 72.52 54 18 22 93.121 47 4 26 115.91 40 23 34 83.811 66 9 12 113.3 10 68 8 12 109.4;Title 数据集 sy5_3;Proc print ;run;运行结果如图所示。2. 向后逐步剔出法进行回归执行以下代码:proc reg data = Mylib.sy5_3;var y x1 - x4;model y = x1 - x4/selection=backward;plot residual. * predicted.;run;输出结果如下:图5-2

13、9 数据集sy5_3 13 图5-30 向后逐步剔除的第0步(全回归)图5-31 向后逐步剔除的第1步图5-32 向后逐步剔除法第2步图5-33 向后逐步剔除法结果汇总向后逐步剔除法的分析结果给出回归模型: 14 Y = 52.57735 + 1.46831x1 + 0.66225x2残差对预测值的散点图显示如下:图5-34 残差散点图3. 结果分析采用向后逐步剔除法回归的第 0 步是做全回归,结果如图 5-30 所示,所有系数均未通过检验(P 值均大于 0.05) ,向后逐步剔除法第 1 步将变量 x3 剔除,结果如图 5-31 所示,其中 x2 和 x4 的系数仍不能通过检验,接下来第 2

14、 步将变量 x4 剔除,结果如图 5-32 所示,此时的回归方程及 x1 和 x2 的系数均能通过检验,残差对预测值的散点图(图 5-34)基本正常符合模型假定,所以方程 Y = 52.57735 + 1.46831x1 + 0.66225x2 为有效回归方程。四、一元非线性回归分析【实验 5-4】已知数据如表 5-4(sy5_4.xls)所示。试分别采用指数回归、对数回归、幂函数回归和倒幂函数回归 4 种非线性回归方法进行回归分析,并选择一个较好的回归方程。表 5-4 实验数据X 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2 2.1 2.2 2.3 2.4Y 1

15、09.95 40.45 20.09 24.53 11.02 7.39 4.95 2.72 1.82 1.49 0.82 0.3 0.2 0.221. 生成数据集运行下面程序生成并显示数据集 sy5_4,如图 5-35 所示。data sy5_4;input x y;cards;1.1 109.951.2 40.451.3 20.091.4 24.531.5 11.021.6 7.391.7 4.95图5-35 数据集sy5_4 15 1.8 2.721.9 1.822 1.492.1 0.822.2 0.32.3 0.22.4 0.22;run;title 数据集 sy5_4;proc pri

16、nt;run;2. 对 x 和 y 作相关分析执行如下代码:/*画 x 和 y 的散点图*/goptions ftext=宋体;proc gplot data = sy5_4;plot y*x;title x 和 y 的散点图;symbol v=dot i=none cv=orange ;run;/*求 x 和 y 的相关系数*/proc corr data = sy5_4;var x y;run;运行上面程序,得到散点图(图 5-36 左)以及 x 与 y 的相关系数(图 5-36 右):图5-36 x与y的散点图与相关系数由图可见 x 和 y 有一定的非线性关系,根据散点分布的形状考虑用下面几种非线性回归方法建立非线性回归方程,并从中选

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号