多元回归分析的步骤-（最新版）

资源描述

《多元回归分析的步骤-（最新版）》由会员分享，可在线阅读，更多相关《多元回归分析的步骤-（最新版）（5页珍藏版）》请在金锄头文库上搜索。

1、v1.0 可编辑可修改 1 三、研究方法本文采取多元线性回归的方法来设定并建立模型，再利用逐步回归来对变量予以确认和剔除。逐步回归是通过筛选，挑选偏回归平方和贡献最大的因子建立回归方程，在决定是否引入一个新的因素时，回归方程要用方差比进行显著性检验。如果判别该影响因子通过显著性检验，那么可选入方程中，否则就不应该进入到回归方程，回归方程中剔除一个变量的标准也是用方差比进行显著性检验剔除偏回归平方和贡献最小的变量，无论是入选回归方程还是从回归方程中剔除符合条件的选入项和剔除项为止，逐步回归的方法剔除了对因变量影响小的因素减小了分析问题的难度，提高了计算效率和回归方程的稳

2、定性有较好的预测精度。运用多元线性回归预测的基本思路是在确定因变量和多个自变量以及它们之间的关系后，通过设定自变量参数的回归方程对因变量进行预测。具体如下: nn2211Xa+Xa+Xa+C=Y 式中: Y 表示为粮食总产量， C和 a 为回归系数， C、a 是待定参数， X为所选取的影响因素 . 多元线性回归方法可分为强行进入法、消去法、向前选择法、向后剔除法和逐步进入法等，本文运用软件，对选择的自变量全部进入回归模型，即强行进入法进行预测。该模型的优点是方法简单、预测速度快、外推性好等。四、分析与结果本文选取 6 个解释变量，研究河南省粮食产量y，解释变量为 :X1 粮食

3、播种面积，X2农业从业人， X3农用机械总动力， X4农田有效灌溉面积， X5化肥施用折纯量， X6农村用电量。以河南省粮食产量为因变量，以如上6 个解释变量为自变量做多元线性回归（数据选取2014 年河南统计年鉴，见附录一）。用 SPSS 做变量的相关分析，从相关矩阵（表4-1）中可以看出 y 与自变量的相关系数大多都在以上，说明所选择变量与y 高度线性相关，用 y 与自变量做多元线性回归是合适的。表 4-1 相关 v1.0 可编辑可修改 2 用 SPSS 做变量系数分析（表4-2）表 4-2 系数 B标准错误Beta T显著性（常数） .041 X1.262.006

4、X2.155.296.121.524.604 X3.105.068 X4.169.974.338 X5.028 X6.089.210.835 从（表 4-2）中可以得到解释变量与因变量之间的方程为： 654321 086.177. 5619.2199.0155.0315.8268.6733xxxxxxy 表 4-3 变异数分析 X1X2X3X4X5X6y X11.687.965.918.927.970.978 X2.6871.686.456.448.731.616 X3.965.6861.946.930.990.985 X4.918.456.9461.961.921.960 X5.927.44

5、8.930.9611.901.965 X6.970.731.990.921.9011.979 y.978.616.985.960.965.9791 v1.0 可编辑可修改 3 平方和df平均值平方F显著性回归.1266.000 残差28 估计.80534 从（表 4-3）中发现 F=，说明 6 个自变量整体对因变量y 产生显著线性影响。但从表 (4-2) 中不难发现农业从业人员、农田有效灌溉面积、农村用电量的P值较大，说明方程某些解释变量并不显著，对没有通过检验的回归系数，在一定程度上说明他们对应的自变量在方程中可有可无，一般为了使模型简化，需要剔除不显著的自变量，重新建立

6、回归方程。而且粮食播种面积、农业从业人员、农田有效灌溉面积、化肥施用折纯量、农村用电量对国民总收入起正影响，农用机械总动力却对国民总收入起负影响，与常识相违背，可能存在多重共线性。应用 SPSS 进行异方差性检验。用斯皮尔曼相关系数检验异方差性也就是检验随机误差项的方差与解释变量观测值之间的相关性。若相关系数较高，则存在异方差性，则不能通过异方差性检验，此时可能会导致参数OLS估计的方差增大， t 检验失效，预测精度降低。表 4-4 相关 X1X2X3X4X5X6 Standard Error of Predicted Value Spe arm an 的 rho X1.4

7、41.439.377.434.439 X2.441.993.952.991.993 X3.439.993.951.998 X4.377.952.951.950.951 X5.434.991.998.950.998 X6.439.993.951.998 Standard Error of Predicted Value v1.0 可编辑可修改 4 从表 4-4 中发现残差绝对值预与解释变量的皮尔逊相关系数最高为，不能认为残差绝对值与解释变量显著相关。所以不存在异方差性。应用 SPSS 进行自相关检验。检验自相关性就是检验针对不同的样本点与随机误差项之间是否不相关。如果存在某种相关性，则

8、认为出现了序列相关性。若存在自相关性，参数估计量仍然是线性的、无偏的，但非有效；OLS估计量的被估方差是有偏的且会被低估，因而会使相应的t 值变大；甚至模型的 t 和 F统计检验失效；导致最小二乘估计量对抽样波动非常敏感。首先用杜宾和沃特森检验法来判断其是否存在自相关性。表 4-5 模型摘要 RR 平方调整后 R 平方标准偏斜度错误Durbin-Watson .986a.973.967 由表 4-5 得到 DW 检验为。查表可知在 1% 的上下界中 k=6， n=36的 dl= ， du=，可知 duDW4-du ，该模型不存在一阶自相关性。从上述已知数据不存在异方差性和一阶

9、自相关性，用SPSS 进行多重共线性检验。若存在多重共线性，将会引起参数估计量不存在；近似共线性下 OLS估计量非有效；参数估计量经济含义不合理；变量的显著性检验失去意义，可能将重要的解释变量排除在模型之外；模型的预测功能失效。表 4-6 系数 B标准错误Beta允差VIF （常數）.041 X1.262.006.129 X2.155.296.121.524.604.018 X3.105.068.010 X4.169.974.338.032 X5.028.005 v1.0 可编辑可修改 5 X6.089.210.835.005 从表 4-6 中可以发现 X1粮食播种面积的 VIF

10、明显小于 10，说明存在共线性。由于模型存在多重共线性，我们对模型进行调整，应用SPSS 进行逐步回归来消除多重共线性。表 4-7 系数模型B标准错误BetaT显著性（常數）.097 X1.223.893.000 X5.137.002 剔除变量 x2，x3，x4，x6 后的984.0R 2 可知解释变量与因变量x1 粮食播种面积， x5 化肥施用折纯量之间的相关系数967.0R 2 ，两者高度相关，说明拟合程度很高。从表 4-7 中发现 P值都小于，说明通过显著性检验。最终得到最优回归方程为： 51 36.4921.4921.1945xxy 通过影响粮食产量因素的多元线性回归分析，最后得到确定的模型表明河南粮食产量受粮食播种面积和化肥施用量的影响最大。在化肥施用量保持不变的情况下，粮食播种面积每增加1 个单位，将带来粮食产量增加个单位，在粮食播种面积保持不变的情况下，化肥施用量每增加1 个单位，会使粮食产量增加个单位。要想提高河南粮食的产量，可以从提高粮食播种面积和化肥施用量下手。

展开阅读全文

多元回归分析的步骤-（最新版）

最新文档