相关分析与多元回归分析

上传人:xzh****18 文档编号:34309545 上传时间:2018-02-23 格式:DOC 页数:9 大小:97.50KB
返回 下载 相关 举报
相关分析与多元回归分析_第1页
第1页 / 共9页
相关分析与多元回归分析_第2页
第2页 / 共9页
相关分析与多元回归分析_第3页
第3页 / 共9页
相关分析与多元回归分析_第4页
第4页 / 共9页
相关分析与多元回归分析_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《相关分析与多元回归分析》由会员分享,可在线阅读,更多相关《相关分析与多元回归分析(9页珍藏版)》请在金锄头文库上搜索。

1、7.4 多元线性回归7.4.1 方法概述1. 模型的建立:多元线性回归分析是研究一个因变量与多个自变量间关系的统计方法。模型可写成为:截距;b i(i=1,k)称为偏回归系数,表示当其余自变量固定时,Xi 变化一个单位时,因变量 Y 的平均变化量。回归系数的估计仍根据最小二乘原理,求 b0,b1,bk 使得达到最小。多元回归模型的参数估计不能象直线回归那样可以直接写出表达式,矩阵形式:由于各自变量的单位不同,为此要运用标准化偏回归系数。先作变量的标准化,即作变换i isX标准化偏回归系数 bi表示当其它自变量固定时,X i 变化一个标准差时,因变量 Y 变化的标准差单位数。b i没有单位,所以

2、可以用它们的绝对值大小来说明各自变量的重要性,其值越大,对因变量的作用越大。以 bi表示 Xi 的标准化偏回归系数,则2. 假设检验:(1)离均差平方和的分解与直线回归一样,多元回归时亦可将因变量的离均差平方和可分解为两部分: SST(总)=SSR(回归 )+SSE(剩余) 回归平方和越大,回归的效果越好。回归平方和与总离均差平方和的比值称为决定系数(coefficient of determination, R2),其计算公式同称为复相关系数,表示多个自变量共同对因变量的相关密切程度。回归平方和 SSR 是多个自变量共同的贡献,要研究每个自变量对因变量的作用,还需将 SSR 按个自变量的贡献

3、进行分解:SSR=SSR1+SSRk SSRi 称为偏回归平方和,表示扣除其它自变量的作用后,由自变量 Xi 对因变量 Y 变异的贡献。显然自变量的偏回归平方和越大,该变量对 Y的贡献越大,该变量在回归中所起的作用也越大。偏回归平方和与总离均差平方和的比值,称为偏决定系数。 (2)方差分析法:模型中各回归系数的总体值只要有一个不为零,则模型就有意义。对所有总体回归系数为零的检验需计算检验统计量 F:, 求得 F 值后,MSER/FEkn,1按 F 分布 F(k,n-k-1)确定 P 值,再根据检验水准作出推断结论。 而检验每一个变量作用的显著性,可以计算SER/1i(3)偏回归系数的标准误与

4、t 检验扣除所有自变量的作用后,因变量的变异称为剩余标准差,记作因而有关于总体偏回归系数为零的 t 检验:例 8.4 (续例 8.1) 用回归分析研究因变量肺活量(Y, ml)与自变量(体重 X1、胸围 X2、胸围的呼吸差 X3)的关系,并比较各自变量对 Y 作用的大小。SAS 程序:DATA REG2; INPUT X1 X2 X3 Y;CARDS;35 69 0.7 160040 74 2.5 260042 65 3.0 2500;PROC REG;MODEL Y=X1-X3/STB;RUN;输出结果如下:Model: MODEL1Dependent Variable: Y第一部分 Ana

5、lysis of VarianceSum of Mean Source DF Squares Square F Value ProbF Model 3 1250109.0678 416703.02259 5.617 0.0355Error 6 445140.93222 74190.15537C Total 9 1695250.0000Root MSE 272.37870 R-square 0.7374Dep Mean 2315.00000 Adj R-sq 0.6061C.V. 11.76582第二部分 Parameter EstimatesN = 10 Regression Models f

6、or Dependent Variable: Y方差分析结果,F=5.617,P=0.035,说明整个模型有意义。建立回归方程如下:y hat=-3035.54+60.93X1+37.81X2+101.38X3X1、X2、X3 的标准化回归系数分别为 0.4645、0.3917、0.2540,所以体重对肺活量的影响 最大。值得注意的是,各回归系数的假设检验结果均不显著,这说明方程建立的不是最好,需进一步对变量进行筛选。75 逐步回归7.5.1 概述上面介绍建立多元回归方程的方法时,将所有的自变量都引入方程。但各自变量的作用有大有小,而我们建立回归方程时既不能丢掉对因变量贡献大的自变量,也不希望

7、引入贡献不显著的自变量,还要避免上述的多重共线性问题。因此,需要在自变量中有所选择,把真正有统计意义的部分找出来,建立较理想的模型。较高的预测、预报精度,模型也不太复杂自变量选择方法(1)所有可能子集回归:。(2)前进法:。(3)后退法:(4)逐步法:该法是前进法与后退法的结合。它对自变量建立一套双向筛选程序:将自变量一个个引入,引入的条件是该变量的偏回归平方和经检验是显著的;同时,每引入一个新变量后,要对老变量逐个检验,剔除偏回归平方和不显著的变量。注意的是:逐步法选出的模型与选择变量的标准有关,而且按前述选择模型的准则,一般只是较优的模型,而不是“最优”的。另外,建立的模型应该符合专业知识

8、。因此,实际应用中,应该将专业上的考虑、自变量选择准则和逐步法结合起来使用,以期得到较为理想、合理的模型。7.5.2 实例 例 8.6(续例 8.4)利用自变量选择准则和逐步回归方法,建立肺活量与体重、胸围以及胸围的呼吸差间的较为合理的模型:编写 SAS 程序如下(DATA 步略)PROC REG;MODEL Y=X1-X3/SELECTION=CP AIC ADJRSQ;RUN;PROC REG;MODEL Y=X1-X3/SELECTION=STEPWISE;PROC REG;MODEL Y=X1-X3/SELECTION=STEPWISE SLENTRY=0.3 SLSTAY=0.3;R

9、UN;上述程序的第一个 REG 输出结果如下:Stepwise Procedure for Dependent Variable YStep 1 Variable X3 Entered R-square = 0.53118453 C(p) = 4.71246471DF Sum of Squares Mean Square F ProbFRegression 1 9.06 0.0168Error 8 Total 9 Parameter Standard Type IIVariable Estimate Error F ProbFINTERCEP 44.22 0.0002X3 9.06 0.016

10、8Step 2 Variable X1 Entered R-square = 0.61896273 C(p) = 4.70672706DF Sum of Squares Mean Square F ProbFRegression 2 5.69 0.0341Error 7 Total 9 Parameter Standard Type IIVariable Estimate Error Sum of Squares F ProbFINTERCEP 0.02 0.9031X1 1.61 0.2447X3 2.51 0.1572Step 3 Variable X2 Entered R-square

11、= 0.73741871 C(p) = 4.00000000DF Sum of Squares Mean Square F ProbFRegression 3 5.62 0.0355Error 6 Total 9 Parameter Standard Type IIVariable Estimate Error Sum of Squares F ProbFINTERCEP 1.96 0.2111X1 2.82 0.1442X2 2.71 0.1510X3 0.69 0.4377Step 4 Variable X3 Removed R-square = 0.70718629 C(p) = 2.6

12、9081285DF Sum of Squares Mean Square F ProbFRegression 2 8.45 0.0136Error 7 Total 9 arameter Standard Type IIVariable Estimate Error Sum of Squares F ProbFINTERCEP 6.59 0.0371X1 8.69 0.0215X2 5.37 0.0535All variables in the model are significant at the 0.3000 level.No other variable met the 0.3000 s

13、ignificance level for entry into the model.Summary of Stepwise Procedure for Dependent Variable YVariable Number Partial ModelStep Entered Removed In R*2 R*2 C(p) F ProbF1 X3 1 0.5312 0.5312 4.7125 9.0643 0.01682 X1 2 0.0878 0.6190 4.7067 1.6126 0.24473 X2 3 0.1185 0.7374 4.0000 2.7067 0.15104 X3 2 0.0302 0.7072 2.6908 0.6908 0.4377采用逐步法选择自变量,但进入方程和剔除出方程的显著性水平为0.3。结果是:X3、X1、X2 依次被选入方程,但 X1、X2 进入方程后 X3 的作用变得不显著,因而最后从方程中剔除出去。最终的方程为:y hat=-4187.42+80.27X1+46.45X2, R2=0.7072。这个

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号