SAS学习系列24.-逐步回归

上传人:20****03 文档编号:152705869 上传时间:2020-11-24 格式:DOCX 页数:18 大小:354.74KB
返回 下载 相关 举报
SAS学习系列24.-逐步回归_第1页
第1页 / 共18页
SAS学习系列24.-逐步回归_第2页
第2页 / 共18页
SAS学习系列24.-逐步回归_第3页
第3页 / 共18页
SAS学习系列24.-逐步回归_第4页
第4页 / 共18页
SAS学习系列24.-逐步回归_第5页
第5页 / 共18页
点击查看更多>>
资源描述

《SAS学习系列24.-逐步回归》由会员分享,可在线阅读,更多相关《SAS学习系列24.-逐步回归(18页珍藏版)》请在金锄头文库上搜索。

1、24. 逐步回归一、原理多元线性回归模型中,并不是所有的自变量都与因变量有显著关系,有时有些自变量的作用可以忽略。这就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影响的部分自变量的问题。逐步回归的基本思想是,将变量一个一个引入,引入变量的条件是偏回归平方和经检验是显著的,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著变量剔除,这样保证最后所得的变量子集中的所有变量都是显著的。这样经若干步以后便得“最优”变量子集。逐步回归每一步只有一个变量单独的回归因子引进或从当前的回归模型中剔除,当没有回归因子能够引进模型时,该过程停止。二、步骤记引入变量F检验的临界值为Fin,剔除

2、变量F检验的临界值为Fout,一般取Fin Fout. 其确定原则:对k个自变量中的m个(mk),则记F*=F(1,N-m-1),取Fin=Fout= F*.一般也可以直接取Fin=Fout=2.0或2.5. 要想回归方程多进入一些自变量,甚至也可以取为1.0或1.5. 1. 前进法(变量增加法)首先对全部k个自变量,分别对因变量Y建立一元回归方程,并分别计算k个回归系数的F检验值,记为,记为 = max, 若有Fin,则将Xi引入回归方程,记为X1. 接着考虑X1分别与其它自变量与因变量Y二元回归方程,选出最大F值若大于Fin, 则将该变量引入回归方程,记为X2, 依次类推,直到所有末被引入

3、回归方程的自变量的F值均小于Fin时为止。增加法的缺点是,它不能反映后来变化的情况,已引入的变量因为后引入的某个自变量的影响,它可能由显著变为不显著,但并没有及时从回归方程中将它剔除掉。2. 后退法(变量减少法)首先建立全部自变量X1,X2,.,Xk对因变变量Y的回归方程,然后分别求出k个回归系数的F值为,记=min,若有Fout,则将自变量Xi从回归方程中剔除掉。以此类推,直到在回归方程中的自变量的F值均大于Fout为止。减少法的缺点是,一开始把全部变量都引入回归方程,这样计算量比较大。3. 逐步筛选法(变量增减法)在实际的数据中,自变量X1,X2,.,Xk之间往往并不是独立的,而是有一定的

4、相关性存在的,这就会使得随着回归方程中变量的增加和减少,某些自变量对回归方程的贡献也会发生变化。因此将前两种方法综合起来,也就是对每一个自变量,随着其对回归方程贡献的变化,它随时可能被引入回归方程或被剔除出去,最终的回归模型是在回归方程中的自变量均为显著的,不在回归方程中的自变量均不显著。三、需要注意的问题1. 实际中,往往不使用每次计算出的Fin和Fout, 而是使用固定的F 值(避免出现Fin Fout, 造成死循环);2. 自变量进入模型的顺序并不反映它们的重要程度;3. 逐步回归方法的一个局限是,预先假定有单一的最优X变量子集,也可能还有其它最优选择;4. 逐步回归方法的另一个缺点是,

5、当X变量高度相关时,有时会得到不合理的“最优”子集。四、PROC REG过程步基本语法:PROC REG data = 数据集;MODEL 因变量 = 自变量列表 ;SELECTION=选项 用于逐步回归中选择合适的建立模型方法:none全部变量都选forward前进法backward后退法stepwise逐步筛选法maxr最大R2增量法minr最小R2增量法rsquareR2选择法cpMallows Cp选择法adjrsq修正的R2选择法注:在前进法、后退法或逐步回归的变量选择过程中,都有一个判断是否可进入或剔除的显著水平,分别由model语句的选项slentry=和slstay设定的:st

6、art= s指定先从s个自变量的回归模型开始;stop=s指定找到s个自变量的回归模型结束;Mallows的Cp统计量是由Mallows提出的作为选择模型的判别式的变量。Cp是一个误差平方总和的量度:其中,P是模型中包括截距项的参数个数,MSE是满模型时均方误差,ESSp是具有P个自变量(包括截距项)回归模型的误差平方和。作Cp与P的曲线图,Matlows建议取Cp 首次接近P的地方的模型。常用的输出可选项:STB输出标准化偏回归系数矩阵CORRB输出参数估计矩阵COLLINOINT对自变量进行共线性分析P输出个体观测值、预测值及残差 (R/CLM/CLI包含P)R输出每个个体观测值、残差及标

7、准误差CLM输出因变量均值95%的置信界限的上下限CLI对各预测值输出95%的置信界限的上下限MSE要求输出随机扰动项方差2的估计与残差分析有关的可选项l VIF输出变量间相关性的方差膨胀系数,VIF越大,说明由于共线性存在,使方差变大;lCOLLIN输出条件数,它表示最大的特征值与每个自变量特征值之比的平方根。一般情况下,条件数越大越可能存在共线性;lTOL表示共线性水平的容许值,TOL越小说明其可用别的自变量解释的部分多,自然可能与别的自变量存在共线性关系;lDW输出Durbin-Watson统计量; influence对异常点进行诊断,对每一观测点输出统计量(Cooks D 50%, d

8、efits/debetas 2说明该点影响较大)。2. 绘制回归分析的图形在PROC REG过程步加入绘图选项语句即可。基本语法:PROC REG data = 数据集PLOTS = (图形类型);可选的绘图类型: FITPLOT带回归线、置信预测带的散点图;RESIDUALS自变量的残差图;DIAGNOSTICS诊断图(包括下面各图);COOKSDCooks D统计量图;OBSERVEDBYPREDICTED根据预测值的因变量图;QQPLOT 检验残差正态性的QQ图;RESIDUALBYPREDICTED根据预测值的残差图;RESIDUALHISTOGRAM残差的直方图;RFPLOT残差拟合

9、图;RSTUDENTBYLEVERAGE杠杆比率的学生化残差图;RSTUDENTBYPREDICTED预测值的学生化残差图;注:残差图(RESIDUALS)和诊断图(DIAGNOSTICS)是自动生成的,根据模型也有其它默认的图形输出;若只绘制指定的图形需要加上ONLY:PROC REG data = 数据集 PLOTS(ONLY) = (图形类型);例1用逐步回归模型,来研究耗氧量的是如何依赖其它变量的。31位成年人心肺功能的调查数据(见下表)age weight Oxygen耗氧量 runtime 跑15英哩的时间(分)rstpulse 休息时每分钟心跳次数runpulse 跑步时每分钟心

10、跳次数Maxpulse每分钟心跳次数最大值4489.4744.60911.37621781824075.0745.31310.07621851854485.8454.2978.65451561684268.1559.5718.17401661723889.0249.8749.22551781804777.4544.81111.63581761764075.9845.68111.95701761804381.1949.09110.85641621704481.4239.44213.08631741763881.8760.0558.63481701864473.0350.54110.1345168

11、1684587.6637.38814.03561861924566.4544.75411.12511761764779.1547.27310.60471621645483.1251.85510.33501661704981.4249.1568.95441801855169.6340.83610.95571681725177.9146.67210.00481621684891.6346.77410.25481621644973.3750.38810.08761681685773.3739.40712.63581741765479.3846.08011.17621561655276.3245.44

12、19.63481641665070.8754.6258.92481461555167.2545.11811.08481721725491.6339.20312.88441681725173.7145.79010.47591861885759.0850.5459.93491481554976.3248.6739.40561861884861.2447.92011.50521701765282.7847.46710.5053170172代码:data fitness ;input age weight oxygen runtime rstpulse runpulse maxpulse;datali

13、nes; 4489.4744.60911.37621781824075.0745.31310.07621851854485.8454.2978.65451561684268.1559.5718.17401661723889.0249.8749.22551781804777.4544.81111.63581761764075.9845.68111.95701761804381.1949.09110.85641621704481.4239.44213.08631741763881.8760.0558.63481701864473.0350.54110.13451681684587.6637.38814.03561861924566.4544.75411.12511761764779.1547.27310.60471621645483.1251.85510.33501661704981.4249.1568.95441801855169.6340.83610.95571681725177.9146.67210.00481621684891.6346.77410.25481

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号