sas中多元线性回归

上传人:san****019 文档编号:70758308 上传时间:2019-01-18 格式:PPT 页数:37 大小:404.51KB
返回 下载 相关 举报
sas中多元线性回归_第1页
第1页 / 共37页
sas中多元线性回归_第2页
第2页 / 共37页
sas中多元线性回归_第3页
第3页 / 共37页
sas中多元线性回归_第4页
第4页 / 共37页
sas中多元线性回归_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《sas中多元线性回归》由会员分享,可在线阅读,更多相关《sas中多元线性回归(37页珍藏版)》请在金锄头文库上搜索。

1、用SAS进行回归分析,SAS中用于回归分析的过程,SAS中用于回归分析的过程,reg过程,一般格式为: proc reg 选项; model 因变量=自变量/选项; weight 变量; print 选项; plot 纵轴变量*横轴变量=“符号”;,proc reg data=forest; model y1-y5=x1-x7; run;,reg过程的选项,proc reg语句的选项有data=输入数据集,simple给出简单统计数,corr给出简单相关系数等。 Model语句设定线性数学模型。 Weight语句给出权系数变量。 Print语句打印分析结果。 Plot语句作散点图。,REG过程

2、的语法格式如下:,这也不是完全的reg过程的语法,详细语法,可以参考SAS的帮助。,proc reg data=forest OUTEST=result1 SIMPLE CORR; model y1-y5=x1-x7/selection=stepwise; Plot y1*x1 run;,程序中全部语句中只有第一行和MODEL语句是必需的,其他都可以省略。 MODEL语句,必需语句,定义回归分析模型 VAR语句为可选的,指定用于计算交叉积的变量 PLOT语句为可选的,用于绘制变量间的散点图,还可添加回归线。 【过程选项(reg语句的选项)】 OUTEST=数据集名 指定统计量和参数估计输出的新

3、数据集名。 NOPRINT 禁止统计结果在OUTPUT视窗中输出。 SIMPLE 输出REG过程中所用的每个变量的基本统计量。 CORR 输出MODEL语句或VAR语句中所列变量的相关矩阵。 ALL 等价于MODEL语句加上全部选项,即输出该语句所有选项分析结果。,【MODEL语句】 MODEL语句定义模型中的因变量、自变量、模型选项及结果输出选项。语句中的变量只能是数据集中的变量,任何形式的变换都必须先产生一个新变量,然后用于分析。如X1的二次项,不能在模型中直接指定X1*X1,而要产生另一个新变量代表X1*X1,方可引入模型。 MODEL语句中常用的选项有: NOINT 在模型中不拟合常数

4、项。 STB 输出标准化回归系数。 CLI 输出个体预测值 的95%可信区间上下限。 CLM 输出因变量期望值(均值)的95%可信区间上下限。 R 输出个体预测值、残差及其标准误。 P 输出实际值Yi、预测值 和残差等。如已选择了CLI、CLM和R,则无需选择P。 SELECTION=name来选择逐步回归的方法。,【OUTPUT关键字】 REG过程中OUTPUT语句的用法和means过程中的用法相同,只是会用到另一些关键字。关键字用来定义需要输出到新数据集中的统计量,常用的关键字及其含义有:,【PLOT语句】 PLOT语句用于输出变量间的散点图,其用法和GPLOT过程中的PLOT语句非常相似

5、。PLOT语句定义的两变量可为MODEL语句或VAR语句中定义的任何变量。SYMBOL选项可定义散点图中点的标记,如SYMBOL=*,则每个点以“*”表示。,proc reg data=forest SIMPLE CORR; model y1-y5=x1-x7/selection=stepwise; Plot y1*x1=* run;,逐步回归分析,在进行逐步回归分析时,应用MODEL语句中的SELECTION=name选择项,来选择用于进行逐步回归分析时模型; 其中name可以是FORWARD(或F); BACKWARD(或B); STEPWISE ;MAXR; MINR; RSQUARE;

6、 ADJRSQ; CP; NONE(使用全回归模型)。缺省时使用NONE。,参考书p123p124,逐步回归的统计量,使用SELECTION=FORWARD(或F)变量增加法、BACKWARD(或B)变量减少法、STEPWISE变量增减法,会用到参数slentry与slstay。它们也可以简写为sle与sls。 SLE=概率值,入选标准,规定变量入选模型的显著性水平,前进法的默认是0.5,逐步法是0.15 SLS=概率值,剔除标准,指定变量保留在模型的显著水平,后退法默认为0.10,逐步法是0.15,最大R2增量法(MAXR) 首先找到具有最大决定系数R2的单变量回归模型,其次引入产生最大R2

7、增量的另一变量。然后对于该两变量的回归模型,用其他变量逐次替换,并计算其 R2,如果换后的模型能产生最大R2增量,即为两变量最优回归模型,如此再找下去,直到入选变量数太多,使设计矩阵不再满秩时为止。,最小R2增量法(MINR) 首先找到具有最小决定系数R2的单变量回归模型,然后从其余变量中选出一个变量,使它构成的模型其他变量所产生的R2增量最小,不断用新变量进行替换老变量,依次类推,这样就会顺次列出全部单变量回归模型,最后一个为单变量最佳模型;两变量最小R2增量的筛选类似最大R2增量法(MAXR) ,但引入的是产生最小R2 增量的另一变量。对该两变量的回归模型,再用其他变量替换,换成产生最小R

8、2增量者,直至R2不能再增加,即为两变量最优回归模型。依次类推,继续找含个或更多变量的最优回归模型等等,变量有进有出。 它与R2增量法选的结果不一定相同,但它在寻找最优模型过程中所考虑的中间模型要比本节第种方法多。,R2选择法(RSQUARE) 从模型语句中的各自变量所有可能子集中选出规定数目的子集,使该子集所构成的模型的决定系数R2最大。要注意当观测点少、且模型语句中变量数目过多时, 程序不能运行,因为过多变量使误差项无自由度,设计矩阵不满秩,所以最多只能从所有可能的变量中选择观测点数减个变量放入模型。本法和修正R2选择法(ADJRSQ)以及Mallows Cp选择法(CP)分别是按不同标准

9、选出回归模型自变量的最优子集,这类选变量法不是从所有可能形成的变量中,而仅仅从模袖量中穷举。 本法的局限性在于其一,当样本含量小于等于自变量(含交互作用项)个数时,只能在一定数目的变量中穷举,为找到含各种变量数目的最优子集,要么增加观测,要么反复给出不同模型;其二,选最优子集的标准是R2,完全没考虑其他标准。 修正R2选择法(ADJRSQ)以及Mallows Cp选择法(CP)与R2选择法(RSQUARE)类似,只不过使用的统计量不同。,1、变量x和y的观测值如下, X 0.10 0.30 0.40 0.55 0.70 0.80 0.95 y 15 18 19 21 22.6 23.8 26

10、绘制x和y的散点图。做直线回归。,data a1; input x y; cards; 0.10 15 0.30 18 0.40 19 0.55 21 0.70 22.6 0.80 23.8 0.95 26 ; run;,输入数据集:,表示数据不换行,连续输入,绘制散点图:,proc plot data=a1; plot y*x; run;,做直线回归:,proc reg data=a1; model y=x; run; quit;,如果不加quit语句,有时候SAS会一直保持reg过程的执行状态,而且让cpu占用率为100%。,Sum of Squares: 离差平方和,Mean Squar

11、es: 均方,Pr F: 统计量F的值位于F分布的什么概率位置。,Df: 自由度,Intercept: 回归方程的常数项。,3. 显著性检验,Syy:样本离差平方和 U:回归平方和(回归和) Q:剩余平方和(余和),一元线性回归,2、变量x和y的观测值以及频数如下, 1.5 4.5 3 1.6 4.55 2 1.8 4.82 4 2.5 5.5 1 3.2 6.18 2 试作直线回归。,data a3; input x y w; cards; 1.5 4.5 3 1.6 4.55 2 1.8 4.82 4 2.5 5.5 1 3.2 6.18 2 proc reg; model y=x; fr

12、eq w; run;,程序中freq表示这个点重复的次数。也可以用weight代替,表示权系数变量。但freq会自动取整,而weight接受小数部分。,5、下列数据是1957年美国旧轿车价格的调查资料,x表示轿车使用年数,y表示相应的平均价格,求y关于x的回归方程。(提示:先绘制散点图) X 1 2 3 4 5 6 7 8 9 10 Y 2651 1943 1494 1087 765 538 484 290 226 204,先绘制散点图, data a5; input x y; cards; 1 2651 2 1943 3 1494 4 1087 5 765 6 538 7 484 8 290

13、 9 226 10 204 ; proc plot; plot y*x; run;,得到x和y之间的散点图如下:,从上图可以看出,y和x之间呈现出指数关系,于是我们可以采用指数回归模型,令,,则化成了线性回归问题。 Data a52; Input x y; X1=x; Y1=log(y); Cards; 1 2651 2 1943 3 1494 4 1087 5 765 6 538 7 484 8 290 9 226 10 204 ; proc reg; model y1=x1; run; quit;,可以看出,模型是显著的。Intercept和X1的系数也都是显著的。,得到y1和x1的回归方

14、程为:y1=8.164585-0.29768x1,而且知道回归效果是高度显著的。 Y和x之间的回归方程为: Y=exp(y1)=3514.26exp(-0.29768x),例3 现有20名糖尿病人的血糖(y,mmol/L)、胰岛素(X1,mU/L)及生长素(X2,g/L)的测量数据列于中,试进行多元线性回归分析,假设上表的资料已建立文本文件c:userli4_1,调用REG过程拟合多元回归方程,程序如下:,MODEL语句中加上STB选项将会给出标准偏回归通径系数,进而可以了解自变数的相对重要性,REG过程中MODEL语句可以交互使用,本例我们建立了两个模型,第一个model没有作变量筛选,建立

15、一个含有两个自变量的方程,并输出标准化偏回归系数。第二个model指定逐步回归法筛选变量。程序运行的主要结果如下:,REG过程拟合带截距项的直线回归方程,用最小二乘法估计模型的参数,并给出模型及参数的方差分析和t检验。本例的两个模型检验P值都小于0.05,模型有统计学意义。 模型1含有两个自变量,其截距项和X1检验有统计学意义,X2的检验无统计学意义。 模型2为逐步回归法,只纳入了X1。比较两个模型的决定系数,模型1因含有两个自变量,决定系数比模型2要大,但因为模型纳入了不显著的自变量X2,导致它的调整决定系数反而较小,所以我们选择模型2,回归方程:Y=18.796-0.459X1。,使用SE

16、LECTION=FORWARD(或F)变量增加法、BACKWARD(或B)变量减少法、STEPWISE变量增减法,会用到参数slentry与slstay。它们也可以简写为sle与sls。 SLE=概率值,入选标准,规定变量入选模型的显著性水平,前进法的默认是0.5,逐步法是0.15 SLS=概率值,剔除标准,指定变量保留在模型的显著水平,后退法默认为0.10,逐步法是0.15,如果要改变变量引入和剔除的标准,练习一、槲寄生是一种寄生在大树上部树支上的寄生植物。它喜欢寄生在年轻的大树上。下面给出了在一定条件下完成的试验中采集的数据,试分析大树年龄和每株大树上槲寄生株数的关系(提示:先绘制散点图) 大树年龄X 3 3 3 4 4 4 9 9 9 15 15 15 40 40 槲寄生株数Y 28 33 22 10 36 24 15 22 10 6 14 9 1 1,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号