sas中多元线性回归－金锄头文库

资源描述

《sas中多元线性回归》由会员分享，可在线阅读，更多相关《sas中多元线性回归（37页珍藏版）》请在金锄头文库上搜索。

1、用SAS进行回归分析,SAS中用于回归分析的过程,SAS中用于回归分析的过程,reg过程,一般格式为： proc reg 选项； model 因变量=自变量/选项； weight 变量； print 选项； plot 纵轴变量*横轴变量=“符号”；,proc reg data=forest; model y1-y5=x1-x7; run;,reg过程的选项,proc reg语句的选项有data=输入数据集，simple给出简单统计数，corr给出简单相关系数等。 Model语句设定线性数学模型。 Weight语句给出权系数变量。 Print语句打印分析结果。 Plot语句作散点图。,REG过程

2、的语法格式如下：,这也不是完全的reg过程的语法，详细语法，可以参考SAS的帮助。,proc reg data=forest OUTEST=result1 SIMPLE CORR; model y1-y5=x1-x7/selection=stepwise; Plot y1*x1 run;,程序中全部语句中只有第一行和MODEL语句是必需的，其他都可以省略。 MODEL语句，必需语句，定义回归分析模型 VAR语句为可选的，指定用于计算交叉积的变量 PLOT语句为可选的，用于绘制变量间的散点图，还可添加回归线。【过程选项（reg语句的选项）】 OUTEST=数据集名指定统计量和参数估计输出的新

3、数据集名。 NOPRINT 禁止统计结果在OUTPUT视窗中输出。 SIMPLE 输出REG过程中所用的每个变量的基本统计量。 CORR 输出MODEL语句或VAR语句中所列变量的相关矩阵。 ALL 等价于MODEL语句加上全部选项，即输出该语句所有选项分析结果。,【MODEL语句】 MODEL语句定义模型中的因变量、自变量、模型选项及结果输出选项。语句中的变量只能是数据集中的变量，任何形式的变换都必须先产生一个新变量，然后用于分析。如X1的二次项，不能在模型中直接指定X1*X1，而要产生另一个新变量代表X1*X1，方可引入模型。 MODEL语句中常用的选项有： NOINT 在模型中不拟合常数

4、项。 STB 输出标准化回归系数。 CLI 输出个体预测值的95%可信区间上下限。 CLM 输出因变量期望值(均值)的95%可信区间上下限。 R 输出个体预测值、残差及其标准误。 P 输出实际值Yi、预测值和残差等。如已选择了CLI、CLM和R，则无需选择P。 SELECTION=name来选择逐步回归的方法。,【OUTPUT关键字】 REG过程中OUTPUT语句的用法和means过程中的用法相同，只是会用到另一些关键字。关键字用来定义需要输出到新数据集中的统计量，常用的关键字及其含义有：,【PLOT语句】 PLOT语句用于输出变量间的散点图，其用法和GPLOT过程中的PLOT语句非常相似

5、。PLOT语句定义的两变量可为MODEL语句或VAR语句中定义的任何变量。SYMBOL选项可定义散点图中点的标记，如SYMBOL=*，则每个点以“*”表示。,proc reg data=forest SIMPLE CORR; model y1-y5=x1-x7/selection=stepwise; Plot y1*x1=* run;,逐步回归分析,在进行逐步回归分析时，应用MODEL语句中的SELECTION=name选择项，来选择用于进行逐步回归分析时模型；其中name可以是FORWARD（或F）； BACKWARD（或B）； STEPWISE ；MAXR； MINR； RSQUARE；

6、 ADJRSQ； CP； NONE（使用全回归模型）。缺省时使用NONE。,参考书p123p124，逐步回归的统计量,使用SELECTION=FORWARD（或F）变量增加法、BACKWARD（或B）变量减少法、STEPWISE变量增减法，会用到参数slentry与slstay。它们也可以简写为sle与sls。 SLE=概率值，入选标准，规定变量入选模型的显著性水平，前进法的默认是0.5，逐步法是0.15 SLS=概率值，剔除标准，指定变量保留在模型的显著水平，后退法默认为0.10，逐步法是0.15,最大R2增量法(MAXR) 首先找到具有最大决定系数R2的单变量回归模型,其次引入产生最大R2

7、增量的另一变量。然后对于该两变量的回归模型，用其他变量逐次替换，并计算其 R2，如果换后的模型能产生最大R2增量，即为两变量最优回归模型，如此再找下去，直到入选变量数太多，使设计矩阵不再满秩时为止。,最小R2增量法(MINR) 首先找到具有最小决定系数R2的单变量回归模型，然后从其余变量中选出一个变量，使它构成的模型其他变量所产生的R2增量最小，不断用新变量进行替换老变量，依次类推，这样就会顺次列出全部单变量回归模型,最后一个为单变量最佳模型;两变量最小R2增量的筛选类似最大R2增量法(MAXR) ，但引入的是产生最小R2 增量的另一变量。对该两变量的回归模型，再用其他变量替换，换成产生最小R

8、2增量者，直至R2不能再增加，即为两变量最优回归模型。依次类推，继续找含个或更多变量的最优回归模型等等,变量有进有出。它与R2增量法选的结果不一定相同，但它在寻找最优模型过程中所考虑的中间模型要比本节第种方法多。,R2选择法(RSQUARE) 从模型语句中的各自变量所有可能子集中选出规定数目的子集，使该子集所构成的模型的决定系数R2最大。要注意当观测点少、且模型语句中变量数目过多时, 程序不能运行，因为过多变量使误差项无自由度，设计矩阵不满秩，所以最多只能从所有可能的变量中选择观测点数减个变量放入模型。本法和修正R2选择法(ADJRSQ)以及Mallows Cp选择法(CP)分别是按不同标准

9、选出回归模型自变量的最优子集，这类选变量法不是从所有可能形成的变量中，而仅仅从模袖量中穷举。本法的局限性在于其一，当样本含量小于等于自变量(含交互作用项)个数时，只能在一定数目的变量中穷举，为找到含各种变量数目的最优子集，要么增加观测，要么反复给出不同模型；其二，选最优子集的标准是R2，完全没考虑其他标准。修正R2选择法(ADJRSQ)以及Mallows Cp选择法(CP)与R2选择法(RSQUARE)类似，只不过使用的统计量不同。,1、变量x和y的观测值如下， X 0.10 0.30 0.40 0.55 0.70 0.80 0.95 y 15 18 19 21 22.6 23.8 26

10、绘制x和y的散点图。做直线回归。,data a1; input x y; cards; 0.10 15 0.30 18 0.40 19 0.55 21 0.70 22.6 0.80 23.8 0.95 26 ; run;,输入数据集：,表示数据不换行，连续输入,绘制散点图：,proc plot data=a1; plot y*x; run;,做直线回归：,proc reg data=a1; model y=x; run; quit;,如果不加quit语句，有时候SAS会一直保持reg过程的执行状态，而且让cpu占用率为100%。,Sum of Squares：离差平方和,Mean Squar

11、es：均方,Pr F：统计量F的值位于F分布的什么概率位置。,Df：自由度,Intercept：回归方程的常数项。,3. 显著性检验,Syy：样本离差平方和 U：回归平方和（回归和） Q：剩余平方和（余和）,一元线性回归,2、变量x和y的观测值以及频数如下， 1.5 4.5 3 1.6 4.55 2 1.8 4.82 4 2.5 5.5 1 3.2 6.18 2 试作直线回归。,data a3; input x y w; cards; 1.5 4.5 3 1.6 4.55 2 1.8 4.82 4 2.5 5.5 1 3.2 6.18 2 proc reg; model y=x; fr

12、eq w; run;,程序中freq表示这个点重复的次数。也可以用weight代替，表示权系数变量。但freq会自动取整，而weight接受小数部分。,5、下列数据是1957年美国旧轿车价格的调查资料，x表示轿车使用年数，y表示相应的平均价格，求y关于x的回归方程。（提示：先绘制散点图） X 1 2 3 4 5 6 7 8 9 10 Y 2651 1943 1494 1087 765 538 484 290 226 204,先绘制散点图， data a5; input x y; cards; 1 2651 2 1943 3 1494 4 1087 5 765 6 538 7 484 8 290

13、 9 226 10 204 ; proc plot; plot y*x; run;,得到x和y之间的散点图如下：,从上图可以看出，y和x之间呈现出指数关系，于是我们可以采用指数回归模型,令,，则化成了线性回归问题。 Data a52; Input x y; X1=x; Y1=log(y); Cards; 1 2651 2 1943 3 1494 4 1087 5 765 6 538 7 484 8 290 9 226 10 204 ; proc reg; model y1=x1; run; quit;,可以看出，模型是显著的。Intercept和X1的系数也都是显著的。,得到y1和x1的回归方

14、程为：y1=8.164585-0.29768x1，而且知道回归效果是高度显著的。 Y和x之间的回归方程为： Y=exp(y1)=3514.26exp(-0.29768x),例3 现有20名糖尿病人的血糖(y,mmol/L)、胰岛素(X1,mU/L)及生长素(X2,g/L)的测量数据列于中，试进行多元线性回归分析,假设上表的资料已建立文本文件c:userli4_1，调用REG过程拟合多元回归方程，程序如下：,MODEL语句中加上STB选项将会给出标准偏回归通径系数，进而可以了解自变数的相对重要性,REG过程中MODEL语句可以交互使用，本例我们建立了两个模型，第一个model没有作变量筛选，建立

15、一个含有两个自变量的方程，并输出标准化偏回归系数。第二个model指定逐步回归法筛选变量。程序运行的主要结果如下：,REG过程拟合带截距项的直线回归方程，用最小二乘法估计模型的参数，并给出模型及参数的方差分析和t检验。本例的两个模型检验P值都小于0.05，模型有统计学意义。模型1含有两个自变量，其截距项和X1检验有统计学意义，X2的检验无统计学意义。模型2为逐步回归法，只纳入了X1。比较两个模型的决定系数，模型1因含有两个自变量，决定系数比模型2要大，但因为模型纳入了不显著的自变量X2，导致它的调整决定系数反而较小，所以我们选择模型2，回归方程：Y=18.796-0.459X1。,使用SE

16、LECTION=FORWARD（或F）变量增加法、BACKWARD（或B）变量减少法、STEPWISE变量增减法，会用到参数slentry与slstay。它们也可以简写为sle与sls。 SLE=概率值，入选标准，规定变量入选模型的显著性水平，前进法的默认是0.5，逐步法是0.15 SLS=概率值，剔除标准，指定变量保留在模型的显著水平，后退法默认为0.10，逐步法是0.15,如果要改变变量引入和剔除的标准,练习一、槲寄生是一种寄生在大树上部树支上的寄生植物。它喜欢寄生在年轻的大树上。下面给出了在一定条件下完成的试验中采集的数据，试分析大树年龄和每株大树上槲寄生株数的关系（提示：先绘制散点图）大树年龄X 3 3 3 4 4 4 9 9 9 15 15 15 40 40 槲寄生株数Y 28 33 22 10 36 24 15 22 10 6 14 9 1 1,

展开阅读全文