SAS的基本统计分析.ppt

上传人:公**** 文档编号:571553061 上传时间:2024-08-11 格式:PPT 页数:50 大小:763.01KB
返回 下载 相关 举报
SAS的基本统计分析.ppt_第1页
第1页 / 共50页
SAS的基本统计分析.ppt_第2页
第2页 / 共50页
SAS的基本统计分析.ppt_第3页
第3页 / 共50页
SAS的基本统计分析.ppt_第4页
第4页 / 共50页
SAS的基本统计分析.ppt_第5页
第5页 / 共50页
点击查看更多>>
资源描述

《SAS的基本统计分析.ppt》由会员分享,可在线阅读,更多相关《SAS的基本统计分析.ppt(50页珍藏版)》请在金锄头文库上搜索。

1、版权所有, 2005 上海财经大学 邵建利SAS软件应用主讲:上海财经大学统计学系 邵建利第四章 SAS的基本统计分析(1)SAS基本统计分析概论基本统计分析概论 前面我们已经看到了前面我们已经看到了SASSAS的编程计算、数据管理能力、的编程计算、数据管理能力、数据汇总、数据探索分析能力。这一章我们讲如何用数据汇总、数据探索分析能力。这一章我们讲如何用SASSAS进行基本的统计检验、线性回归、方差分析、列联表检验进行基本的统计检验、线性回归、方差分析、列联表检验等基本统计分析。我们既使用等基本统计分析。我们既使用SASSAS语言编程,也使用语言编程,也使用SAS/INSIGHTSAS/INS

2、IGHT的菜单界面。的菜单界面。一些单变量检验问题一些单变量检验问题proc univariate data=sashelp.class normal; var weight; run; 对单个变量,我们可能需要作正态性检验、两独立样本均值对单个变量,我们可能需要作正态性检验、两独立样本均值相等的检验、成对样本均值相等的检验。相等的检验、成对样本均值相等的检验。 正态性检验正态性检验 在在PROC UNIVARIATEPROC UNIVARIATE语句中加上语句中加上NORMALNORMAL选项可以进行正态性检选项可以进行正态性检验验 l Tests for Location: Mu0=0l

3、Test -Statistic- -p Value-l Students t t 19.1449 Pr |t| = |M| = |S| .0001l Tests for Normalityl Test -Statistic- -p Value-l Shapiro-Wilk W 0.965083 Pr D 0.1500l Cramer-von Mises W-Sq 0.057963 Pr W-Sq 0.2500l Anderson-Darling A-Sq 0.366427 Pr A-Sq 0.2500一些单变量检验问题一些单变量检验问题l其中W:Normal为Shapiro-Wilk正态性检验

4、统计量,Pr2000时用Kolmogorov D统计量。我们可以看到,p值很小,所以在0.05水平(或0.10水平)下应拒绝零假设,即认为height分布正态。l在SAS/INSIGHT中为了检验height的分布,先选“Analyze | Distribution”菜单打开height 变量的分布窗口,然后选“Curves | Test for Distribution”菜单。除了可以检验是否正态分布外还可以检验是否对数正态、指数分布、Weibull分布。proc ttest data=sashelp.class; class sex; var weight; run; 一些单变量检验问题一

5、些单变量检验问题假设我们有两组样本分别来自两个独立总体,需要检假设我们有两组样本分别来自两个独立总体,需要检验两个总体的均值或中心位置是否一样。如果两个总验两个总体的均值或中心位置是否一样。如果两个总体都分别服从正态分布,而且方差相等,可以使用两体都分别服从正态分布,而且方差相等,可以使用两样本样本t t检验过程检验过程TTESTTTEST。l The SAS System 23:06 Friday, October 7, 2005 2l The TTEST Procedurel Statisticsl Lower CL Upper CL Lower CL Upper CLl Variable

6、 Sex N Mean Mean Mean Std Dev Std Dev Std Dev Std Errl Weight F 9 75.211 90.111 105.01 13.093 19.384 37.135 6.4613l Weight M 10 92.692 108.95 125.21 15.633 22.727 41.491 7.187l Weight Diff (1-2) -39.41 -18.84 1.7313 15.923 21.22 31.811 9.7497l T-Testsl Variable Method Variances DF t Value Pr |t|l We

7、ight Pooled Equal 17 -1.93 0.0702l Weight Satterthwaite Unequal 17 -1.95 0.0680l Equality of Variancesl Variable Method Num DF Den DF F Value Pr Fl Weight Folded F 9 8 1.37 0.6645一些单变量检验问题一些单变量检验问题一些单变量检验问题一些单变量检验问题结果有三个部分:两个总体的结果有三个部分:两个总体的WEGIHTWEGIHT简单统计量,两样简单统计量,两样本均值的检验,以及两样本方差是否相等的检验。标准本均值的检验,

8、以及两样本方差是否相等的检验。标准的两样本的两样本t t检验要求两总体方差相等,所以第三部分结果检验要求两总体方差相等,所以第三部分结果检验两样本方差是否相等。如果检验的结果为相等,则检验两样本方差是否相等。如果检验的结果为相等,则可使用精确的两样本可使用精确的两样本t t检验,看第二部分结果的检验,看第二部分结果的EqualEqual那那一行。如果方差检验的结果为不等,则只能使用近似的一行。如果方差检验的结果为不等,则只能使用近似的两样本两样本t t检验,看第二部分结果的检验,看第二部分结果的UnequalUnequal那一行。这里那一行。这里我们看到方差检验的我们看到方差检验的p p值为值

9、为0.91140.9114不显著,所以可以认为不显著,所以可以认为方差相等,所以我们看方差相等,所以我们看EqualEqual行,行,p p值为值为0.00010.0001在在0.050.05水水平下是显著的,所以应认为男、女生的平下是显著的,所以应认为男、女生的WEGIHTWEGIHT分数有显分数有显著差异,女生体重要低。著差异,女生体重要低。一些单变量检验问题一些单变量检验问题上面的检验中对立假设是两组的均值不等,所以检验是双上面的检验中对立假设是两组的均值不等,所以检验是双边的,边的,p p值的计算公式为值的计算公式为Pr(tPr(t分布随机变量绝对值分布随机变量绝对值 计算得计算得到的

10、到的t t统计量的绝对值统计量的绝对值) )。如果要进行单边的检验,比如对。如果要进行单边的检验,比如对立假设为女生体重高于男生(右边),则立假设为女生体重高于男生(右边),则p p值为值为Pr(tPr(t分布分布随机变量随机变量 计算得到的计算得到的t t统计量统计量) ),当计算得到的,当计算得到的t t统计量值统计量值为正数时(现在为正数时(现在t=4.0t=4.0)此单边)此单边p p值为双边值为双边p p值的一半,当值的一半,当计算得到的计算得到的t t统计量为负数时肯定不能否定零假设。检验统计量为负数时肯定不能否定零假设。检验左边时恰好相反。左边时恰好相反。procproc npa

11、r1waynpar1way data=sashelp.class wilcoxon; class sex; var weight; runrun; 一些单变量检验问题一些单变量检验问题如果我们希望检验男、女生的体重,对特殊人群有时无法使如果我们希望检验男、女生的体重,对特殊人群有时无法使用两样本用两样本t t检验,因为检验女生的体重样本的正态性发现它是检验,因为检验女生的体重样本的正态性发现它是非正态。这种情况下我们可以使用非参数检验。检验两独立非正态。这种情况下我们可以使用非参数检验。检验两独立样本的位置是否相同的非参数检验有样本的位置是否相同的非参数检验有WilcoxonWilcoxon秩

12、和检验。我秩和检验。我们用们用NPAR1WAYNPAR1WAY过程加过程加WilcoxonWilcoxon选项可以进行这种检验。见下选项可以进行这种检验。见下例:例:l The NPAR1WAY Procedurel Wilcoxon Scores (Rank Sums) for Variable Weightl Classified by Variable Sexl Sum of Expected Std Dev Meanl Sex N Scores Under H0 Under H0 Scorel -l M 10 119.0 100.0 12.225943 11.900000l F 9 7

13、1.0 90.0 12.225943 7.888889l Average scores were used for ties.l Wilcoxon Two-Sample Testl Statistic 71.0000l Normal Approximationl Z -1.5132l One-Sided Pr |Z| 0.1302l t Approximationl One-Sided Pr |Z| 0.1476l Z includes a continuity correction of 0.5.l Kruskal-Wallis Testl Chi-Square 2.4151l DF 1l

14、Pr Chi-Square 0.1202 结果分为四部分:两样本的秩和的有关统计量,结果分为四部分:两样本的秩和的有关统计量,WilcoxonWilcoxon两样本检验的结果,两样本检验的结果,t t检验的近似显著性,检验的近似显著性,Kruskal-wallisKruskal-wallis检验结果。我们只要看检验结果。我们只要看WilcoxonWilcoxon检验的检验的p p值值ProbProb |Z| = |Z| = 0.12020.1202,检验结果不显著,可认为男、女生的体重在,检验结果不显著,可认为男、女生的体重在0.050.05水水平下无显著差异。平下无显著差异。SAS/INSI

15、GHTSAS/INSIGHT中未提供两独立样本检验的功能。中未提供两独立样本检验的功能。成对总体均值检验成对总体均值检验 我们在现实中经常遇到两个总体是相关的测量结果的比我们在现实中经常遇到两个总体是相关的测量结果的比较,比如,考察同一组人在参加一年的长跑锻炼前后的心较,比如,考察同一组人在参加一年的长跑锻炼前后的心率有无显著差异。这时,每个人一年前的心率和一年后的率有无显著差异。这时,每个人一年前的心率和一年后的心率是相关的,心率本来较快的人锻炼后仍相对于其它人心率是相关的,心率本来较快的人锻炼后仍相对于其它人较快。所以,检验这样的成对总体的均值不能使用两样本较快。所以,检验这样的成对总体的

16、均值不能使用两样本t t检验的方法,因为独立性条件不再满足。这时,我们可检验的方法,因为独立性条件不再满足。这时,我们可以检验两个变量间的差值的均值是否为零,这等价于检验以检验两个变量间的差值的均值是否为零,这等价于检验两组测量值的平均水平有无显著差异。两组测量值的平均水平有无显著差异。l检验单个样本的均值是否为零只要使用检验单个样本的均值是否为零只要使用UNIVARIATEUNIVARIATE过程,过程,在在UNIVARIATEUNIVARIATE过程的矩部分给出了均值为零的过程的矩部分给出了均值为零的t t检验和符号检验和符号检验、符号秩检验的结果。检验、符号秩检验的结果。l两配对样本的两

17、配对样本的T T检验可根据样本数据对两总体均值之间是否检验可根据样本数据对两总体均值之间是否有差异进行推断。作此类有差异进行推断。作此类T T检验的基本要求是:首先两样本检验的基本要求是:首先两样本数据必须两两配对,即样本顺序相同、数目相等等。其次,数据必须两两配对,即样本顺序相同、数目相等等。其次,两总体是服从正态分布的。最后两配对样本两总体是服从正态分布的。最后两配对样本T T检验的基本假检验的基本假设为:两总体均值相同。设为:两总体均值相同。 l例如,假设两方案的产量都服从正态分布,例如,假设两方案的产量都服从正态分布,1 1号方案的单位号方案的单位面积产量均值面积产量均值1 1,2 2

18、号方案的单位面积产量均值号方案的单位面积产量均值2 2,原假设,原假设H H0 0:1 1=2 2 H H1 1:1 12 2lDATADATA TEM;l SET DST.A;l D=OUTPUT1-OUTPUT2;lRUNRUN;lPROCPROC UNIVARIATEUNIVARIATE DATA=TEM;l VAR D;lRUNRUN; Basic Statistical Measures Location Variabilityl Mean 10.37500 Std Deviation 3.85218l Median 10.00000 Variance 14.83929l Mode

19、11.00000 Range 12.00000l Interquartile Range 4.50000 Tests for Location: Mu0=0l Test -Statistic- -p Value-l Students t t 7.617748 Pr |t| 0.0001l Sign M 4 Pr = |M| 0.0078l Signed Rank S 18 Pr = |S| 0.0078l我们只要看其中的三个检验:我们只要看其中的三个检验:T: Mean=0T: Mean=0是假定差值变量服从是假定差值变量服从正态分布时检验均值为零的正态分布时检验均值为零的t t统计量值,相应

20、的统计量值,相应的p p值值Pr|T|Pr|T|为为0.00010.0001在在0.050.05水平下是显著的,所以可认为两科分数有显著差水平下是显著的,所以可认为两科分数有显著差异。异。M(SignM(Sign) )是非参数检验符号检验的统计量,其是非参数检验符号检验的统计量,其p p值值Pr=|M|Pr=|M|为为0.00010.0001在在0.050.05水平下是显著的,结论不变。水平下是显著的,结论不变。SgnSgn Rank Rank是非参是非参数检验符号秩检验的统计量,其数检验符号秩检验的统计量,其p p值值Pr=|S|Pr=|S|为为0.00780.0078在在0.050.05水

21、水平下是显著的,结论不变。所以这三个检验的结论都是两科成平下是显著的,结论不变。所以这三个检验的结论都是两科成绩有显著差异。绩有显著差异。l如果如果t t检验对立假设是单边的,其检验对立假设是单边的,其p p值算法与上面讲的两样本值算法与上面讲的两样本t t检验检验p p值算法相同。值算法相同。l 数据集:数据集:PULSPULS案例:成对检验案例:成对检验使用分析员应用使用分析员应用回归分析回归分析用用SAS/INSIGHTSAS/INSIGHT进行曲线拟合进行曲线拟合l两个变量两个变量Y Y和和X X之间的相关关系经常可以用一个函数之间的相关关系经常可以用一个函数来表示,一元函数可以等同于

22、一条曲线,实际工作中来表示,一元函数可以等同于一条曲线,实际工作中经常对两个变量拟合一条曲线来近似它们的相关关系。经常对两个变量拟合一条曲线来近似它们的相关关系。最基本的最基本的“曲线曲线”是直线,还可以用多项式、样条函是直线,还可以用多项式、样条函数、核估计和局部多项式估计。其模型可表示为数、核估计和局部多项式估计。其模型可表示为l例如,我们要研究例如,我们要研究SASHELP.CLASSSASHELP.CLASS数据集中学生体重与身高数据集中学生体重与身高之间的相关关系。为此,我们可以先画出两者的散点图之间的相关关系。为此,我们可以先画出两者的散点图(Analyze | Scatter p

23、lotAnalyze | Scatter plot)。从图中可以看出,身高越高)。从图中可以看出,身高越高的人一般体重越重。我们可以把体重作为因变量、身高作为的人一般体重越重。我们可以把体重作为因变量、身高作为自变量拟合一条回归直线,只要选自变量拟合一条回归直线,只要选“Analyze | Fit (Y X)”Analyze | Fit (Y X)”,并选体重为,并选体重为Y Y变量,身高为变量,身高为X X变量,即可自动拟合出一条回变量,即可自动拟合出一条回归直线,见图归直线,见图 。窗口中还给出了拟合的模型方程、参数估计、。窗口中还给出了拟合的模型方程、参数估计、诊断信息等,我们在下一小节

24、再详细介绍。诊断信息等,我们在下一小节再详细介绍。回归分析回归分析l在拟合了直线后,为拟合多项式曲线,只要选在拟合了直线后,为拟合多项式曲线,只要选“Curves | Curves | Polynomial”Polynomial”,然后输入阶次(,然后输入阶次(Degree(PolynomialDegree(Polynomial) )),就可),就可以在散点图基础上再加入一条多项式曲线。对于本例,我们看以在散点图基础上再加入一条多项式曲线。对于本例,我们看到二次多项式得到的曲线与直线差别很小,所以用二次多项式到二次多项式得到的曲线与直线差别很小,所以用二次多项式拟合没有优势。还可以试用三次、四

25、次等多项式。为了改变阶拟合没有优势。还可以试用三次、四次等多项式。为了改变阶次还可以使用拟合窗口中的多项式阶次滑块(次还可以使用拟合窗口中的多项式阶次滑块(Parametric Parametric Regression FitRegression Fit中的中的Degree(PolynomialDegree(Polynomial) ))。)。l 回归分析回归分析l样条曲线是一种非参数回归的曲线拟合方法。光滑样条为样条曲线是一种非参数回归的曲线拟合方法。光滑样条为分段的三次多项式,曲线在每一段内是一个三次多项式,在分段的三次多项式,曲线在每一段内是一个三次多项式,在两段的连接点是连续、光滑的。

26、为拟合样条曲线,只要选两段的连接点是连续、光滑的。为拟合样条曲线,只要选“Curves | Curves | SplineSpline”,使用缺省的,使用缺省的GCVGCV准则(广义交叉核实)准则(广义交叉核实)来选取光滑系数(光滑系数来选取光滑系数(光滑系数c c越大,得到的曲线越光滑,但越大,得到的曲线越光滑,但拟合同时变差,光滑系数拟合同时变差,光滑系数c c小的时候得到的曲线较曲折,而小的时候得到的曲线较曲折,而拟合较好),就可以在散点图的基础上画出样条曲线。可以拟合较好),就可以在散点图的基础上画出样条曲线。可以用光滑系数用光滑系数c c的滑块来调整曲线的光滑程度的滑块来调整曲线的光

27、滑程度/ /拟合优度。对于拟合优度。对于本例,本例,GCVGCV准则得到的样条曲线与回归直线几乎是重合的,准则得到的样条曲线与回归直线几乎是重合的,说明直线拟合可以得到满意的结果。说明直线拟合可以得到满意的结果。回归分析回归分析l核估计是另一种非参数回归的曲线拟合方法。它定义了核估计是另一种非参数回归的曲线拟合方法。它定义了一个核函数,例如使用标准正态分布密度曲线,然后用如下公一个核函数,例如使用标准正态分布密度曲线,然后用如下公式估计经验公式:式估计经验公式:l其中其中c c为光滑系数,为光滑系数,c c越大得到的曲线越光滑。为了画核估计越大得到的曲线越光滑。为了画核估计曲线,只要选曲线,只

28、要选“Curves | Kernel”Curves | Kernel”,权重函数使用缺省的正,权重函数使用缺省的正态核,选取光滑系数的方法采用缺省的态核,选取光滑系数的方法采用缺省的GCVGCV法,就可以把核估法,就可以把核估计图附加到散点图上。本例得到的核估计曲线与回归直线、样计图附加到散点图上。本例得到的核估计曲线与回归直线、样条曲线有一定差别。可以手动调整光滑系数的值,可以看到,条曲线有一定差别。可以手动调整光滑系数的值,可以看到,当过大时曲线不仅变光滑而且越来越变水平,因为这时的拟合当过大时曲线不仅变光滑而且越来越变水平,因为这时的拟合值基本是一个常数,这与样条曲线的情形不同,样条曲线

29、当增值基本是一个常数,这与样条曲线的情形不同,样条曲线当增大时曲线变光滑但不趋向于常数(水平线)。大时曲线变光滑但不趋向于常数(水平线)。l局部多项式估计(局部多项式估计(LoessLoess)是另一种非参数回归的曲线拟合方)是另一种非参数回归的曲线拟合方法。它在每一自变量值处拟合一个局部多项式,可以是零阶、法。它在每一自变量值处拟合一个局部多项式,可以是零阶、一阶、二阶,零阶时与核估计相同。一阶、二阶,零阶时与核估计相同。SAS/INSIGHTSAS/INSIGHT缺省使用一缺省使用一阶(线性)局部多项式。改变阶(线性)局部多项式。改变LoessLoess的系数的系数alphaalpha可以

30、改变曲线可以改变曲线的光滑度。的光滑度。alphaalpha增大时曲线变光滑,而且使用一阶或二阶多增大时曲线变光滑,而且使用一阶或二阶多项式时曲线不会同时变水平。项式时曲线不会同时变水平。l固定带宽的局部多项式是另一种局部多项式拟合方法。它有固定带宽的局部多项式是另一种局部多项式拟合方法。它有一个光滑系数一个光滑系数c c。用用SAS/INSIGHTSAS/INSIGHT进行线性回归分析进行线性回归分析上面我们已经看到,用菜单上面我们已经看到,用菜单“Analyze | Fit (Y X)”Analyze | Fit (Y X)”就可以拟合一条回归直线,这是对回归方程就可以拟合一条回归直线,这

31、是对回归方程的估计结果。这样的线性回归可以推广到一个因变量、多个的估计结果。这样的线性回归可以推广到一个因变量、多个自变量的情况。线性模型写成矩阵形式为自变量的情况。线性模型写成矩阵形式为其中其中为为向量,向量,为为矩阵,一般第一列元素全是矩阵,一般第一列元素全是1 1,为未知参数向量,未知参数向量,为为元素独立且方差为相等的元素独立且方差为相等的(未知)。(未知)。 代表截距项。代表截距项。为为随机误差向量,随机误差向量,正常情况下,系数的估计为正常情况下,系数的估计为,拟合值(或称预报值)为,拟合值(或称预报值)为,其中,其中是是空间内向空间内向的列张成的线性空间的列张成的线性空间投影的投

32、影算子矩阵,叫做投影的投影算子矩阵,叫做“帽子帽子”矩阵。拟合残差为矩阵。拟合残差为,残差平方和为,残差平方和为,误差项方差的估计为(要求设计阵,误差项方差的估计为(要求设计阵均方误差(均方误差(MSEMSE),在线性模型的假设下,若设计阵,在线性模型的假设下,若设计阵满秩,满秩,和和分别是分别是的无偏估计,系数估计的方差阵的无偏估计,系数估计的方差阵判断回归结果优劣的一个重要指标为复相关系数平方(决定系数)判断回归结果优劣的一个重要指标为复相关系数平方(决定系数)满秩)满秩)满秩)满秩)和和。它代表在因变量的变差中用模型能够解释的部分的比例,所以它代表在因变量的变差中用模型能够解释的部分的比

33、例,所以它代表在因变量的变差中用模型能够解释的部分的比例,所以它代表在因变量的变差中用模型能够解释的部分的比例,所以越大说明模型越好,越大说明模型越好,越大说明模型越好,越大说明模型越好, 其中其中其中其中 例如,我们在例如,我们在例如,我们在例如,我们在“ “Fit (Y X)Fit (Y X)Fit (Y X)Fit (Y X)” ”的选择变量窗口选的选择变量窗口选的选择变量窗口选的选择变量窗口选Y Y Y Y变量(因变量)变量(因变量)变量(因变量)变量(因变量)为体重(为体重(为体重(为体重(WEIGHTWEIGHTWEIGHTWEIGHT),选),选),选),选X X X X变量(自

34、变量)为身高(变量(自变量)为身高(变量(自变量)为身高(变量(自变量)为身高(HEIGHTHEIGHTHEIGHTHEIGHT)和年龄)和年龄)和年龄)和年龄(AGEAGEAGEAGE),则可以得到体重对身高、年龄的线性回归结果。下面对),则可以得到体重对身高、年龄的线性回归结果。下面对),则可以得到体重对身高、年龄的线性回归结果。下面对),则可以得到体重对身高、年龄的线性回归结果。下面对基本结果进行说明。基本结果进行说明。基本结果进行说明。基本结果进行说明。回归基本模型:回归基本模型:回归基本模型:回归基本模型: WEIGHT = HEIGHT AGEWEIGHT = HEIGHT AGE

35、WEIGHT = HEIGHT AGEWEIGHT = HEIGHT AGE Response Distribution: Normal Response Distribution: Normal Response Distribution: Normal Response Distribution: Normal Link Function: Identity Link Function: Identity Link Function: Identity Link Function: Identity回归模型方程:回归模型方程:回归模型方程:回归模型方程: Model EquationMod

36、el EquationModel EquationModel EquationWEIGHT = - 141.2238 + 3.5970 HEIGHT + 1.2784 AGEWEIGHT = - 141.2238 + 3.5970 HEIGHT + 1.2784 AGEWEIGHT = - 141.2238 + 3.5970 HEIGHT + 1.2784 AGEWEIGHT = - 141.2238 + 3.5970 HEIGHT + 1.2784 AGE拟合概况:拟合概况:拟合概况:拟合概况: Summary of FitSummary of FitSummary of FitSummar

37、y of Fit Mean of Response 100.0263 R-Square 0.7729 Mean of Response 100.0263 R-Square 0.7729 Mean of Response 100.0263 R-Square 0.7729 Mean of Response 100.0263 R-Square 0.7729 Root MSE 11.5111 Root MSE 11.5111 Root MSE 11.5111 Root MSE 11.5111 AdjAdjAdjAdj R-Sq 0.7445 R-Sq 0.7445 R-Sq 0.7445 R-Sq 0

38、.7445其中其中其中其中Mean of ResponseMean of ResponseMean of ResponseMean of Response为因变量(为因变量(为因变量(为因变量(ResponseResponseResponseResponse)的均值,)的均值,)的均值,)的均值,Root Root Root Root MSEMSEMSEMSE叫做根均方误差,是均方误差的平方根,叫做根均方误差,是均方误差的平方根,叫做根均方误差,是均方误差的平方根,叫做根均方误差,是均方误差的平方根,R-SquareR-SquareR-SquareR-Square即复相关系即复相关系即复相关系

39、即复相关系数平方,数平方,数平方,数平方,AdjAdjAdjAdj R-Sq R-Sq R-Sq R-Sq为修正的复相关系数平方,其公式为为修正的复相关系数平方,其公式为为修正的复相关系数平方,其公式为为修正的复相关系数平方,其公式为其公式为其公式为其公式为其公式为,其中,其中,其中,其中当有截距项时取当有截距项时取当有截距项时取当有截距项时取1 1 1 1,否则取,否则取,否则取,否则取0 0 0 0,这个公式考虑到了自变量个数,这个公式考虑到了自变量个数,这个公式考虑到了自变量个数,这个公式考虑到了自变量个数的多少对拟合的影响,原来的的多少对拟合的影响,原来的的多少对拟合的影响,原来的的多

40、少对拟合的影响,原来的随着自变量个数的增加总会增大,而修正的随着自变量个数的增加总会增大,而修正的随着自变量个数的增加总会增大,而修正的随着自变量个数的增加总会增大,而修正的则因为则因为则因为则因为对它有一个单调减的影响所以对它有一个单调减的影响所以对它有一个单调减的影响所以对它有一个单调减的影响所以增大时修正的增大时修正的增大时修正的增大时修正的不一定增大,便于不同自变量个数的模型的比较。不一定增大,便于不同自变量个数的模型的比较。不一定增大,便于不同自变量个数的模型的比较。不一定增大,便于不同自变量个数的模型的比较。 方差分析表:方差分析表: Analysis of VarianceAna

41、lysis of Variance Source DF Sum of Squares Mean Square F Stat Source DF Sum of Squares Mean Square F Stat ProbProb F F Model 2 7215.6371 3607.8186 27.2275 0.0001 Model 2 7215.6371 3607.8186 27.2275 0.0001 Error 16 2120.0997 132.5062 . . Error 16 2120.0997 132.5062 . . C Total 18 9335.7368 . . . C To

42、tal 18 9335.7368 . . .:模型中所有斜率项系数都等于零,这等价于说自变量的线性组合对因:模型中所有斜率项系数都等于零,这等价于说自变量的线性组合对因:模型中所有斜率项系数都等于零,这等价于说自变量的线性组合对因:模型中所有斜率项系数都等于零,这等价于说自变量的线性组合对因变量没有解释作用。它依据的是一个标准的方差分解,把因变量的总离变量没有解释作用。它依据的是一个标准的方差分解,把因变量的总离变量没有解释作用。它依据的是一个标准的方差分解,把因变量的总离变量没有解释作用。它依据的是一个标准的方差分解,把因变量的总离差平方和(差平方和(差平方和(差平方和(C TotalC T

43、otalC TotalC Total)分解为能用模型解释的部分()分解为能用模型解释的部分()分解为能用模型解释的部分()分解为能用模型解释的部分(ModelModelModelModel)与不能被模)与不能被模)与不能被模)与不能被模型解释的部分(随机误差,型解释的部分(随机误差,型解释的部分(随机误差,型解释的部分(随机误差,ErrorErrorErrorError)之和,如果能解释的部分占的比例大)之和,如果能解释的部分占的比例大)之和,如果能解释的部分占的比例大)之和,如果能解释的部分占的比例大就否定就否定就否定就否定F F F F统计量(统计量(统计量(统计量(F StatF Sta

44、tF StatF Stat)就是这个比例(用自由度修正过)。从上面结果看我们)就是这个比例(用自由度修正过)。从上面结果看我们)就是这个比例(用自由度修正过)。从上面结果看我们)就是这个比例(用自由度修正过)。从上面结果看我们这个模型很显著(这个模型很显著(这个模型很显著(这个模型很显著(p p p p值不超过万分之一),所以可以否定值不超过万分之一),所以可以否定值不超过万分之一),所以可以否定值不超过万分之一),所以可以否定。这是关于模型是否成立的最重要的检验。它检验的是这是关于模型是否成立的最重要的检验。它检验的是这是关于模型是否成立的最重要的检验。它检验的是这是关于模型是否成立的最重要

45、的检验。它检验的是 Type III TestsType III TestsType III TestsType III Tests Source DF Sum of Squares Mean Square F Stat Source DF Sum of Squares Mean Square F Stat Source DF Sum of Squares Mean Square F Stat Source DF Sum of Squares Mean Square F Stat ProbProbProbProb F F F F HEIGHT 1 2091.1460 HEIGHT 1 2091

46、.1460 HEIGHT 1 2091.1460 HEIGHT 1 2091.1460 2091.14602091.14602091.14602091.1460 15.7815 0.0011 15.7815 0.0011 15.7815 0.0011 15.7815 0.0011 AGE 1 22.3880 AGE 1 22.3880 AGE 1 22.3880 AGE 1 22.3880 22.388022.388022.388022.3880 0.1690 0.6865 0.1690 0.6865 0.1690 0.6865 0.1690 0.6865检验利用的是所谓第三类平方和(检验利用

47、的是所谓第三类平方和(检验利用的是所谓第三类平方和(检验利用的是所谓第三类平方和(Type III SSType III SSType III SSType III SS),又叫偏平方和,它代表),又叫偏平方和,它代表),又叫偏平方和,它代表),又叫偏平方和,它代表在只缺少了本变量的模型中加入本变量导致的模型平方和的增加量。比如,在只缺少了本变量的模型中加入本变量导致的模型平方和的增加量。比如,在只缺少了本变量的模型中加入本变量导致的模型平方和的增加量。比如,在只缺少了本变量的模型中加入本变量导致的模型平方和的增加量。比如,HEIGHTHEIGHTHEIGHTHEIGHT的第三类平方和即现在的

48、模型平方和减去删除变量的第三类平方和即现在的模型平方和减去删除变量的第三类平方和即现在的模型平方和减去删除变量的第三类平方和即现在的模型平方和减去删除变量HEIGHTHEIGHTHEIGHTHEIGHT的模型的模的模型的模的模型的模的模型的模型平方和得到的差。第三类平方和与模型中自变量的次序无关,一般也不构型平方和得到的差。第三类平方和与模型中自变量的次序无关,一般也不构型平方和得到的差。第三类平方和与模型中自变量的次序无关,一般也不构型平方和得到的差。第三类平方和与模型中自变量的次序无关,一般也不构成模型平方和的平方和分解。表中用成模型平方和的平方和分解。表中用成模型平方和的平方和分解。表中

49、用成模型平方和的平方和分解。表中用F F F F统计量对假设进行了检验,分子是第统计量对假设进行了检验,分子是第统计量对假设进行了检验,分子是第统计量对假设进行了检验,分子是第三类平方和的均方,分母为误差的均方。实际上,当分子自由度为三类平方和的均方,分母为误差的均方。实际上,当分子自由度为三类平方和的均方,分母为误差的均方。实际上,当分子自由度为三类平方和的均方,分母为误差的均方。实际上,当分子自由度为1 1 1 1时,时,时,时,F F F F统统统统计量即通常的计量即通常的计量即通常的计量即通常的t t t t检验统计量的平方。从表中可见,身高的作用是显著的,而检验统计量的平方。从表中可

50、见,身高的作用是显著的,而检验统计量的平方。从表中可见,身高的作用是显著的,而检验统计量的平方。从表中可见,身高的作用是显著的,而年龄的作用则不显著,有可能去掉年龄后的模型更好一些。年龄的作用则不显著,有可能去掉年龄后的模型更好一些。年龄的作用则不显著,有可能去掉年龄后的模型更好一些。年龄的作用则不显著,有可能去掉年龄后的模型更好一些。这个表格给出了对各斜率项是否为零(这个表格给出了对各斜率项是否为零(这个表格给出了对各斜率项是否为零(这个表格给出了对各斜率项是否为零()的检验结果。)的检验结果。)的检验结果。)的检验结果。第三类检验:第三类检验:第三类检验:第三类检验:l Parameter

51、 Estimatesl Variable DF Estimate Std Error T Stat Prob |T|l INTERCEPT 1 -141.2238 33.3831 -4.2304 0.0006l HEIGHT 1 3.5970 0.9055 3.9726 0.0011l AGE 1 1.2784 3.1101 0.4110 0.6865l Parameter Estimatesl Tolerance Var Inflationl . 0.0000l 0.3416 2.9276l 0.3416 2.9276参数估计及相关统计量:参数估计及相关统计量:参数估计及相关统计量:参数估计

52、及相关统计量:对截距项系数和各斜率项系数,给出了自由度(对截距项系数和各斜率项系数,给出了自由度(对截距项系数和各斜率项系数,给出了自由度(对截距项系数和各斜率项系数,给出了自由度(DFDFDFDF),估计值),估计值),估计值),估计值(EstimateEstimateEstimateEstimate),估计的标准误差(),估计的标准误差(),估计的标准误差(),估计的标准误差(Std ErrorStd ErrorStd ErrorStd Error),检验系数为零的),检验系数为零的),检验系数为零的),检验系数为零的t t t t统计统计统计统计量,量,量,量,t t t t统计量的统计

53、量的统计量的统计量的p p p p值,检验共线性的容许度(值,检验共线性的容许度(值,检验共线性的容许度(值,检验共线性的容许度(ToleranceToleranceToleranceTolerance)和方差膨胀因)和方差膨胀因)和方差膨胀因)和方差膨胀因子(子(子(子(VarVarVarVar Inflation Inflation Inflation Inflation)。其中自变量)。其中自变量)。其中自变量)。其中自变量的容许度定义为的容许度定义为的容许度定义为的容许度定义为1 1 1 1减去减去减去减去 对其它对其它对其它对其它对其它自变量的复相关系数平方大,即对其它自变量的复相关

54、系数平方大,即对其它自变量的复相关系数平方大,即对其它自变量的复相关系数平方大,即可以很好地被其它自变量的可以很好地被其它自变量的可以很好地被其它自变量的可以很好地被其它自变量的在模型中的作用不大。记在模型中的作用不大。记在模型中的作用不大。记在模型中的作用不大。记,则,则,则,则,叫做方差膨胀因子,它代表叫做方差膨胀因子,它代表叫做方差膨胀因子,它代表叫做方差膨胀因子,它代表的系数估计的方差的比例系数,显然其值越大说明估计越不准确,也说明的系数估计的方差的比例系数,显然其值越大说明估计越不准确,也说明的系数估计的方差的比例系数,显然其值越大说明估计越不准确,也说明的系数估计的方差的比例系数,

55、显然其值越大说明估计越不准确,也说明在模型中的作用不大。方差膨胀因子与容许度互为倒数。在模型中的作用不大。方差膨胀因子与容许度互为倒数。在模型中的作用不大。方差膨胀因子与容许度互为倒数。在模型中的作用不大。方差膨胀因子与容许度互为倒数。因此容许度越小(接近因此容许度越小(接近因此容许度越小(接近因此容许度越小(接近0 0 0 0),说明),说明),说明),说明自变量的复相关系数平方,自变量的复相关系数平方,自变量的复相关系数平方,自变量的复相关系数平方,线性组合近似,这样线性组合近似,这样线性组合近似,这样线性组合近似,这样下一个结果为残差对预测值的散点图,用它可以检验残差中有无异常情况,下一

56、个结果为残差对预测值的散点图,用它可以检验残差中有无异常情况,下一个结果为残差对预测值的散点图,用它可以检验残差中有无异常情况,下一个结果为残差对预测值的散点图,用它可以检验残差中有无异常情况,比如非线性关系、异方差、模型辨识错误、异常值、序列相关等等。此例比如非线性关系、异方差、模型辨识错误、异常值、序列相关等等。此例比如非线性关系、异方差、模型辨识错误、异常值、序列相关等等。此例比如非线性关系、异方差、模型辨识错误、异常值、序列相关等等。此例中各散点较随机地散布在中各散点较随机地散布在中各散点较随机地散布在中各散点较随机地散布在0 0 0 0线的上下,没有明显的模式,可认为结果是合线的上下

57、,没有明显的模式,可认为结果是合线的上下,没有明显的模式,可认为结果是合线的上下,没有明显的模式,可认为结果是合适的(多余的不显著的变量适的(多余的不显著的变量适的(多余的不显著的变量适的(多余的不显著的变量AGEAGEAGEAGE不反映在残差图中)。不反映在残差图中)。不反映在残差图中)。不反映在残差图中)。用用用用TablesTablesTablesTables菜单可以加入一些其它的统计量。用菜单可以加入一些其它的统计量。用菜单可以加入一些其它的统计量。用菜单可以加入一些其它的统计量。用GraphsGraphsGraphsGraphs菜单可以加入残差的菜单可以加入残差的菜单可以加入残差的菜

58、单可以加入残差的正态概率图(正态概率图(正态概率图(正态概率图(Residual Normal QQResidual Normal QQResidual Normal QQResidual Normal QQ)和偏杠杆图()和偏杠杆图()和偏杠杆图()和偏杠杆图(Partial LeveragePartial LeveragePartial LeveragePartial Leverage)。)。)。)。在在在在VarsVarsVarsVars菜单中可以指定一些变量,这些变量可以加入到数据窗口中。数据菜单中可以指定一些变量,这些变量可以加入到数据窗口中。数据菜单中可以指定一些变量,这些变量可以

59、加入到数据窗口中。数据菜单中可以指定一些变量,这些变量可以加入到数据窗口中。数据窗口的内容保存在内存中,不自动改写磁盘中的数据集,所以要保存数据窗口的内容保存在内存中,不自动改写磁盘中的数据集,所以要保存数据窗口的内容保存在内存中,不自动改写磁盘中的数据集,所以要保存数据窗口的内容保存在内存中,不自动改写磁盘中的数据集,所以要保存数据窗口的修改结果的话需要用窗口的修改结果的话需要用窗口的修改结果的话需要用窗口的修改结果的话需要用“ “File | Save | DataFile | Save | DataFile | Save | DataFile | Save | Data” ”命令指定一个

60、用来保命令指定一个用来保命令指定一个用来保命令指定一个用来保存的数据集名。为了了解加入的变量的具体意义,选数据窗口菜单中的存的数据集名。为了了解加入的变量的具体意义,选数据窗口菜单中的存的数据集名。为了了解加入的变量的具体意义,选数据窗口菜单中的存的数据集名。为了了解加入的变量的具体意义,选数据窗口菜单中的“ “Data OptionsData OptionsData OptionsData Options” ”,选中,选中,选中,选中“ “Show Variable LabelsShow Variable LabelsShow Variable LabelsShow Variable Lab

61、els” ”选项。各变量中,选项。各变量中,选项。各变量中,选项。各变量中,Hat Hat Hat Hat DiagDiagDiagDiag为帽子矩阵的对角线元素(帽子矩阵为帽子矩阵的对角线元素(帽子矩阵为帽子矩阵的对角线元素(帽子矩阵为帽子矩阵的对角线元素(帽子矩阵的)的)的)的) , , , ,即杠杆率,即杠杆率,即杠杆率,即杠杆率,反映了每个观测的影响大小。反映了每个观测的影响大小。反映了每个观测的影响大小。反映了每个观测的影响大小。PredictedPredictedPredictedPredicted为拟合值(预报值),为拟合值(预报值),为拟合值(预报值),为拟合值(预报值),Li

62、near Linear Linear Linear PredictorPredictorPredictorPredictor为使用线性模型拟合的结果,在线性回归时与为使用线性模型拟合的结果,在线性回归时与为使用线性模型拟合的结果,在线性回归时与为使用线性模型拟合的结果,在线性回归时与PredictedPredictedPredictedPredicted相同。相同。相同。相同。 残差对预测值散点图 ResidualResidual为残差。为残差。为残差。为残差。Residual Normal Residual Normal Residual Normal Residual Normal Qua

63、ntileQuantileQuantileQuantile是残差由小到大排序后对应是残差由小到大排序后对应是残差由小到大排序后对应是残差由小到大排序后对应的标准正态的分位数,第的标准正态的分位数,第的标准正态的分位数,第的标准正态的分位数,第个残差的正态分位数用个残差的正态分位数用个残差的正态分位数用个残差的正态分位数用计算,其中计算,其中计算,其中计算,其中为残差除以其标准误差。为残差除以其标准误差。为残差除以其标准误差。为残差除以其标准误差。StudentizedStudentizedStudentizedStudentized Residual Residual Residual Res

64、idual(学生化残差)为与标准(学生化残差)为与标准(学生化残差)为与标准(学生化残差)为与标准化残差类似,但计算第化残差类似,但计算第化残差类似,但计算第化残差类似,但计算第个学生化残差时预测值和方差估计都是在删除第个学生化残差时预测值和方差估计都是在删除第个学生化残差时预测值和方差估计都是在删除第个学生化残差时预测值和方差估计都是在删除第个观测后得到的。当学生化残差的值超过个观测后得到的。当学生化残差的值超过个观测后得到的。当学生化残差的值超过个观测后得到的。当学生化残差的值超过2 2 2 2时这个观测有可能是强影响时这个观测有可能是强影响时这个观测有可能是强影响时这个观测有可能是强影响

65、点或异常点。点或异常点。点或异常点。点或异常点。为标准正态分布函数。为标准正态分布函数。为标准正态分布函数。为标准正态分布函数。Standardized ResidualStandardized ResidualStandardized ResidualStandardized Residual(标准化误差)(标准化误差)(标准化误差)(标准化误差)l l关于其它的一些诊断统计量请参考帮助菜单的关于其它的一些诊断统计量请参考帮助菜单的关于其它的一些诊断统计量请参考帮助菜单的关于其它的一些诊断统计量请参考帮助菜单的“Extended Help | SAS Extended Help | SAS

66、Extended Help | SAS Extended Help | SAS System Help: Main menu | Help for SAS Products | SAS/INSIGHT | System Help: Main menu | Help for SAS Products | SAS/INSIGHT | System Help: Main menu | Help for SAS Products | SAS/INSIGHT | System Help: Main menu | Help for SAS Products | SAS/INSIGHT | Techniqu

67、es | Multiple RegressionTechniques | Multiple RegressionTechniques | Multiple RegressionTechniques | Multiple Regression”,或,或,或,或 SASSASSASSAS应用统计实验应用统计实验应用统计实验应用统计实验 SASSASSASSAS应用统计教程应用统计教程应用统计教程应用统计教程。l l在在在在SAS/INSIGHTSAS/INSIGHTSAS/INSIGHTSAS/INSIGHT中,为了保存结果表格,在进行分析之前选中菜单中,为了保存结果表格,在进行分析之前选中菜单中

68、,为了保存结果表格,在进行分析之前选中菜单中,为了保存结果表格,在进行分析之前选中菜单“File | Save | Initial TablesFile | Save | Initial TablesFile | Save | Initial TablesFile | Save | Initial Tables”,这是一个状态开关,选中时输出,这是一个状态开关,选中时输出,这是一个状态开关,选中时输出,这是一个状态开关,选中时输出表格画在分析窗口内的同时显示在输出(表格画在分析窗口内的同时显示在输出(表格画在分析窗口内的同时显示在输出(表格画在分析窗口内的同时显示在输出(OutputOutpu

69、tOutputOutput)窗口。如果要保存某)窗口。如果要保存某)窗口。如果要保存某)窗口。如果要保存某一个表格,也可以选定此表格(单击表格外框线),然后用菜单一个表格,也可以选定此表格(单击表格外框线),然后用菜单一个表格,也可以选定此表格(单击表格外框线),然后用菜单一个表格,也可以选定此表格(单击表格外框线),然后用菜单“File File File File | Save | Tables| Save | Tables| Save | Tables| Save | Tables”。为了保存分析窗口的图形,先选定此图形,然后选。为了保存分析窗口的图形,先选定此图形,然后选。为了保存分析

70、窗口的图形,先选定此图形,然后选。为了保存分析窗口的图形,先选定此图形,然后选“File | Save | Graphics FileFile | Save | Graphics FileFile | Save | Graphics FileFile | Save | Graphics File”,输入一个文件名,选择一种文件类,输入一个文件名,选择一种文件类,输入一个文件名,选择一种文件类,输入一个文件名,选择一种文件类型如型如型如型如BMPBMPBMPBMP即可。为了打印某一表格或图形,先选定它,然后用菜单即可。为了打印某一表格或图形,先选定它,然后用菜单即可。为了打印某一表格或图形,先选

71、定它,然后用菜单即可。为了打印某一表格或图形,先选定它,然后用菜单“File File File File | Print| Print| Print| Print”。选中。选中。选中。选中“File | Save | StatementsFile | Save | StatementsFile | Save | StatementsFile | Save | Statements”可以开始保存可以开始保存可以开始保存可以开始保存SAS/INSIGHTSAS/INSIGHTSAS/INSIGHTSAS/INSIGHT语句。语句。语句。语句。案例:用INSIGHT对数据集CARS做回归诊断用用S

72、AS/INSIGHTSAS/INSIGHT拟合广义线性模型拟合广义线性模型经典线性回归理论的估计与假设检验要求自变量经典线性回归理论的估计与假设检验要求自变量经典线性回归理论的估计与假设检验要求自变量经典线性回归理论的估计与假设检验要求自变量为常数(非随机),随机误差项满足为常数(非随机),随机误差项满足为常数(非随机),随机误差项满足为常数(非随机),随机误差项满足广义线性模型放宽了这些假设,其模型为广义线性模型放宽了这些假设,其模型为广义线性模型放宽了这些假设,其模型为广义线性模型放宽了这些假设,其模型为其中因变量其中因变量其中因变量其中因变量(为服从指数族分布(如正态、逆高斯、伽马、泊松

73、、二项分布)的随机变量,为服从指数族分布(如正态、逆高斯、伽马、泊松、二项分布)的随机变量,为服从指数族分布(如正态、逆高斯、伽马、泊松、二项分布)的随机变量,为服从指数族分布(如正态、逆高斯、伽马、泊松、二项分布)的随机变量,(向量)的元素为与向量)的元素为与向量)的元素为与向量)的元素为与分布类型相同的随机误差项,元素之间分布类型相同的随机误差项,元素之间分布类型相同的随机误差项,元素之间分布类型相同的随机误差项,元素之间叫做联系函数,它把因变量的均值叫做联系函数,它把因变量的均值叫做联系函数,它把因变量的均值叫做联系函数,它把因变量的均值与自变量与自变量与自变量与自变量(阵)的线性组合联

74、系起来。阵)的线性组合联系起来。阵)的线性组合联系起来。阵)的线性组合联系起来。(向量)为回归系数。模型中每个自变量对应于设计阵向量)为回归系数。模型中每个自变量对应于设计阵向量)为回归系数。模型中每个自变量对应于设计阵向量)为回归系数。模型中每个自变量对应于设计阵中的一列或几列,中的一列或几列,中的一列或几列,中的一列或几列,的第一列一般元素全为的第一列一般元素全为的第一列一般元素全为的第一列一般元素全为1 1 1 1,对应于截距项。,对应于截距项。,对应于截距项。,对应于截距项。(向量)是表示偏移量的变量。向量)是表示偏移量的变量。向量)是表示偏移量的变量。向量)是表示偏移量的变量。向量)

75、的元素向量)的元素向量)的元素向量)的元素相互独立,单调函数相互独立,单调函数相互独立,单调函数相互独立,单调函数。注:随机变量注:随机变量注:随机变量注:随机变量Y Y Y Y称为服从指数族分布,如果其分布密度(概率函数)称为服从指数族分布,如果其分布密度(概率函数)称为服从指数族分布,如果其分布密度(概率函数)称为服从指数族分布,如果其分布密度(概率函数)有如下形式:有如下形式:有如下形式:有如下形式:其中其中其中其中为自然参数或称经典参数,为自然参数或称经典参数,为自然参数或称经典参数,为自然参数或称经典参数, 为分散度参数(与尺度参数相关),为分散度参数(与尺度参数相关),为分散度参数

76、(与尺度参数相关),为分散度参数(与尺度参数相关),a a a a, , , , b b b b, , , , c c c c为确定性函数。这样为确定性函数。这样为确定性函数。这样为确定性函数。这样的自变量的自变量的自变量的自变量Y Y Y Y的均值和方差与参数的关系如下:的均值和方差与参数的关系如下:的均值和方差与参数的关系如下:的均值和方差与参数的关系如下: 为了使用为了使用为了使用为了使用SAS/INSIGHTSAS/INSIGHTSAS/INSIGHTSAS/INSIGHT拟合广义线性模型,在选拟合广义线性模型,在选拟合广义线性模型,在选拟合广义线性模型,在选“Analyze | Fi

77、t (Y X)Analyze | Fit (Y X)Analyze | Fit (Y X)Analyze | Fit (Y X)”之后,选定因变量和自变量,然后按之后,选定因变量和自变量,然后按之后,选定因变量和自变量,然后按之后,选定因变量和自变量,然后按“MethodMethodMethodMethod”按钮,出现选择模型的对话框,按钮,出现选择模型的对话框,按钮,出现选择模型的对话框,按钮,出现选择模型的对话框,在这里可以选因变量的分布类型(在这里可以选因变量的分布类型(在这里可以选因变量的分布类型(在这里可以选因变量的分布类型(Response Dist.Response Dist.R

78、esponse Dist.Response Dist.),选联系函数,选估计尺度),选联系函数,选估计尺度),选联系函数,选估计尺度),选联系函数,选估计尺度参数的方法。参数的方法。参数的方法。参数的方法。 各联系函数定义如下:各联系函数定义如下:各联系函数定义如下:各联系函数定义如下:对指数族中每一个因变量分布有一个特定的联系函数,使得对指数族中每一个因变量分布有一个特定的联系函数,使得对指数族中每一个因变量分布有一个特定的联系函数,使得对指数族中每一个因变量分布有一个特定的联系函数,使得,即用分布的期望值表示经典参数,这样的联系函数叫经典(,即用分布的期望值表示经典参数,这样的联系函数叫经

79、典(,即用分布的期望值表示经典参数,这样的联系函数叫经典(,即用分布的期望值表示经典参数,这样的联系函数叫经典(canonicalcanonicalcanonicalcanonical)联系函数。正态分布的经典联系函数为恒等变换,逆高斯分布为联系函数。正态分布的经典联系函数为恒等变换,逆高斯分布为联系函数。正态分布的经典联系函数为恒等变换,逆高斯分布为联系函数。正态分布的经典联系函数为恒等变换,逆高斯分布为-2-2-2-2次方变换,次方变换,次方变换,次方变换,伽玛分布为伽玛分布为伽玛分布为伽玛分布为-1-1-1-1次方变换,泊松分布为对数变换,二项分布为逻辑变换次方变换,泊松分布为对数变换,

80、二项分布为逻辑变换次方变换,泊松分布为对数变换,二项分布为逻辑变换次方变换,泊松分布为对数变换,二项分布为逻辑变换(LogitLogitLogitLogit)。注意)。注意)。注意)。注意LogitLogitLogitLogit、probitprobitprobitprobit、复合重对数变换都只适用于二项分布。、复合重对数变换都只适用于二项分布。、复合重对数变换都只适用于二项分布。、复合重对数变换都只适用于二项分布。 例如,例如,例如,例如,SASUSER.INGOTSSASUSER.INGOTSSASUSER.INGOTSSASUSER.INGOTS中存放了一个铸造厂的数据,它记录了各批铸

81、件在中存放了一个铸造厂的数据,它记录了各批铸件在中存放了一个铸造厂的数据,它记录了各批铸件在中存放了一个铸造厂的数据,它记录了各批铸件在一定的加热、浸泡时间条件下出现的不能开始轧制的铸件数目。一定的加热、浸泡时间条件下出现的不能开始轧制的铸件数目。一定的加热、浸泡时间条件下出现的不能开始轧制的铸件数目。一定的加热、浸泡时间条件下出现的不能开始轧制的铸件数目。HEATHEATHEATHEAT为加热为加热为加热为加热时间,时间,时间,时间,SOAKSOAKSOAKSOAK为浸泡时间,为浸泡时间,为浸泡时间,为浸泡时间,N N N N为每批铸件的件数,为每批铸件的件数,为每批铸件的件数,为每批铸件的

82、件数,R R R R为加热浸泡后为加热浸泡后为加热浸泡后为加热浸泡后N N N N件铸件中还件铸件中还件铸件中还件铸件中还不能开始轧制的铸件数。不能开始轧制的铸件数。不能开始轧制的铸件数。不能开始轧制的铸件数。R R R R应该服从二项分布,其分布参数(比例)可能受应该服从二项分布,其分布参数(比例)可能受应该服从二项分布,其分布参数(比例)可能受应该服从二项分布,其分布参数(比例)可能受加热、浸泡时间的影响。因此,我们拟合以加热、浸泡时间的影响。因此,我们拟合以加热、浸泡时间的影响。因此,我们拟合以加热、浸泡时间的影响。因此,我们拟合以R R R R为因变量,以为因变量,以为因变量,以为因变

83、量,以HEATHEATHEATHEAT和和和和SOAKSOAKSOAKSOAK为自为自为自为自变量的广义线性模型,因变量分布为二项分布,使用经典联系函数(变量的广义线性模型,因变量分布为二项分布,使用经典联系函数(变量的广义线性模型,因变量分布为二项分布,使用经典联系函数(变量的广义线性模型,因变量分布为二项分布,使用经典联系函数(LogitLogitLogitLogit函数)。模型为函数)。模型为函数)。模型为函数)。模型为为了拟合这样的模型,选为了拟合这样的模型,选为了拟合这样的模型,选为了拟合这样的模型,选“Analyze | Analyze | Analyze | Analyze |

84、Fit(YFit(YFit(YFit(Y X) X) X) X)”,选,选,选,选R R R R为为为为Y Y Y Y变量,选变量,选变量,选变量,选HEATHEATHEATHEAT和和和和SOAKSOAKSOAKSOAK为自变量,按为自变量,按为自变量,按为自变量,按“MethodMethodMethodMethod”钮,选因变量分布为二项分布钮,选因变量分布为二项分布钮,选因变量分布为二项分布钮,选因变量分布为二项分布(BinomialBinomialBinomialBinomial),选变量),选变量),选变量),选变量N N N N然后按然后按然后按然后按“BinomialBinomi

85、alBinomialBinomial”钮,两次钮,两次钮,两次钮,两次OKOKOKOK后即可以得到后即可以得到后即可以得到后即可以得到模型拟合窗口。可以看到,这个模型是显著的,但变量模型拟合窗口。可以看到,这个模型是显著的,但变量模型拟合窗口。可以看到,这个模型是显著的,但变量模型拟合窗口。可以看到,这个模型是显著的,但变量SOAKSOAKSOAKSOAK没有显著没有显著没有显著没有显著影响。去掉变量影响。去掉变量影响。去掉变量影响。去掉变量SOAKSOAKSOAKSOAK重新拟合模型。可以看出,重新拟合模型。可以看出,重新拟合模型。可以看出,重新拟合模型。可以看出,HEATHEATHEATH

86、EAT的系数为的系数为的系数为的系数为0.08070.08070.08070.0807是正数,说明加热时间越长不能轧制的件数越多。考察拟合结果窗口是正数,说明加热时间越长不能轧制的件数越多。考察拟合结果窗口是正数,说明加热时间越长不能轧制的件数越多。考察拟合结果窗口是正数,说明加热时间越长不能轧制的件数越多。考察拟合结果窗口下方的残差对预报值图可以发现在右下方有三个异常点,用刷亮方法下方的残差对预报值图可以发现在右下方有三个异常点,用刷亮方法下方的残差对预报值图可以发现在右下方有三个异常点,用刷亮方法下方的残差对预报值图可以发现在右下方有三个异常点,用刷亮方法选定它们,可以看到,这三个观测都是

87、总共只有一个铸件的,所以对选定它们,可以看到,这三个观测都是总共只有一个铸件的,所以对选定它们,可以看到,这三个观测都是总共只有一个铸件的,所以对选定它们,可以看到,这三个观测都是总共只有一个铸件的,所以对一般结果意义不大。选一般结果意义不大。选一般结果意义不大。选一般结果意义不大。选“Edit | Observations | Exclude in Edit | Observations | Exclude in Edit | Observations | Exclude in Edit | Observations | Exclude in CalculationCalculationCa

88、lculationCalculation”可以把这几个点排除在外,发现结果基本不变。可以把这几个点排除在外,发现结果基本不变。可以把这几个点排除在外,发现结果基本不变。可以把这几个点排除在外,发现结果基本不变。用用用用REGREGREGREG过程进行回归分析过程进行回归分析过程进行回归分析过程进行回归分析l lSAS/STATSAS/STATSAS/STATSAS/STAT中提供了几个回归分析过程,包括中提供了几个回归分析过程,包括中提供了几个回归分析过程,包括中提供了几个回归分析过程,包括REGREGREGREG(回归)、(回归)、(回归)、(回归)、RSREGRSREGRSREGRSREG

89、(二次响(二次响(二次响(二次响应面回归)、应面回归)、应面回归)、应面回归)、ORTHOREGORTHOREGORTHOREGORTHOREG(病态数据回归)、(病态数据回归)、(病态数据回归)、(病态数据回归)、NLINNLINNLINNLIN(非线性回归)、(非线性回归)、(非线性回归)、(非线性回归)、TRANSREGTRANSREGTRANSREGTRANSREG(变换回归)、(变换回归)、(变换回归)、(变换回归)、CALISCALISCALISCALIS(线性结构方程和路径分析)、(线性结构方程和路径分析)、(线性结构方程和路径分析)、(线性结构方程和路径分析)、GLMGLMGL

90、MGLM(一般线(一般线(一般线(一般线性模型)、性模型)、性模型)、性模型)、GENMODGENMODGENMODGENMOD(广义线性模型),等等。我们这里只介绍(广义线性模型),等等。我们这里只介绍(广义线性模型),等等。我们这里只介绍(广义线性模型),等等。我们这里只介绍REGREGREGREG过程,其过程,其过程,其过程,其它过程的使用请参考它过程的使用请参考它过程的使用请参考它过程的使用请参考SASSASSASSAS系统系统系统系统SAS/STATSAS/STATSAS/STATSAS/STAT软件使用手册软件使用手册软件使用手册软件使用手册。l lREGREGREGREG过程的基

91、本用法为:过程的基本用法为:过程的基本用法为:过程的基本用法为:l lPROC REG DATA=PROC REG DATA=PROC REG DATA=PROC REG DATA=输入数据集输入数据集输入数据集输入数据集 选项选项选项选项; ; ; ;l lVAR VAR VAR VAR 可参与建模的变量列表可参与建模的变量列表可参与建模的变量列表可参与建模的变量列表; ; ; ;l lMODEL MODEL MODEL MODEL 因变量自变量表因变量自变量表因变量自变量表因变量自变量表 / / / / 选项选项选项选项; ; ; ;l lPRINT PRINT PRINT PRINT 输

92、出结果输出结果输出结果输出结果; ; ; ;l lPLOT PLOT PLOT PLOT 诊断图形诊断图形诊断图形诊断图形; ; ; ;l lRUN;RUN;RUN;RUN;l lREGREGREGREG过程是交互式过程,在使用了过程是交互式过程,在使用了过程是交互式过程,在使用了过程是交互式过程,在使用了RUNRUNRUNRUN语句提交了若干个过程步语句后可以语句提交了若干个过程步语句后可以语句提交了若干个过程步语句后可以语句提交了若干个过程步语句后可以继续写其它的继续写其它的继续写其它的继续写其它的REGREGREGREG过程步语句,提交运行,直到提交过程步语句,提交运行,直到提交过程步语

93、句,提交运行,直到提交过程步语句,提交运行,直到提交QUITQUITQUITQUIT语句或开始其它过语句或开始其它过语句或开始其它过语句或开始其它过程步或数据步才终止。程步或数据步才终止。程步或数据步才终止。程步或数据步才终止。l l例如,我们对例如,我们对例如,我们对例如,我们对SASUSER.CLASSSASUSER.CLASSSASUSER.CLASSSASUSER.CLASS中的中的中的中的WEIGHTWEIGHTWEIGHTWEIGHT用用用用HEIGHTHEIGHTHEIGHTHEIGHT和和和和AGEAGEAGEAGE建模,可以用建模,可以用建模,可以用建模,可以用如下的简单如下

94、的简单如下的简单如下的简单REGREGREGREG过程调用:过程调用:过程调用:过程调用:l lproc proc proc proc regregregreg data= data= data= data=sashelp.classsashelp.classsashelp.classsashelp.class; ; ; ;l l varvarvarvar weight height age; weight height age; weight height age; weight height age;l l model weight=height age; model weight=hei

95、ght age; model weight=height age; model weight=height age;l lrun;run;run;run;l l就可以在输出窗口产生如下结果,注意程序窗口的标题行显示就可以在输出窗口产生如下结果,注意程序窗口的标题行显示就可以在输出窗口产生如下结果,注意程序窗口的标题行显示就可以在输出窗口产生如下结果,注意程序窗口的标题行显示“PROC PROC PROC PROC REG RunningREG RunningREG RunningREG Running”表示表示表示表示REGREGREGREG过程还在运行,并没有终止。过程还在运行,并没有终止。

96、过程还在运行,并没有终止。过程还在运行,并没有终止。lModel: MODEL1lDependent Variable: WEIGHT Weight in poundsl Analysis of Variancel Sum of Meanl Source DF Squares Square F Value ProbFl Model 2 7215.63710 3607.81855 27.228 0.0001l Error 16 2120.09974 132.50623l C Total 18 9335.73684l Root MSE 11.51114 R-square 0.7729l Dep M

97、ean 100.02632 Adj R-sq 0.7445l C.V. 11.50811l Parameter Estimatesl Parameter Standard T for H0:l Variable DF Estimate Error Parameter=0 Prob |T|l INTERCEP 1 -141.223763 33.38309350 -4.230 0.0006l HEIGHT 1 3.597027 0.90546072 3.973 0.0011l AGE 1 1.278393 3.11010374 0.411 0.6865l Variablel Variable DF

98、 Labell INTERCEP 1 Interceptl HEIGHT 1 Height in inchesl AGE 1 Age in years这些结果与这些结果与这些结果与这些结果与SAS/INSIGHTSAS/INSIGHTSAS/INSIGHTSAS/INSIGHT得到的结果是一致的。同样我们发现变量得到的结果是一致的。同样我们发现变量得到的结果是一致的。同样我们发现变量得到的结果是一致的。同样我们发现变量AGEAGEAGEAGE的作用的作用的作用的作用不显著,所以我们只要再提交如下语句:不显著,所以我们只要再提交如下语句:不显著,所以我们只要再提交如下语句:不显著,所以我们只要再

99、提交如下语句: model weight=height;model weight=height;model weight=height;model weight=height;run;run;run;run;就可以得到第二个模型结果:就可以得到第二个模型结果:就可以得到第二个模型结果:就可以得到第二个模型结果:Model: MODEL2Model: MODEL2Model: MODEL2Model: MODEL2Dependent Variable: WEIGHT Dependent Variable: WEIGHT Dependent Variable: WEIGHT Dependent V

100、ariable: WEIGHT WeightWeightWeightWeight in pounds in pounds in pounds in pounds事实上,事实上,事实上,事实上,REGREGREGREG提供了自动选择最优自变量子集的选项。在提供了自动选择最优自变量子集的选项。在提供了自动选择最优自变量子集的选项。在提供了自动选择最优自变量子集的选项。在MODELMODELMODELMODEL语句中加上语句中加上语句中加上语句中加上“SELECTION=SELECTION=SELECTION=SELECTION=选择方法选择方法选择方法选择方法”的选项就可以自动挑选自变量,选择方法

101、有的选项就可以自动挑选自变量,选择方法有的选项就可以自动挑选自变量,选择方法有的选项就可以自动挑选自变量,选择方法有NONENONENONENONE(全用,这是缺省)、(全用,这是缺省)、(全用,这是缺省)、(全用,这是缺省)、FORWARDFORWARDFORWARDFORWARD(逐步引入法)、(逐步引入法)、(逐步引入法)、(逐步引入法)、BACKWARDBACKWARDBACKWARDBACKWARD(逐步剔除法)、(逐步剔除法)、(逐步剔除法)、(逐步剔除法)、STEPWISESTEPWISESTEPWISESTEPWISE(逐步筛选法)、(逐步筛选法)、(逐步筛选法)、(逐步筛选法

102、)、MAXRMAXRMAXRMAXR(最大(最大(最大(最大 增量法)、增量法)、增量法)、增量法)、MINRMINRMINRMINR(最小(最小(最小(最小 增量法)增量法)增量法)增量法)、RSQUARERSQUARERSQUARERSQUARE( 选择法)、选择法)、选择法)、选择法)、ADJRSQADJRSQADJRSQADJRSQ(修正(修正(修正(修正 选择法)、选择法)、选择法)、选择法)、CPCPCPCP(MallowsMallowsMallowsMallows的的的的 统计量法)。比如,我们用如下程序:统计量法)。比如,我们用如下程序:统计量法)。比如,我们用如下程序:统计量

103、法)。比如,我们用如下程序: model weight=height age / selection=stepwise;model weight=height age / selection=stepwise;model weight=height age / selection=stepwise;model weight=height age / selection=stepwise;run;run;run;run;可得到如下结果:可得到如下结果:可得到如下结果:可得到如下结果:l l Stepwise Procedure for Dependent Variable WEIGHTlStep

104、 1 Variable HEIGHT Entered R-square = 0.77050684 C(p) = 1.16895797l DF Sum of Squares Mean Square F ProbFlRegression 1 7193.24911864 7193.24911864 57.08 0.0001lError 17 2142.48772347 126.02868962lTotal 18 9335.73684211l Parameter Standard Type IIlVariable Estimate Error Sum of Squares F ProbFlINTERC

105、EP -143.02691844 32.27459130 2475.04717580 19.64 0.0004lHEIGHT 3.89903027 0.51609395 7193.24911864 57.08 0.0001lBounds on condition number: 1, 1l-lAll variables left in the model are significant at the 0.1500 level.lNo other variable met the 0.1500 significance level for entry into the model.l Summa

106、ry of Stepwise Procedure for Dependent Variable WEIGHTl Variable Number Partial ModellStep Entered Removed In R*2 R*2 C(p) F ProbFl Labell 1 HEIGHT 1 0.7705 0.7705 1.1690 57.0763 0.0001l Height in inches可见只有变量HEIGHT进入了模型,而其它变量(AGE)则不能进入模型。l lREGREGREGREG过程给出的缺省结果比较少。如果要输出高分辨率诊断图形的话需要过程给出的缺省结果比较少。如果要

107、输出高分辨率诊断图形的话需要过程给出的缺省结果比较少。如果要输出高分辨率诊断图形的话需要过程给出的缺省结果比较少。如果要输出高分辨率诊断图形的话需要在在在在PROC REGPROC REGPROC REGPROC REG过程语句中加上过程语句中加上过程语句中加上过程语句中加上GRAPHICSGRAPHICSGRAPHICSGRAPHICS选项,用选项,用选项,用选项,用PRINTPRINTPRINTPRINT语句和语句和语句和语句和PLOTPLOTPLOTPLOT语句显示额语句显示额语句显示额语句显示额外的结果。为了显示模型的预测值(拟合值)和外的结果。为了显示模型的预测值(拟合值)和外的结果

108、。为了显示模型的预测值(拟合值)和外的结果。为了显示模型的预测值(拟合值)和95959595预测界限,使用语句预测界限,使用语句预测界限,使用语句预测界限,使用语句l lprint print print print clicliclicli; ; ; ;l lrun;run;run;run;l l得到如下的结果:得到如下的结果:得到如下的结果:得到如下的结果:Dep Var Predict Std Err Lower95% Upper95% Obs WEIGHT Value Predict Predict Predict Residual 1 84.0000 77.2683 3.963 52

109、.1503 102.4 6.7317 2 98.0000 111.6 2.995 87.0659 136.1 -13.5798 3 90.0000 107.7 2.768 83.2863 132.1 -17.6807 4 77.0000 76.4885 4.042 51.3145 101.7 0.5115 5 84.5000 90.1351 2.889 65.6780 114.6 -5.6351 6 112.0 116.3 3.354 91.5388 141.0 -4.2586 7 50.5000 56.9933 6.251 29.8835 84.1032 -6.4933 8 112.5 10

110、0.7 2.577 76.3612 125.0 11.8375 9 102.5 101.8 2.587 77.5263 126.1 0.6678 10 112.5 126.0 4.296 100.6 151.4 -13.5062 11 102.5 104.6 2.645 80.2279 128.9 -2.0615 12 133.0 118.2 3.525 93.3827 143.0 14.7919 13 83.0000 80.3875 3.659 55.4757 105.3 2.6125 14 84.0000 100.7 2.577 76.3612 125.0 -16.6625 15 99.5

111、000 87.0159 3.098 62.4451 111.6 12.4841 16 150.0 137.7 5.613 111.2 164.2 12.2967 17 128.0 109.6 2.872 85.1821 134.1 18.3698 18 85.0000 81.1673 3.587 56.3025 106.0 3.8327 19 112.0 116.3 3.354 91.5388 141.0 -4.2586Sum of Residuals 0Sum of Squared Residuals 2142.4877Predicted Resid SS (Press) 2651.3521

112、各列分别为观测序号(各列分别为观测序号(各列分别为观测序号(各列分别为观测序号(ObsObsObsObs),因变量的值(),因变量的值(),因变量的值(),因变量的值(DepDepDepDep VarVarVarVar),预测值),预测值),预测值),预测值(Predict ValuePredict ValuePredict ValuePredict Value),预测值的标准误差(),预测值的标准误差(),预测值的标准误差(),预测值的标准误差(Std Err PredictStd Err PredictStd Err PredictStd Err Predict),),),),959595

113、95预测预测预测预测区间下限(区间下限(区间下限(区间下限(Lower 95% PredictLower 95% PredictLower 95% PredictLower 95% Predict),),),),95959595预测区间上限(预测区间上限(预测区间上限(预测区间上限(Upper 95% Upper 95% Upper 95% Upper 95% PredictPredictPredictPredict),残差(),残差(),残差(),残差(ResidualResidualResidualResidual,为因变量值减预测值)。在表后又给出了,为因变量值减预测值)。在表后又给出了

114、,为因变量值减预测值)。在表后又给出了,为因变量值减预测值)。在表后又给出了残差的总和(残差的总和(残差的总和(残差的总和(Sum of ResidualsSum of ResidualsSum of ResidualsSum of Residuals),残差平方和(),残差平方和(),残差平方和(),残差平方和(Sum of Squared Sum of Squared Sum of Squared Sum of Squared ResidualsResidualsResidualsResiduals),预测残差的平方和(),预测残差的平方和(),预测残差的平方和(),预测残差的平方和(Pr

115、edicted Predicted Predicted Predicted ResidResidResidResid SS (Press) SS (Press) SS (Press) SS (Press))。所)。所)。所)。所谓预测残差,是在计算第谓预测残差,是在计算第谓预测残差,是在计算第谓预测残差,是在计算第i i i i号观测的残差时从实际值中减去的预报值是用号观测的残差时从实际值中减去的预报值是用号观测的残差时从实际值中减去的预报值是用号观测的残差时从实际值中减去的预报值是用扣除第扣除第扣除第扣除第i i i i号观测后的样本得到的模型产生的预报值,而不是我们一般所用号观测后的样本得

116、到的模型产生的预报值,而不是我们一般所用号观测后的样本得到的模型产生的预报值,而不是我们一般所用号观测后的样本得到的模型产生的预报值,而不是我们一般所用的预测值(实际是拟合值)。第的预测值(实际是拟合值)。第的预测值(实际是拟合值)。第的预测值(实际是拟合值)。第i i i i号样本的预测残差还可以用公式号样本的预测残差还可以用公式号样本的预测残差还可以用公式号样本的预测残差还可以用公式来计算,其中来计算,其中来计算,其中来计算,其中为帽子矩阵为帽子矩阵为帽子矩阵为帽子矩阵的第的第的第的第i i i i个主对角线元素。个主对角线元素。个主对角线元素。个主对角线元素。用print cli列出的是

117、实际值的预测界限,还可以列出模型均值的预测界限,使用print clm;语句。在PRINT语句中可以指定的有ACOV, ALL, CLI, CLM, COLLIN, COLLINOINT, COOKD, CORRB, COVB, DW, I, INFLUENCE, P, PARTIAL, PCORR1, PCORR2, R, SCORR1, SCORR2, SEQB, SPEC, SS1, SS2, STB, TOL, VIF, XPX,等等。对于自变量是一元的情况,可以在自变量和因变量的散点图上附加回归直线和均值置信界限。比如,plot weight * height / conf95;可以产生下图,在图的上方列出了模型方程,右方还给出了观测个数、修正等特殊名字表示预测值、残差等计算出的变量,比如,在自变量为多元时无法作回归直线,常用的诊断图表为残差对预测值图,就可以用plot residual. * predicted.;绘制。为了绘制学生化残差的图形,可以用plot rstudent. * obs.;回归分析的其它用法及进一步的诊断方法请参考有关统计书籍和SAS使用手册。、均方误差开根。在PLOT语句中可以使用PREDICTED.、RESIDUAL.、图 4 REG过程的PLOT语句的结果图 REG过程的PLOT语句的结果The End of Session谢谢!谢谢!

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号