Slide 1彭斌第四章SAS基本统计过程 我们曾经讲过,SAS程序可分为DATA步和PROC步,即数据步和过程步其中数据步(DATA)的主要作用是建立SAS数据集,而过程步(PROC)则是要求系统从过程库中调出一个过程并执行这个过程 各种统计分析方法在SAS中大都以“过程”的形式存放在SAS过程库中,当我们需要进行某种统计分析时,只需用PROC步去调用相应的过程,即可得到所需要的分析结果 下面分别介绍统计资料的描述和常用的几种假设检验方法Slide 2彭斌1计量资料的描述 SAS中可以对计量资料进行描述的过程有很多,我们介绍两个常用的过程:MEANS和UNIVARIATE过程1. MEANS过程 MEANS过程用来对数据集中的数值变量计算简单描述统计量该过程由下列语句控制:PROC MEANS options statistics-keywords; VAR variables; CLASS variables;该过程除PROC语句(下划线部分)是必须的外,其它的语句都是可选的Slide 3彭斌 1).PROC MEANS语句PROCMEANSoptionsstatistic-keywords; 这里的options可以有: DATA=SAS data set:用以说明过程分析处理的数据集的名字,若省略,则用最近产生的SAS数据集; ALPHA=value:设置计算概率可信区间的置信水平,这个ALPHA在0-1之间取值,默认为0.05。
Slide 4彭斌Slide 5彭斌2).VAR语句 VAR variables; 规定要计算描述性统计量的数值变量及顺序若省略该句,则对所有数值变量计算描述性统计量,除BY、CLASS语句中列出的变量之外3).CLASS语句 CLASS variables; 该语句用CLASS变量定义的观测组分别计算其相应的描述统计量Slide 6彭斌例4-1现有40名学生的相关信息,包括编号、性别、体重和身高试计算:(1)所有40名学生体重和身高的均数和标准差;(2)分男女生分别计算其体重和身高的均数和标准差;(3)结果保留2位小数Slide 7彭斌data student; input id sex $ height weight;cards;1女1605921男174702女1634622女158413女1635623女170564女1535024男170575男1806425男165556女1565226女160537女1555027女158458女1494128男160559女1605829男1806510女1585430男1846711女1645631男1736512女1504032女1645213女1675233男1716214女1585034女1584615女1524335男1685516女1604536男1787217女1534537女1605118女1625438女1685119女1524339男1745820女1605440男16756;Run;Proc print;Run;首先建立SAS数据集并打印出来Slide 8彭斌PROCMEANSDATA=student;VARweightheight;Run;(1)所有40名学生体重和身高的均数和标准差;调用MEANS过程计算常规描述性统计量, DATA= student选项指明分析时数据所在的SAS数据;VAR语句指明要对哪些变量进行统计分析。
计算结果如下: The MEANS Procedure Variable N Mean Std Dev Minimum Maximum - height 40 163.3750000 8.6815085 149.0000000 184.0000000 weight 40 53.6000000 7.9414524 40.0000000 72.0000000 -Variable:变量名 N:例数 Mean:均数 Std Dev:标准差 Minimum:最小值 Maximum:最大值 Slide 9彭斌PROCMEANSdata=student;VARweightheight;CLASSsex;/*添加此行语句*/RUN;(2)分男女生分别计算其体重和身高的均数和标准差;Class 语句指明按SEX变量的取值(男、女)分别计算VAR语句中变量的统计量;结果如下: The MEANS Procedure N sex Obs Variable N Mean Std Dev Minimum Maximum - 男 13 height 13 172.6153846 6.7766568 160.0000000 184.0000000 weight 13 61.6153846 6.0074740 55.0000000 72.0000000 女 27 height 27 158.9259259 5.3488024 149.0000000 170.0000000 weight 27 49.7407407 5.5093808 40.0000000 59.0000000 -Slide 10彭斌(3)结果保留2位小数PROCMEANSdata=studentmaxdec=2;VARweightheight;CLASSsex;RUN; The MEANS Procedure N sex Obs Variable N Mean Std Dev Minimum Maximum - 男 13 height 13 172.62 6.78 160.00 184.00 weight 13 61.62 6.01 55.00 72.00 女 27 height 27 158.93 5.35 149.00 170.00 weight 27 49.74 5.51 40.00 59.00 -maxdec=2选项指明计算结果要保留的小数位数,注意该选项在PROC MEANS语句中;结果如下:添加此选项Slide 11彭斌2. UNIVARIATE过程 该过程除可以完成类似MEANS过程的基本统计量的计算外,它还可以计算以下统计量: 描述变量极端值的情况; 计算分位数,如中位数; 生成若干个描述变量的分布图;对数据进行正态性检验;对数据进行配对t检验和配对秩和检验。
该过程由下列语句控制:PROC UNIVARIATE options; VAR variables; CLASS variables; 其中,下划线的部分是必须的,其余语句都是可选的Slide 12彭斌下面介绍该过程使用的语句: CLASS语句和BY语句用法与MEANS过程相同,这里就省略了1). PROC UNIVARIATE语句 PROC UNIVARIATE options; 用于UNIVARIATE过程语句的选项有(与MEANS过程相同用法的选项略去说明): DATA=SAS-data-set:指定分析的数据集 NORMAL:要求计算关于变量服从正态分布的假设检验统计量,这个检验统计量相应的概率也被输出(即进行正态性检验) PLOT:要求生成一个茎叶图(或水平直方图),一个盒形图和一个正态概率图Slide 13彭斌PROC UNIVARIATE data= student;VAR height ;RUN;例4-2:我们利用前面例4-1建立的数据集student来看看univariate过程的输出结果1) 用univariate过程对身高变量进行分析 程序如下:Slide 14彭斌 Moments N 40 Sum Weights 40 Mean 163.375 Sum Observations 6535 Std Deviation 8.68150849 Variance 75.3685897 Skewness 0.54153667 Kurtosis -0.263264 Uncorrected SS 1070595 Corrected SS 2939.375 Coeff Variation 5.31385371 Std Error Mean 1.37266702 Basic Statistical Measures Location Variability Mean 163.3750 Std Deviation 8.68151 Median 161.0000 Variance 75.36859 Mode 160.0000 Range 35.00000 Interquartile Range 11.00000Variance:方差, Uncorrected SS:未校正平方和, Corrected SS:校正平方和 Sum Observations:总和,Coeff Variation:变异系数, Std Error Mean:标准误Mode:众数,Range:全距, Interquartile Range:四分位数间距Slide 15彭斌 Extreme Observations -Lowest- -Highest- Value Obs Value Obs 149 15 174 38 150 23 178 32 152 37 180 9 152 29 180 18 153 33 184 20 Tests for Location: Mu0=0 Test -Statistic- -p Value- Students t t 119.0201 Pr |t| = |M| = |S| .0001 Quantiles (Definition 5) Quantile Estimate 100% Max 184.0 99% 184.0 95% 180.0 90% 176.0 75% Q3 169.0 50% Median 161.0 25% Q1 158.0 10% 152.5 5% 151.0 1% 149.0 0% Min 149.0 Students t:t检验,与总体均数0进行比较(配对t检验) Sign:符号检验 Signed Rank:符号秩检验(配对秩和检验) 左边表中是对应的百分位数;上面表中是极值情况, 列出5个最大值和5个最小值.Slide 16彭斌(2) 用univariate过程对身高变量进行正态性检验 程序如下:PROCUNIVARIATEdata=studentnormal;VARheight;RUN;在这PROC语句中添加选项“normal”即可。
Slide 17彭斌 Tests for NormalityTest -Statistic- -p Value-Shapiro-Wilk W 0.960959 Pr D 0.0211Cramer-von Mises W-Sq 0.094471 Pr W-Sq 0.1321Anderson-Darling A-Sq 0.537864 Pr A-Sq 0.1635四种正态性检验,通常情况下只需看W统计量,此例W=0.960959,P=0.1806,大于0.05,因此,体重数据服从正态分布注意:一般样本量小于2000时Shapiro-Wilk检验结果比较好;样本量大于2000时,可以看Kolmogorov-Smirnov的检验结果,在样本量小时其结果不可靠Slide 18彭斌绘制直方图 程序语句:PROCUNIVARIATEdata=student;Histogramheight;RUN; 语句选项:1、拟合正态曲线Histogramheight/normal;2、指定直方图的组中值Histogramheight/midpoints=3540455055606570;Slide 19彭斌Slide 20彭斌2 计量资料的统计推断 SAS统计分析过程提供了强大的分析模块。
我们先介绍t检验、秩和检验及直线相关回归分析模块Slide 21彭斌1.两样本均数比较的t-检验 在SAS系统中,两组资料比较的t-检验是用TTEST过程来实现的TTEST过程计算用CLASS变量的两个水。