同济医学院-《sas》课件-求基本统计量过程

上传人:F****n 文档编号:88238831 上传时间:2019-04-21 格式:PPT 页数:25 大小:314.50KB
返回 下载 相关 举报
同济医学院-《sas》课件-求基本统计量过程_第1页
第1页 / 共25页
同济医学院-《sas》课件-求基本统计量过程_第2页
第2页 / 共25页
同济医学院-《sas》课件-求基本统计量过程_第3页
第3页 / 共25页
同济医学院-《sas》课件-求基本统计量过程_第4页
第4页 / 共25页
同济医学院-《sas》课件-求基本统计量过程_第5页
第5页 / 共25页
点击查看更多>>
资源描述

《同济医学院-《sas》课件-求基本统计量过程》由会员分享,可在线阅读,更多相关《同济医学院-《sas》课件-求基本统计量过程(25页珍藏版)》请在金锄头文库上搜索。

1、求基本统计量过程 Procedure of descriptive statistics,SAS应用,蒋红卫 Email: JHWCCC21CN.COM,程序选择,计量资料描述性研究 集中趋势:mean median 离散程度:std variance CV range 分布检验(正态性检验) 计数资料描述性研究 率(rate) 构成比(propotion) 比(ratio),MEANS过程 UNIVARIATE过程,过程名,FREQ过程,三个求基本统计量过程,Means过程 Univariate过程 Freq过程,一MEANS过程,用于计量资料(numerical data)描述性分析。求均

2、数(mean)、标准差(standard deviation)、最大值(maximum)、最小值(minimum)等基本统计量,产生包含统计结果的数据集以便作为其他过程的输入数据集。,1功能,2格式,PROC MEANS ; VAR 变量; FREQ 变量; ID变量; BY 变量; OUTPUT 选择项;,3语句说明:,1、PROC MEANS语句 PROC MEANS ; 1)选择项包括: DATA=SAS数据集 指明需做MEANS分析的SAS数据集名。 ALPHA=n 指定计算可信限的值,缺省=0.05。 NOPRINT 不打印统计值,仅建立一个新数据集。 MAXDEC=n 输出结果取n

3、位小数,缺省值为7。 VARDEF=DF 计算方差时的除数是自由度(N-1)。 =N 计算方差时的除数是观测数。,PROC MEANS ;,N 无缺省值的观察数 MEAN 均值 STD 标准差 MIN 最小值 MAX 最大值 RANGE 极差 SUM 所有不缺省项变量值的和 VAR 方差 USS 未修正的平方和 CSS 修正的平方和 CV 变异系数,2)统计关键字选择项,STDERR 标准误 T 总体均值为0的学生t值 PRT t值的最大绝对值的概率 SKEWNESS 偏度 KURTOSIS 峰度 CLM 上下可信限值 LCLM 可信限下限值 UCLM 可信限上限值,2) 统计关键字选择项,3

4、) 缺省时,自动地为每个数值型变量输出五个统计量:N、MIN、MAX、MEAN、STD。,2、主要语句,(1)VAR语句:指明需要计算均数等统计量的变量。如果求多个变量的统计量,多个变量之间用空格分开,列于VAR之后。如果不加此语句,则MEANS过程对数据集中所有数值型变量进行计算; (2)FREQ语句:指明频数处理变量 (3)ID语句:输出的数据集包含该语句所指的变量 (4) BY语句:指明用以分组统计的变量。使用BY语句之前,数据集一定按BY语句中的变量排过序。 (5)OUTPUT语句:产生包含有基本统计值的数据集,OUTPUT语句 OUTPUT OUTSAS数据集 统计关键字=变量名清单

5、; 功能:将MEANS过程产生的统计值输出到一个新的SAS数据集。 OUTSAS数据集 指定计算结果放入新的数据集里。 统计关键变量名清单 指明新数据集中想要的统计项,并给包含这些统计项的变量起名,这些名字将作为统计值在新数据集中使用。统计关键字为的任意统计量,变量名清单为VAR语句中的变量名,可以取一个,也可以取多个。 需要注意的是,LCLM,UCLM(同时指定输出为双侧;如只选一个,输出单侧可信区间)可以重新对统计量命名,也可用原名; 格式 n=n mean=mean prt=p,例1:,PROC SORT DATA=CLASS1;BY SEX; PROC MEANS DATA=CLASS

6、1; VAR HEIGHT; BY SEX; RUN; PROC MEANS DATA=CLASS1; VAR HEIGHT; OUTPUT OUT=NEW MEAN=MEANHEIGHT; RUN;,Data gmean; Input x; Y=log10(x); Cards; 25 30 32 34 28 Proc means noprint;Var y; Output out=gmean1 mean=y1; Data gmean2; Set gmean1; X1=10*y1; Proc print;Var x1; Run;,例2,例16-2 某地区1953至1957年人口的自然增长率为2

7、5、30、32、34、28,求平均增长率。,二UNIVARIATE过程,1.格式:PROC UNIVARIATE data=SAS数据集 normal plot; VAR 变量; FREQ 变量; ID变量; OUTPUT OUT=dataset keyword=name;,2功能:,求数据集中某(些)变量均数(mean)百分位数(percentiles)、极值(extremes)等基本统计量。与MEANS过程的区别在于它可以计算更多的反应数据分布的统计量。 Normal:用于正态性检验。 Plot:给出干叶图、箱式图及正态概率图,检验数据是否服从正态分布。,例2:,测定30名正常男子血浆中性

8、脂肪含量(mg/lw ml)的结果如下: 163 219 313 169 281 264 124 94 224 145 285 107 269 416 662 249 136 100 199 407 94 235 120 128 560 80 217 252 165 107,Libname b “c:zfhl”; data b.blood; input x; cards; 163 219 313 169 281 264 124 94 224 145 285 107 269 416 662 249 136 100 199 407 94 235 120 128 560 80 217 252 165

9、 107 ; proc print; run; proc univariate normal plot; var x; run;,5.12 5.13 4.58 4.31 4.09 4.41 4.33 4.58 4.24 5.45 4.32 4.84 4.91 5.14 5.25 4.89 4.79 4.90 5.09 4.04 5.14 5.46 4.66 4.20 4.21 3.73 5.17 5.79 5.46 4.49 4.85 5.28 4.78 4.32 4.94 5.21 4.68 5.09 4.68 4.91 5.13 5.26 3.84 4.17 4.56 3.52 6.00

10、4.05 4.92 4.87 4.28 4.46 5.03 5.69 5.25 4.56 5.53 4.58 4.86 4.97 4.70 4.28 4.37 5.33 4.78 4.75 5.39 5.27 4.89 6.18 4.13 5.22 4.44 4.13 4.43 4.02 5.86 5.12 5.36 3.86 4.68 5.48 5.31 4.53 4.83 4.11 3.29 4.18 4.13 4.06 3.42 4.68 4.52 5.19 3.70 5.51 4.64 4.92 4.93 4.90 3.92 5.04 4.70 4.54 3.95 4.40 4.31

11、3.77 4.16 4.58 5.35 3.71 5.27 4.52 5.21 4.37 4.80 4.75 3.86 5.69,例3 某地随机抽取正常成年男子120名,其红细胞数如下,试作该批样本的频数表。,三FREQ过程,1格式: PROC FREQ data=SAS数据集; TABLES 变量*变量*变量; 2.功能:求一维或多维频数表(frequency table)。,3说明:,(1)PROC FREQ :调用FREQ过程; (2)data=SAS数据集:指明需处理的数据集; (3)TABLES语句:指明需要计算频数的变量以及频数表的列表方法。 如果求一维频数表,则将求频数的变量列于

12、TABLES之后即可; 如果求多个变量的的联合频数(多维频数表或称列联表),将需要计算频数的变量用星号“*”分开,其中最后一个变量将用于列变量(纵标目),倒数第二个变量为行变量(横标目),其余变量为分层变量,每一层列一个频数表; 一个FREQ过程可以有多个TABLES语句,即可以同时列出多个频数表。,TABLES语句请求式,请求式由一个或多个“*”号与变量连接组成。如: TABLES A; 输出一维频数表。 TABLES A*B; 输出以A变量为行、B变量为列的二 维表列联表。 TABLES A*B*C; 输出以A变量为页、B变量为行、 C变量为列的三维表列联表。 TABLES A*(BC);

13、 等同于TABLES A*B A*C。 TABLES AB*(CD);等同于TABLES A*C A*D B*C B*D。 TABLES (A-C); 等同于TABLES A B C。,TABLES 变量*变量/选择项,1、选择项 请求统计假设检验选择项:CHISQ/CMH 请求附加的表格信息的选择项 : EXPECTED 打印在独立性(或齐性)假设下格子的理论频数。 MISSPRINT 带缺省值的频数列出来,但不参加统计量计算。 禁止打印选择项 NOCOL 禁止打印列联表中各格的列百分数。 NOFREQ 禁止打印列联表中各格的频数。 NOPERCENT 禁止打印列联表中各格的百分数。 NOP

14、RINT 禁止打印表格,但允许打印由CHISQ、 MEASURES、CMH和ALL所指定的统计值。 NOROW 禁止打印列联表中各格的行百分数。,例3:,产生一个频数表 产生多个频数表 产生两个变量的列联表 产生三个变量的列联表 按LIST格式打印列联表 建立输出数据集,PROC FREQ DATA=CLASS1; TABLE AGE; RUN; PROC FREQ; TABLE SEX AGE; RUN; PROC FREQ; TABLE SEX*AGE; RUN;,Proc freq; Table sex*age*height; Run; Proc freq; Table height*weight/list; Run; Proc freq; Tables sex*age/out=new noprint; Proc print data=new; Run;,课堂练习,1 建立新的数据集aa,只保留变量n05(年龄), n07(吸烟), n111(初潮年龄),n26(宫颈糜烂)。并把年龄(n05)分为30岁,30,50三组。 2 对上述所有计数资料和计量资料分别作描述性分析。 (N05,N111) 3 描述不同年龄段、不同吸烟状况、不同职业、不同文化程度、不同经济状况的妇女与宫颈糜烂关系?,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号