统计分析系统sas第3讲数据步语句sas过程初步

上传人:tia****nde 文档编号:69813337 上传时间:2019-01-15 格式:PPT 页数:54 大小:845.55KB
返回 下载 相关 举报
统计分析系统sas第3讲数据步语句sas过程初步_第1页
第1页 / 共54页
统计分析系统sas第3讲数据步语句sas过程初步_第2页
第2页 / 共54页
统计分析系统sas第3讲数据步语句sas过程初步_第3页
第3页 / 共54页
统计分析系统sas第3讲数据步语句sas过程初步_第4页
第4页 / 共54页
统计分析系统sas第3讲数据步语句sas过程初步_第5页
第5页 / 共54页
点击查看更多>>
资源描述

《统计分析系统sas第3讲数据步语句sas过程初步》由会员分享,可在线阅读,更多相关《统计分析系统sas第3讲数据步语句sas过程初步(54页珍藏版)》请在金锄头文库上搜索。

1、第3讲数据步语句 SAS过程初步,计算中心 何宁,计算中心,数据步语句,选择语句 SELECT (选择表达式); WHEN(值列表) 语句; WHEN(值列表) 语句; OTHERWISE 语句; END;,计算中心,数据步语句,其中“选择表达式”是一个取数值、字符型值的变量或表达式,“值列表”为一项或者若干项,多项之间逗号分开,每项可以是一个与选择表达式相同取值类型的表达式。 “语句”可以是单个语句或复合语句。执行SELECT结构时,先计算出选择表达式和值列表中的所有值,然后把选择表达式值由前向后与值列表中的值相比,发现相等值则执行对应的语句,然后退出SELECT结构(不再查看后面的值列表)

2、. 如果选择表达式的值不等于任何值列表中的值则执行OTHERWISE对应的语句,这种情况下没有OTHERWISE语句会出错。,计算中心,数据步语句,选择语句的另一种形式 SELECT; WHEN(条件) 语句; WHEN(条件) 语句; OTHERWISE 语句; END; 这种SELECT语句没有选择表达式,而是在每一个 HEN语句指定一个条件(逻辑表达式) 执行第一个满足条件的WHEN后的语句 如果所有条件都不满足则执行OTHERWISE后的语句。,计算中心,数据步语句,SELECT; WHEN(age=12) put 少年; WHEN(age35) put 青年; OTHERWISE p

3、ut 中老年; END;,计算中心,数组语句-数值型数组,数值型数组: 定义数值型数组的格式为: ARRAY 数组名(维数说明)数组元素名列表(初始值表); 例如: ARRAY tests(3) math chinese english (0,0,0);,计算中心,数组语句-数值型数组,数组名是一个合法的SAS名字且不能与同一数据步中的变量重名。 对一维数组,维数说明只要说明元素个数,这时下标从1开始。数组元素名列表列出这个数组的各个元素实际代表的变量名,各变量名以空格分隔. 初始值表给各数组元素赋初值,按顺序对应。数组说明中初始值表可以省略,这时其初始值为相应数组元素的值(如果其数组元素还没

4、有值则初值为缺失值)。 数组说明中的数组元素名列表可以省略,这时其元素也有对应的变量名,变量名为数组名后附加序号。,计算中心,数组语句-数值型数组,例: ARRAY x(3); 中数组x的各元素名为x1,x2,x3。 也可以在说明维数时用“下标下界:下标上界”来说明一个其它的下标下界,如 ARRAY sales(95:97) yr95yr97 ; 这时sales(95)为yr95,sales(96)为yr96,sales(97) 为yr97。 一维数组的维数说明还可以是一个星号,这时数组大小由提供的元素列表中的变量个数决定 ARRAY tests(*) math chinese english

5、 (0, 0, 0); 可以用函数DIM(数组名)来获得数组的长度。,计算中心,数组语句-数值型数组,可以定义二维数值型数组,只要在维数说明中指定用逗号分开的两个下标界说明,例如: array table(2,2) x11 x12 x21 x22; 说明 table(1,1)为x11,table(1,2)为x12,table(2,1)为x21,table(2,2)为x22 二维数组元素的顺序按行排列,计算中心,数组语句-字符型数组,ARRAY 数组名(维数说明) $ 元素长度说明数组元素名列表 (初始值表); 例如: ARRAY names(3) $ 10 child father mothe

6、r; 字符型数组其它方面的用法与数值型相同。,计算中心,数组语句使用数组,SAS以变量为元素的数组可以方便变量的循环处理 例如,读入了comp1-comp10 十个计算机销售额变量,prin1-prin6六个打印机销售额变量,希望计算其总和,可以用如下的数组说明与DO循环配合进行: data sales; input comp1-comp10 prin1-prin6; ARRAY y(*) comp1-comp10 prin1-prin6; tot=0 ; do i=1 to DIM(y); tot + y(i); end ; cards ; run;,计算中心,SAS过程中常用语句,PROC

7、 BY CLASS VAR WEIGHT FREQ,FORMAT LABEL OUTPUT TITLE FOOTNOTE GOPTIONS,计算中心,PROC 语句,语句格式: PROC 选择项; 功能: 指定所需调用的过程以及该过程的若干选择项。 选择项 关键字 关键字=值 关键字=SAS数据集,如 DATA=数据集,计算中心,SAS常用过程,IMPORT SQL PRINT FREQ MEANS SORT FORMAT,计算中心,IMPORT过程,Proc import out=数据集 datafile=“文件全名”|table=“表名” DBMS=标识名 REPLACE 其他语句; Ru

8、n; 其中,标识名如下: Access2000|dbf|excel2000|dlm|csv|tab 上述标识名依次对应的扩展名为: .mdb|.dbf|.xls|.*|.csv|.txt 其他语句 Getnames=yes|no Datarow=n(标识名为dlm|csv|tab时可用),计算中心,IMPORT过程,Proc import out=aaa datafile=“e:sasdatabank.xls“ DBMS=excel2000; Run;,计算中心,SQL过程,PROC SQL; CREATE TABLE 数据集名 AS SELECT 语句; Proc SQL ; CREATE

9、TABLE AB.CLASSBAK AS SELECT NAME,GENDER FROM AB.CLASS1 WHERE AGE=5; Run;,计算中心,FREQ过程,Proc freq data=数据集名 选项; tables 变量名列表/选项; Run; Tables语句中的选项: nocum不要累计的频数和百分数 nopercent-不要百分数和累计的百分数 Proc freq语句中的选项: order=internal-按变量值排序 freq-按频数降序排序 data-按数据集中的值的次序排序 formatted-按变量格式化的值排序,计算中心,MEANS过程,PROC MEANS

10、DATA=; VAR ; BY ; CLASS ; RUN;,计算中心,可以计算的描述性统计量关键字及其含义见下表,计算中心,UNIVARIATE过程,PROC UNIVARIATE DATA = ; VAR ; BY | CLASS ; HISTOGRAM /; OUTPUT OUT = = ; RUN;,计算中心,UNIVARIATE过程,UNIVARIATE过程和MEANS过程的格式非常相似,相同的语句和选项其含义也相同,所不同的是某些统计量只能在UNIVARIATE过程中计算(如众数),而且UNIVARIATE过程中具有绘图功能。 其中,HISTOGRAM语句用来指示SAS对其后所指定

11、的变量绘制直方图,其后的选项用来指示SAS添加不同类型的拟合图形(如正态分布的分布密度曲线)。,计算中心,用分析家作频数统计,选择”解决方案/分析/分析家”进入分析家环境 点击”文件/按SAS名称打开”打开数据集 点击”统计/描述性统计/频数统计”,在弹出的对话框中: AGE=Frequencies,Sex=Frequencies 点击OK,计算中心,FORMAT过程,PROC FORMAT; VALUE 格式变量名 分组形式; RUN; 其中:格式变量名由用户命名,在其他在其他过程中可以引用该格式名. 引用: PROC 过程名 DATA=数据集名; 过程语句; FORMAT 数据集中的变量名

12、 格式名.; RUN;,计算中心,FORMAT过程,Proc format; Value wfmt low-13=“low“ 13-16=“13-16“ 16-high=“high“; Run; Proc print data=temp.class; Format weight wfmt.; 若没有该语句,数据集中的Weight数据仍按原始显示 Run;,计算中心,SAS制作图形的过程,建立(或转换)数据文件 根据设计者的要求选用恰当的模型,生成图形 编辑、整理,得到满意的结果。 图形参数语句 Goptions 图形选项 设置图形输出的参数,如 goptions ftext=SWISS cte

13、xt=BLACK htext=1 cells; Symbole 图形选项 常对GPLOT过程输出的图形进行参数设置 Pattern 图形选项 常对CHART过程输出的图形进行参数设置,计算中心,使用GPLOT过程绘制散点图和连线图,通常用散点图和连线图可以表示: 一个变量随另一个变量的变化; 变量之间的关系; 数据值的分布。 GPLOT过程的一般格式 PROC GPLOT DATA = ; PLOT * = /; SYMBOLn ; RUN;,计算中心,PLOT语句的选项,计算中心,SYMBOL语句用来控制表示点的符号和点间的连线。其中n是不同SYMBOL语句的序号,可以是1-99,缺省为1。

14、选项见下表,计算中心,绘制函数y=sin(x)的曲线图,程序 DATA SIN; DO X=-2*3.14 TO 2*3.14 BY 0.2; Y1=SIN(X);Y2=COS(X); OUTPUT; END; SYMBOL1 I=J V=PLUS; PROC GPLOT; PLOT Y1*X=1 Y2*X/OVERLAY; RUN;,计算中心,GCHART过程,GCHART过程用于绘制直方图、饼形图(扇形图)、三维直方图等表示变量分布的图形 语法格式 PROC GCHART DATA = ; 图形关键字 / 绘制垂直条图; BY ; 指明分组变量; AXISn 定义坐标; Run;,计算中心

15、,图形关键字,GCHART过程可以使用的图形关键字及其所绘制的图形类型见表,图形关键字后的变量名,用以指定进行图形描述时的分组变量,可以是数值型的(此时以各组的组中值为分组的标志),也可以是字符型的。,计算中心,选项列表,TYPE =freq |cfreq |pct|cpct|sum|mean 统计图形变量的频数|累计频数| Discrete 把数字变量当成离散变量处理 GROUP=变量名,指定并排分组变量 SUBGROUP=变量名,按分组变量的值分段 Patternid=Midpoint,规定连续性图形变量按数字列表中的中心点数字次序进行排列 SUMVAR = 变量名(数值变量),指定要进行

16、统计计算的变量,也就是“TYPE = 统计量关键字”选项中统计量的计算所依据的变量,计算中心,PATTERN语句,语句格式:pattern 选项; 常用选项: Color=颜色 设置花纹颜色 V=E|S|Ln|Rn|Xn 设置填充参数依次可选:实心|空心|左斜线|右斜线|交叉线, 如: Goptions reset=all; Pattern v=x5 c=gray; Proc gchart data=aa.class; Vbar age/discrete; Run;,计算中心,画条形图(直方图),使用VBAR关键字可以画条形图 proc gchart data = aa.MYDATA; vbar Income; run; 结果如图所示,计算中心,PROC G3D options; PLOT y*x=z/options; 产生三维曲面图 Scatter y*x=z/options; 产生三维散点图 PLOT语句中的选择项(/options)

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号