数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第8章 常用数据分析方法的SAS过程简介

上传人:E**** 文档编号:89184358 上传时间:2019-05-20 格式:PPT 页数:61 大小:369KB
返回 下载 相关 举报
数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第8章  常用数据分析方法的SAS过程简介_第1页
第1页 / 共61页
数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第8章  常用数据分析方法的SAS过程简介_第2页
第2页 / 共61页
数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第8章  常用数据分析方法的SAS过程简介_第3页
第3页 / 共61页
数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第8章  常用数据分析方法的SAS过程简介_第4页
第4页 / 共61页
数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第8章  常用数据分析方法的SAS过程简介_第5页
第5页 / 共61页
点击查看更多>>
资源描述

《数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第8章 常用数据分析方法的SAS过程简介》由会员分享,可在线阅读,更多相关《数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第8章 常用数据分析方法的SAS过程简介(61页珍藏版)》请在金锄头文库上搜索。

1、第8章 常用数据分析方法的SAS过程简介,SAS 即 Statistical Analysis System.SAS 软件是目前应用最广泛的数据分析软件之一.它包含数据的描述性分析到多元统计、时间序列分析等广泛的数据分析方法. 本章的目的是简单介绍必要的 SAS 语句与同本书内容密切相关的一些SAS过程和语句,使读者对 SAS 系统有一个初步了解. 8.1 SAS 系统简介 SAS 系统是在 Windows 环境下的一个数据分析软件.SAS 界面包括三部分,即程序窗口,SAS log 窗口和输出结果窗口.程序窗口用于编写 SAS 程序.输出结果窗口打印结果.SAS log 窗口提供输入输出数据

2、信息.,单击工具行的 Run 图标(跑步的小人)可执行计算程序. 8.1.1 数据的输入与输出 1.SAS 数据集的建立 SAS 数据集由变量行和数据行组成 变量行 数据行 建立 SAS 数据集的最常用方法有三种. (1)直接输入建立 SAS 数据集 基本语句形式 DATA name; INPUT Variables; CARDS; data lines ;,(i) DATA name; “name”是给 SAS 数据集赋名,为不超过8个字符的字符串,第一个字必须是字母. (ii) INPUT Variables; 指明数据集中变量名称.分数值变量,显而易见数值变量.非数值变量需在变量名称后空

3、一格写“$”号. 输入变量格式: 自由格式输入 在“INPUT”后依次列出各变量各称,如: INPUT ID NAME $ VAR1 VAR2 VAR3 VAR4; 格式化输入 方式一:通过每个变量的取值所占列数输入相应变量的值.在每个变量名后,空一格指明该变量的值所占据列数.如 INPUT ID 1-2 NAME $ 4-20 VAR1 22-24 VAR2 26-30;,方式二: W.d格式.W表示变量取值所占据的总位数,表示从左到右小数部分的位数.如 ID 2,表示变量 ID 的取值为二位整数,X 5.2表示X取值占据5列,其中后两列为小数部分,这种输入方式尤其适用于各变量取值间无空格和

4、有小数点的数据集.如 INPUT ID2, NAME $ 10. VAR1 5.2 如果有连续几个变量的“W,d”格式相同,可用简写形式: INPUT (Variables) (m,n); 如果数据中,每一行有多于二组观测向量,可以在 “INPUT Variables”后加“”,表示指针不换行依次续入各组观测值. (iii)CARDS; 此语句表示后面将给出数据.列完全部数据后,要另起一行打上“;”,表示数据输入结束.,(2)利用外部数据集建立 SAS 数据集 有时,样本观测值已作为一个数据集存放于盘中,这时可用“INFILE”语句建立 SAS 数据集,其一般语句为: DATA name; I

5、NFILE drive location:filename; INPUT Variables; 其中 INPUT 语句要根据数据集中的格式确定相应的变量输入模式. (3)建立 name.sas7b dat SAS 数据集. 其中“name”是 SAS 数据集的名称.这种 SAS 数据集是永久数据集,可以直接被调用,并保存于 SAS 数据库中(建立 SAS 数据库的方法见(4). 下面通过例题来说明.,例 8.2 对例8.1的数据,建立 name sas7b dat SAS 数据集,设已建立的SAS 数据库的名称是“Sjfx”,则其程序如下: data sjfx.rm1; input name

6、$ age weight height; cards; Liming 23 56 170 Liuhua 25 60 174 Zhangwei 30 65 165 ; proc print; run; data sjfx.rm2; input name $ 9. age 2. weight 2. height 3.2; cards; Li ming 2356170 Liu hua 256174 Zhang wei3065165 ; proc print; run; 实际上,建立 name sas7b dat SAS,只需将原数据集名“rm1”或“rm2”换为“Sjfx.rm1”或“Sjfx.rm

7、2”即可.其一般形式为“数据库名,数据集名”.例8.2中,Sjfx.rm1的输入为自由格式输入 ,Sjfx.rm2为格式化输入(W.d格式).顺序执行后,在数据库Sjfx中,存有永久数据集rm1,rm2.,(4) 建立SAS 数据库的方法. 设 SAS 数据集的文件夹名为SJFX.要用SJFX中的SAS 数据集在SAS 系统中进行运算,必须先建立被命名的SAS 数据库。其步骤如下: 开启 SAS 系统显示.在“Explorer”栏中对“Library”点击右键,出现“New”,对“New”点击左键,出现“New Library”图形.,New Library图形,我们来建立名为“Sjfx”的

8、SAS 数据库.在图中,在“Name”栏中打上“Sjfx”,在“Enable at Startup”(启动时启用)栏中打上钩.若SJFX存在D盘中,在“Path”(路径)栏中打上“D:SJFX”,在“Browse”(浏览)栏中打上钩,出现D盘中的SJFX,左键点击“OK”,再在图中,左键点击“OK”,就建立了名为“Sjfx”的 SAS 数据库.在图中,左键点击“Libraies”,就显示名为Sjfx的 SAS 数据库. 8.1.2 利用已有的 SAS 数据集建立新的 SAS 数据集 1.两个 SAS 数集的合并 (1)两数据集的合并,示意图 Data Set A Data Set A + =

9、- Data Set B Data Set B 语句形式 DATA name; SET A,B; (2)两数据集的并接 示意图 Data Set A + Data Set B = Data Set A Data Set B 语句形式 DATA name; METGE A,B;,2.变量值的排序 语句形式 PROC SORT DATA = name OUT = out; BY Variable; 其中“out”是排序后新的数据集的名称;“Variable”是要排序的变量. 3.删除数据集中某些数据行 语句形式 DATA new name; SET A; IF Cinditions THEN DE

10、LETE; 这里“Condition”可以指出数据行的序号或者指出变量取值所满足的条件.,4.删除数据集中某些变量及相应观测值. 若要删除 SAS 数据集A中某些变量及相应取值,则 “DROP variables” 列出要删除变量名, “KEEP variables”列出要保留的变量名. 例 数据集A中有变量 .语句形式为: DATA new name; DATA new name; SET A; 或 SET A; DROP ; KEEP ; 5.产生新变量及其观测值 对一个 SAS 数据集,有时需要产生新变量和计算相应观测值. 例 DATA NEW; SET OLD; Y = LOG ; X

11、 = X1*X2; PROC PTINT; RUN;,8.1.3 SAS 系统的数学运算符号及常用 SAS 函数 1. 数学运算 SAS 数学运算符号 2.SAS 函数 常用 SAS 函数见书.举例如下:,8.1.4 逻辑语句与循环语句 1.逻辑语句 语句形式 IF Conditions THEN Command; ELSE Command; 意义为:若条件“Conditions”满足,则执行“THEN”后的指令“Command”,否则执行“ELSE”后的指令“Command”其中“Conditions”指明 SAS 数据集中某些变量或数据行满足的条件,“条件”用逻辑运算符表示. SAS 逻辑

12、运算符,2.循环语句 三种形式: (1) DO variable = a TO b BY increment; a表示变量“Variable”的初值,b表示终值.“increment”指步长.步长为1时,“BY increment”省略. 例 DO I=1 TO 10; DO I=0 TO 10 BY 0.5; (2) DO UNTIL (condition); 表示循环一直执行到括号内的“Condition”满足为止. 例 X = 3; DO UNTIL (X=5); X = X+1; END; (3) DO WHILE (Condition); 表示循环执行到“Cindition”不满足为

13、止.,例 产生100个标准正态分布N(0,1)随机数的三种程序: DATA RANDOM; (2)DATA RANDOM; (3)DATA RANDOM; DO I=1 TO 100; N=1; N=1 X=RANNOR(123); DO UNTIL (N=101) DO WHILE (N101); OUTPUT; X=RANNOR(123); X=RANNOR(123); END; OUTPUT; OUTPUT; PROC PRINT ; END; END; RUN; PROC PRINT; PROC PRINT; RUN; RUN; 8.2 常用数据分析方法的 SAS 过程 8.2.1 几

14、种描述性统计分析的 SAS 过程 1.PROC MEANS 过程 语句形式 PROC MEANS options; VAR variables;,PROC MEAN options; PROC MEANS 过程必需语句.“options”主要包括 DATA = SAS data set:要分析的 SAS 数据集名称. 关键词:主要有 N 观测值个数 MEAN 均值 STD 标准差 VAR 方差 MIN 最小值 MAX 最大值 RANGE 极差 SKEWNESS 偏度 KURTOSIS 峰度 (2)VAR variables;指出要计算的变量名称 2.PROC UNIVARIATE 过程 语句形

15、式 PROC UNIVARIATE options; VAR variables;,(1) PROC UNIVARIATE options; “options”部分主要包括: DATA = SAS data set:要分析的 SAS 数据集名称. FREQ:生成包括变量值、频数、百分数和累计百分数的表. NORMAL:作变量的观测值是否来自正态分布的检验. (2) VAR variables; 列出要进行描述性分析的变量名称. 3. PROC FREQ 过程 PROC FREQ 过程按照各变量的不同取值水平生面一维、二维或多维列联表. 语句形式 PROC FREQ options; TABLES variable1*variable2*/options; WEIGHT variable;,(1)PROC FREQ options; “options”通常包括“DATA = SAS data set”. (2) TABLES variable1*variablel2* 只有一个变量variable1时,生成变量名为“variable1”的一维列联表,包括该变量在各取值水平上的频数及所占百分比,累计频数及所占百分比. “variable1*variable2”生成这二个变量的二维列联表 Frequency 格子频数 Percent

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号