3SAS过程及常用统计分析

上传人:s9****2 文档编号:568672862 上传时间:2024-07-26 格式:PPT 页数:43 大小:2.33MB
返回 下载 相关 举报
3SAS过程及常用统计分析_第1页
第1页 / 共43页
3SAS过程及常用统计分析_第2页
第2页 / 共43页
3SAS过程及常用统计分析_第3页
第3页 / 共43页
3SAS过程及常用统计分析_第4页
第4页 / 共43页
3SAS过程及常用统计分析_第5页
第5页 / 共43页
点击查看更多>>
资源描述

《3SAS过程及常用统计分析》由会员分享,可在线阅读,更多相关《3SAS过程及常用统计分析(43页珍藏版)》请在金锄头文库上搜索。

1、3 SAS过程步及简单统计分析过程步及简单统计分析3.1 SAS过程步简介过程步简介SAS过程步的一般形式为:过程步的一般形式为:PROC 过程名过程名 DATA=输入数据集输入数据集 选项选项;过程语句过程语句1 / 选项选项 ;过程语句过程语句2 / 选项选项 ;RUN;1VAR语句语句VAR语句在过程步中用于指定分析变量。语句在过程步中用于指定分析变量。VAR语句的语法格式为:语句的语法格式为:VAR 变量名变量名1 变量名变量名2 变量名变量名n;变量名列表可以使用省略的形式,如变量名列表可以使用省略的形式,如x1-x3 等。等。应用实例:应用实例: var math chinese;

2、2MODEL语句语句MODEL语句在统计建模过程中用来指定模语句在统计建模过程中用来指定模型的形式。语法格式为:型的形式。语法格式为: MODEL 因变量因变量 = 自变量列表自变量列表 / 选项选项; 应应用实例:用实例:model y=x1 x2 x3 ;3BY语句语句BY语句在过程步中用来指定一个或几个分组语句在过程步中用来指定一个或几个分组变量,根据这些分组变量值可以把观测记变量,根据这些分组变量值可以把观测记录分组,然后对每一组观测分别进行指定录分组,然后对每一组观测分别进行指定的分析。在使用带有的分析。在使用带有BY语句的过程步之前,语句的过程步之前,应先用应先用SORT过程按过程

3、按BY语句指定的变量对语句指定的变量对数据集排序。例如,假设我们已经把数据集排序。例如,假设我们已经把class1数据集按性别排序,则下面数据集按性别排序,则下面PRINT 过程可过程可以把男、女生分别列出:以把男、女生分别列出:proc print data=class1 ; by sex;run;4OUTPUT语句语句过程步中经常用过程步中经常用OUTPUT语句指定输出结果存放的语句指定输出结果存放的数据集。不同过程中把输出结果存入数据集的方数据集。不同过程中把输出结果存入数据集的方法各有不同,法各有不同,OUTPUT语句是使用频繁的语句之语句是使用频繁的语句之一。其语法格式为:一。其语法

4、格式为:OUTPUT OUT=输出数据集名输出数据集名 关键字关键字=变量名变量名 关键关键字字=变量名变量名 ;其中用其中用OUT=给出了存放结果数据集的名字,关键给出了存放结果数据集的名字,关键字用于定义输出变量名,用字用于定义输出变量名,用“关键字关键字=变量名变量名”的的方式指定了系统自动输出变量与存储变量之间的方式指定了系统自动输出变量与存储变量之间的对应关系。等号后面的变量名指定了输出数据集对应关系。等号后面的变量名指定了输出数据集中的存储变量名称。例如:中的存储变量名称。例如:proc means data=data_prg.class1; var math; output ou

5、t=result02 n=n mean=meanmath var=varmath;run;proc print data=result02; run;在在DATA步中也可以用步中也可以用FORMAT语句规定变语句规定变量的输出格式,用量的输出格式,用LABEL 语句规定变量的语句规定变量的标签,用标签,用LENGTH语句规定变量的存储长语句规定变量的存储长度,用度,用ATTRIB语句同时规定变量的各属性。语句同时规定变量的各属性。在数据步中规定的变量属性是附属于数据在数据步中规定的变量属性是附属于数据集本身的,是永久的;在过程步中规定的集本身的,是永久的;在过程步中规定的变量属性(标签、输出格

6、式等)只对该过变量属性(标签、输出格式等)只对该过程的本次运行发挥作用。程的本次运行发挥作用。3.2 PRINT过程过程3.2.1 PRINT过程简介过程简介在在SAS Windows版以前,版以前,PRINT过程是最常用的过程是最常用的SAS过程之一。在生成一个数据集之后,如果数过程之一。在生成一个数据集之后,如果数据量不是太大,我们一般都用一个据量不是太大,我们一般都用一个PRINT过程步过程步列出数据集的内容,以检查变量对应输入的数据列出数据集的内容,以检查变量对应输入的数据值是否正确。现在我们可能通过值是否正确。现在我们可能通过Viewtable表打开表打开生成的数据集查看数据。为了输

7、出显示一个指定生成的数据集查看数据。为了输出显示一个指定的数据集,在的数据集,在PROC PRINT语句中使用语句中使用DATA=指指定数据集,语法结构如下:定数据集,语法结构如下:PROC PRINT DATA = 数据集名称数据集名称;proc print data=class1; var name chinese sex;run;3.2.2 变量标签语句变量标签语句LABEL 3.2.3 全程语句全程语句 1. TITLE 标题语句标题语句SAS系统有一默认的输出标题,使输出的每页有一系统有一默认的输出标题,使输出的每页有一行标题,内容为行标题,内容为“The SAS System”。事

8、实上,我。事实上,我们可以指定自己的标题来取代们可以指定自己的标题来取代SAS缺省的标题。缺省的标题。指定标题指定标题TITLE语句格式为:语句格式为:TITLE 标题内容标题内容;例如,在前一例的程序前面加上一行例如,在前一例的程序前面加上一行 title 2001级级1班成绩表班成绩表;则输出结果的标题以则输出结果的标题以“2001级级1班成绩表班成绩表”替代了替代了“The Sas System”。 3.2.3 全程语句全程语句 2. FOOTNOTE 脚注语句脚注语句全程语句全程语句FOOTNOTE用于为输出添加脚注,用于为输出添加脚注,语句格式为:语句格式为: FOOTNOTE 注脚

9、内容字符串注脚内容字符串;例如:例如:FOOTNOTE 第三章例子第三章例子; 则其后的输出则其后的输出每页底端会有脚注每页底端会有脚注“第三章例子第三章例子”显示,显示,直到用另一个直到用另一个FOOTNOTE语句指定新的脚语句指定新的脚注,或用空注,或用空FOOTNOTE语句取消脚注为止。语句取消脚注为止。使用方法同使用方法同TITLE语句。语句。3.2.3 全程语句全程语句 3. 输出格式选项输出格式选项OPTIONS语句语句OPTIONS语句可以规定系统运行的一些通用选择项,语句可以规定系统运行的一些通用选择项,比如输出是否每页有页号,是否有日期,输出的比如输出是否每页有页号,是否有日

10、期,输出的行宽,输出每一页的高度(行数),等等。其使行宽,输出每一页的高度(行数),等等。其使用例如:用例如:options nonumber nodate linesize=78 pagesize=60;其中其中NONUMBER表示输出不显示页号(改用表示输出不显示页号(改用NUMBER则规定显示页号),则规定显示页号),NODATE表示不表示不在每页显示运行日期和时间(改用在每页显示运行日期和时间(改用DATE则显示)则显示),LINESIZE=78规定输出每行最宽不超过规定输出每行最宽不超过78个字个字符,符,PAGESIZE=60 规定输出每页为规定输出每页为60行,不足行,不足时用空

11、行补齐。时用空行补齐。用用TABULATE过程制作统计量表格过程制作统计量表格通过菜单通过菜单Solutions | ASSIST启动启动SAS/ASSIST功能,见图功能,见图3-1,点击,点击Report Writing | Tabular Report | All Tabular Report,弹出,弹出图图3-2窗口。窗口中给出了四种表格形式:窗口。窗口中给出了四种表格形式:Statistics、Simple Group 1 、Simple Group 2、2-D Group。3.3 简单描述统计分析简单描述统计分析简单描述统计量的基本概念简单描述统计量的基本概念总体(总体(Popul

12、ation):一个统计问题所研究对):一个统计问题所研究对象的全体。象的全体。样体(样体(Sample):从总体中抽取一定数量的):从总体中抽取一定数量的个体进行研究,这部分个体称做样本。个体进行研究,这部分个体称做样本。随机抽样随机抽样(Random Sample):从总体中随机抽:从总体中随机抽取样本,使每个个体都有同等的机会进入取样本,使每个个体都有同等的机会进入样本的抽样方法称为随机抽样。样本的抽样方法称为随机抽样。3.3.2 MEANS 过程过程 MEANS过程(均值过程)用于对数值型变量产生针对单个过程(均值过程)用于对数值型变量产生针对单个变量的简单描述性统计值。变量的简单描述性

13、统计值。 语句格式为:语句格式为: PROC MEANS 选择项选择项 ; VAR 变量名列表变量名列表 ; BY 变量名列表变量名列表 ; CLASS 变量名列表变量名列表 ; FREQ 变量名列表变量名列表 ; WEIGHT 变量名列表变量名列表 ; ID 变量名列表变量名列表 ; OUTPUT OUT=SAS数据集数据集 统计量统计量 ; RUN ;3.3.3 UNIVARIATE 过程过程1. UNIVARIATE过程简介过程简介 UNIVARIATE过程除了可以完成与过程除了可以完成与MEANS过程相过程相同的基本统计量外,还可以计算变量的极端值、同的基本统计量外,还可以计算变量的极

14、端值、分位数,生成频率表,并支持对数据进行正态分位数,生成频率表,并支持对数据进行正态性检验。性检验。UNIVARIATE与与MEANS过程不同的功能包括:过程不同的功能包括:描述变量极端值的情况。描述变量极端值的情况。计算分位数,如中位数,计算分位数,如中位数,1/4和和3/4分位数。分位数。生成若干个描述变量分布的图。生成若干个描述变量分布的图。生成频率表。生成频率表。对数据进行正态性检验。对数据进行正态性检验。UNIVARIATE语句格式如下:语句格式如下:PROC UNIVARIATE 选择项选择项 ; VAR 变量变量 ; BY 变量变量 ; FREQ 变量变量 ; WEIGHT 变

15、量变量 ; ID 变量变量 ; OUTPUT OUT=SAS数据集数据集 关键词关键词=新变量名新变量名 ;RUN;3.3.4 FREQ 过程过程 (频数过程)(频数过程)FREQ过程用于产生过程用于产生1至至N维的频数和交叉表。维的频数和交叉表。FREQ语句格式:语句格式: PROC PREQ 选择项选择项 ; TABLES 变量名变量名 ; WEIGHT 变量名变量名; BY 变量名变量名; RUN ;5. WEIGHT语句语句统计计算中我们统称假设每条观测记录对频统计计算中我们统称假设每条观测记录对频数计算的贡献为数计算的贡献为 1,使用,使用WEIGHT语句可语句可以定义每个观测值出现

16、的频数为这个观测以定义每个观测值出现的频数为这个观测对应的权重(权重不能为负)。对应的权重(权重不能为负)。6. BY语句语句对由对由BY变量定义的几组观测分别进行分析。变量定义的几组观测分别进行分析。但要求先按但要求先按BY变量排序。变量排序。3.3.5 应用实例应用实例输出图形说明:输出图形说明:茎叶图以分数为纵坐标,发生的次数为横坐标,将分数一一茎叶图以分数为纵坐标,发生的次数为横坐标,将分数一一予以登录,来显示数据资料的情形。如果某一个分数据所予以登录,来显示数据资料的情形。如果某一个分数据所包含的观测数多于包含的观测数多于48,则不绘制茎叶图,而改画平行条状,则不绘制茎叶图,而改画平

17、行条状图。茎叶图向右的轮廓,可以看做分布的外部曲线轮廓,图。茎叶图向右的轮廓,可以看做分布的外部曲线轮廓,通过轮廓可以初步判断数据是否呈正态分布。通过轮廓可以初步判断数据是否呈正态分布。盒形图盒形图Boxplot画出两行平行线,下面的一条为第画出两行平行线,下面的一条为第25的百分位的百分位数,上面的一条为第数,上面的一条为第75的百分位数线。这两条线中间的的百分位数线。这两条线中间的(+)加号指出平均数所在,中间的一条线为中位数。此)加号指出平均数所在,中间的一条线为中位数。此数据的均值与中位数重叠。垂直线称为须线,须线的长度数据的均值与中位数重叠。垂直线称为须线,须线的长度上下分别为第上下

18、分别为第25和第和第75百分位数间的百分位数间的1.5倍,须之上或下,倍,须之上或下,以星号(以星号(*)及)及0表示极端数据。表示极端数据。以上输出左侧是茎叶图以上输出左侧是茎叶图Stem Leaf,它的向右的外轮廓与正,它的向右的外轮廓与正态分布曲线不太一样,但也很相似,说明变量态分布曲线不太一样,但也很相似,说明变量GPA近似符近似符合正态分布。合正态分布。右侧是盒形图右侧是盒形图Boxplot。均值和中位数重叠在一起。由前面的。均值和中位数重叠在一起。由前面的输出:均值输出:均值Mean=4.635223,中位数,中位数Median=4.740,两值,两值相近,在图中则表示重叠在一起。相近,在图中则表示重叠在一起。3.4 菜单操作进行简单统计分析菜单操作进行简单统计分析3.4.1 利用利用SAS/INSIGHT进行简单分析进行简单分析我们仍以我们仍以GPA数据集为例进行窗口操作分析。数据集为例进行窗口操作分析。具体操作步骤如下:具体操作步骤如下:3.4.2 利用利用SAS/ASSIST进行简单分析进行简单分析Summary Statistics(与(与MEANS过过程相同)程相同)Frequency Tables (与(与FREQ过程过程相同)相同)

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号