SAS软件应用之PROC SQL简介

上传人:油条 文档编号:50956963 上传时间:2018-08-11 格式:PPT 页数:46 大小:389KB
返回 下载 相关 举报
SAS软件应用之PROC SQL简介_第1页
第1页 / 共46页
SAS软件应用之PROC SQL简介_第2页
第2页 / 共46页
SAS软件应用之PROC SQL简介_第3页
第3页 / 共46页
SAS软件应用之PROC SQL简介_第4页
第4页 / 共46页
SAS软件应用之PROC SQL简介_第5页
第5页 / 共46页
点击查看更多>>
资源描述

《SAS软件应用之PROC SQL简介》由会员分享,可在线阅读,更多相关《SAS软件应用之PROC SQL简介(46页珍藏版)》请在金锄头文库上搜索。

1、第5章 PROC SQL简介学习目标v了解SQL过程在SAS系统中的作用;v掌握SQL过程语句以及格式;v熟练运用SQL过程语句进行实例操作;SQL过程概述 v本节描述实现结构查询语言(SQL)以及如 何在SAS系统中工作的概述。vSQL是一个标准化的广泛使用的语言,它可 以检索和更新关系表格和数据库中的数据。 在SAS系统中使用SQL过程,仅需要理解表 格及其操作即可。在SQL中常将它面对的数 据文件称为表。 比较SQL术语和SAS术语 SQL术语SAS术语数据处理术语表SAS数据文件文件行观测记录列变量字段SQL过程有助于数据的管理v可以用SELECT语句去检索和操作存于表中、视图 里和由

2、PROC SQL接收的数据(由PROC SQL生成 的SAS数据文件在本章中称为表)。可以用 VALIDATE语句去检查SELECT语句句法的准确性 而无须执行它。还可以用DESCRIBE语句简单地显 示一个PROC SQL视图定义。v可以用CREATE语句在表的列中生成表格、视窗、 索引;这些表和视窗可永久地存贮在SAS数据库内 ,而且使用逻辑库名调用它。可以用DROP语句删 除表格、视窗和索引。SQL过程有助于数据的管理v可以用UPDATE语句增加或修改在表格的列 里的数值,或者用INSERT和DELETE语句插 于或删除行。可以通过用ALTER语句增加、 修改、删去列来修改表格。v可以使

3、用许多RESET语句的增加、改变或删 除的选项。v生成报告。v可以拼接不同类型的数据表为单一的数据表 。SQL语句格式 vSQL过程包含下面几个语句,其中的PROC SQL和RESET 这两个语句可以没有选项,如下: Proc sql ;Alter table statement-1;Create statement-2;Delete statement-3;Describe statement-4;Drop statement-5;Insert statement-6;Reset statement-7;Select statement-8;SQL过程特点v由于SQL过程实现结构化查询语言,

4、它在运 行时与其它过程会有所不同,主要为:vSQL过程的语句被分成一些子句。例如 SELECT语句包含SELECT和FROM子句, 在SQL中子句内的项目用逗号分开,而不像 在SAS系统中用空格分开。vSELECT语句用于查询数据,也自动输出数 据,除非规定了NOPRINT选项。SQL过程特点vSELECT和CREATE VIEW语句每个都可以包含一个 ORDER BY字句以便对数据进行排序,所以PROC SQL程 序中不需要使用SORT过程。在SQL过程中使用的SAS数据 集不需要按某个变量事先排序。v提交SQL语句时,就可以执行,不需要规定RUN语句。如果 在PROC SQL语句后跟了RU

5、N语句,那么SAS系统会忽略 RUN语句,而且像通常情况一样提交这些语句。v提交SQL过程步后,程序编辑窗口的状态行一直显示PROC SQL running直至提交另一个程序或QUIT语句。PROC SQL和RESET语句v下面这些选项可以在PROC SQL语句或 RESET语句中出现。这些语句在PROC SQL 语句中使用时,它们说明该选项的初始状态 。使用RESET语句可以在PROC SQL语句之 前增加、移动或改变选项。一个选项被复位 之前一直保持有效。PROC SQL和RESET语句vERRORSTOP|NOERRORSTOP:如果遇到出错情 况,规定SAS系统是否停止处理,SAS系统

6、会一直 检查PROC SQL的语句准确性,如果没有出错则执 行该SQL语句。vEXEC|NOEXEC:规定一个语句在检查其正确性后 是否被执行。vFEEDBACK|NOFEEDBACK:规定在扩展视图索引 或在查询语句中作变换后,是否显示这个查询。vPRINT|NOPRINT:规定SELECT语句的结果是否 在SAS的OUTPUT窗口打印。PRINT选项是缺省值 。vDOUBLE|NODOUBLE:规定是否隔行输出。SQL过程和SAS数据集选项vSQL过程可应用任何一个SAS数据集选项, 例如把选项KEEP=和DROP=应用于表或视 图中。在SQL过程中,SAS数据集选项被括 在括号里并紧跟在

7、表名或视图名的后面。v不能将SAS数据集选项与PROC SQL视图名 字联系到一起,因为选项仅对视图的基本表 有效。例如,创建PROC SQL视图时,不能 将SAS数据集选项列在视图名字后面。ALTER语句vALTER语句向已存在的表中加入列或从表中删除列 。它也用于改变一个已存在的表中列的属性。当 ALTER语句向表中加入一列时,它将该列在表中所 有行的值初始化为缺失值。然后用UPDATE语句向 新的列中加入值。v如果某列已经在表中,那么可以用MODIFY字句改 变这些列的属性。v若想从一个表中删掉一列及其所有值,在DROP子 句中指定列的名字。如果删掉了一列,一定要把其 它语句中涉及到该列

8、的名字也删掉。CREATE语句vCREATE语句能够根据表或其它视图,及表 中列的索引创建表或视图。DELETE语句vDELETE语句从表或DBMS表中删去WHERE 表达式为真的所有行,这个表或DBMS表是 在FROM子句中规定的表。此语句不能引用 其FROM子句中的PROC SQL视图。v如果没有规定WHERE子句,DELETE语句就 将表中的所有行都删掉。SELECT语句v在查询表达式中最常用的是SELECT语句,其可以展示查询 结果的数据,可让数据以一定的格式显示,将报告在 OUTPUT窗口输出。SELECT语句的一般形式为:v Select col1, col2,From table

9、附加的从句;v其中,col1,指明选择的列,若要选择所有的列可用符号 *;from表是设定要查询其行列的数据表。在过程SQL的 SELECT语句中附加WHERE从句,可以对表中的观测进行 选择。在SELECT语句中还可以使用ORDER从句将显示的 数据按选定的变量的值排序。在SELECT从句中也可以用选 项FORMAT=对选择的数据设定显示时用的格式。本章小节 v第一节介绍了SQL过程的特点以及SQL过程 在数据管理方面的作用。使用SQL过程可以 读入、展示和加工SAS数据文件;在表中增 加和修改数据值;增加、修改和删除表的列 ;创建表;生成报告;而且可以拼接不同类 型的数据表为单一的数据表。

10、SQL是一种模 块类型的语言,在这种语言中,语句由更小 的分量构造块组成。通过第一节的学习了解 SQL过程及其作用。本章小节v简单地介绍SQL过程的特点及其与其它过程 的区别,详细阐述了SQL过程所包含的各语 句及其作用,包括PROC SQL和RESET语句 、SAS数据集选项、ALTER语句、CREATE 语句、DELETE语句、SELECT语句。本章小节v最后,通过具体的10个实例操作讲解SQL语 句的应用,帮助大家掌握SQL过程及其语句 的应用。大家需要重点掌握最后两个实例, 也就是数据集的匹配并接,尤其是3个及以上 数据集(含有不同的匹配字段)的串接。熟 悉这些实例操作将有助于我们深刻

11、体会SQL 过程,并通过上机操作逐渐掌握SQL的编程 操作。第6章 定量资料的统计描 述学习目标v掌握集中趋势和离散趋势描述的常用统计量 ;v掌握正态分布的特征及其作用意义;v掌握利用PROC MEANS过程进行资料的统 计描述;v掌握利用PROC UNIVARIATE过程进行资料 的统计描述。数据的统计特征v在对一组统计数据的分布变化进行深入研究之前, 我们首先研究一组数据的特征。为了比较精确地描 述一组统计资料的特征,需要使用一些统计指标来 描述它。一组数据的统计特征通常包括以下四个方 面: v集中趋势 v离散趋势 v偏度 v峰度 集中趋势v集中趋势,也称作中心位置。即表示一组数 据的中心

12、位置的数据点是在什么地方,也就 是数据集中分布的位置。v一组数据的集中趋势通常用平均数、中位数 和众数等来表示。这些统计量均称为平均指 标。平均指标的特点是将一组数据中各个数 据之间的差异抽象化,用一个指标来代表各 个数据的一般水平,它反映了一组数据中各 个数据的代表水平、中心位置或集中趋势。均数 v是算术均数的简称。常用表示样本均数,表 示总体均数。均数用于反映一组同质观察值 的平均水平,适用于正态或近似正态分布的 数值变量资料。其计算方法有:v直接法 v加权法 均数(直接法)v用于样本含量较少时,其公式为:v式中,希腊字母(读作sigma)表示求和; X1,X2,Xn为各观察值;n为样本含

13、量 ,即观察值的个数。均数(加权法 )v用于频数表资料或样本中相同观察值较多时 ,其公式为:v式中,X1,X2,Xn与f1,f2,fk分 别为相同观察值与其对应的频数 (或频数表资 料中各组段的组中值和相应组段的频数)。几何均数 v适用于对数正态分布,即数据经过对数变换 后呈正态分布的资料;等比级数资料,即观 察值之间呈倍数或近似倍数变化的资料。如 抗体滴度、平均效价等。其计算方法有:v直接法 v加权法 几何均数(直接法)v或几何均数(加权法)v注意:计算几何均数时观察值中不能有0,因 0不能取对数;一组观察值中不能同时有正值 和负值。 中位数 v一组由小到大按顺序排列的观察值中位次居中的数

14、值。中位数可用于描述:非正态分布资料(对数正 态分布除外);频数分布的一端或两端无确切数据 的资料;以及总体分布不清楚的资料。在全部观察 中,小于和大于中位数的观察值个数相等。其计算 方法也包括v直接法v频数表法百分位数 v用Px表示。一个百分位数Px将一组观察值分 为两部分,理论上有X%的观察值比它小,有 (100-X)%的观察值比它大,是一种位置指 标。中位数是一个特殊的百分位数,即 M=P50。百分位数的计算步骤与中位数类似 ,首先要确定Px所在的组段。先计算n*x%, 累计频数中大于n*x%的最小值所在的组段就 是Px所在组段。 离散趋势描述 v计量资料的频数分布有集中趋势和离散趋势两

15、个主 要特征,仅仅用集中趋势来描述数据的分布特征是 不够的,只有把两者结合起来,才能全面地认识事 物。我们经常碰到平均数相同的两组数据其离散程 度可以是不同的。一组数据的分布可能比较集中, 差异较小,则平均数的代表性较好。另一组数据可 能比较分散,变异较大,则平均数的代表性就较差 。描述一组计量资料离散趋势的常用指标有极差、 四分位数间距、方差、标准差、标准误和变异系数 等,其中方差和标准差最常用。极差v 极差又称全距,是指一组数据的观察值中的最大值 和最小值之差。用公式表示为:v 极差最大观察值最小观察值v 极差的计算简单,但是它只考虑了数据中的最大 值和最小值,而忽略了全部观察值之间的差异

16、。两 组数据的最大值和最小值可能相同,于是它们的极 差相等,但是离散的程度可能相当不一致。由此可 见,极差往往不能反映一组数据的实际离散程度, 极差所反映的仅仅是一组数据的最大的离散值。平均差v平均差是指一组数据中的各数据对平均数的 离差绝对值的平均数。一组数据中的各数据 对平均数的离差有正有负,其和为零,因此 平均差必须用离差的绝对值来计算。平均差 愈大,表示数据之间的变异程度愈大,反之 则变异程度愈小。计算公式为: 方差v平均差用绝对值来进行度量,虽然避免了正 负离差的相互抵消,但不便于运算。一般情 况下,用方差来度量一组数据的离散性。其 计算公式为:标准差v为了使统计量的单位同观察值的单位相一致 ,通常将方差开平方,即得到标准差,标准 差也称为均方差。其计算公式为: 方差和标准差v由定义可知,方差和标准差所反映的是一组 数据对其均值为代表的中心的某种偏离程度 。从定义可知,标准差(或方差)较小的分 布一定是比较集中在均值附近的,反之则是 比较分散的。标准差的缺点是计算起来比较 麻烦。标准差也是根据全部数据来计算的, 但是它也会

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号