第讲-SAS的描述性统计课件

上传人:M****1 文档编号:568628583 上传时间:2024-07-25 格式:PPT 页数:72 大小:2.21MB
返回 下载 相关 举报
第讲-SAS的描述性统计课件_第1页
第1页 / 共72页
第讲-SAS的描述性统计课件_第2页
第2页 / 共72页
第讲-SAS的描述性统计课件_第3页
第3页 / 共72页
第讲-SAS的描述性统计课件_第4页
第4页 / 共72页
第讲-SAS的描述性统计课件_第5页
第5页 / 共72页
点击查看更多>>
资源描述

《第讲-SAS的描述性统计课件》由会员分享,可在线阅读,更多相关《第讲-SAS的描述性统计课件(72页珍藏版)》请在金锄头文库上搜索。

1、第一节第一节 描述性统计的基本概念描述性统计的基本概念n统计学的基本概念统计学的基本概念n表示数据位置的统计量表示数据位置的统计量n表示数据分散程度的统计量表示数据分散程度的统计量n表示数据分布形状的统计量表示数据分布形状的统计量n其它统计量其它统计量一、统计学的基本概念一、统计学的基本概念n1. 1. 总体与样本总体与样本 总体总体(population):总体是指所研究对象的全体组成的:总体是指所研究对象的全体组成的集合。集合。 样本样本(sample):样本是指从总体中抽取的部分对象:样本是指从总体中抽取的部分对象(个体)组成的集合。样本中包含个体的个数称为样本容(个体)组成的集合。样本

2、中包含个体的个数称为样本容量。容量为量。容量为n的样本常用的样本常用n个随机变量个随机变量X1,X2,Xn表表示,其观测值(样本数据)则表示为示,其观测值(样本数据)则表示为x1,.,xn,为简单,为简单起见,有时不加区别。起见,有时不加区别。n2. 2. 参数与统计量参数与统计量 参数参数(parameter):参数是用来描述总体特征的概括性:参数是用来描述总体特征的概括性值。如总体平均值(值。如总体平均值()、总体方差()、总体方差( 2)、总体比例)、总体比例()等。)等。 统计量统计量(statistics):统计量是用来描述样本特征的概:统计量是用来描述样本特征的概括性值。如样本均值

3、(括性值。如样本均值( )、样本方差()、样本方差(s2)、样本比例)、样本比例(P)等。)等。二、表示数据位置的统计量二、表示数据位置的统计量 如果要用简单的数字来概括一组观测数据如果要用简单的数字来概括一组观测数据x1,.,xn,可以使用可以使用“位置统计量位置统计量”来作为数据的总体代表,常见的来作为数据的总体代表,常见的位置统计量有:均值、中位数、分位数、众数等。位置统计量有:均值、中位数、分位数、众数等。1. 1. 均值(均值(MeanMean) 均值是所有观测值的平均值,是描述数据取值中心位均值是所有观测值的平均值,是描述数据取值中心位置的一个度量:置的一个度量:2. 2. 中位数

4、(中位数(MedianMedian或或MedMed) 中位数是描述观测值数据中心位置的统计量,大体上中位数是描述观测值数据中心位置的统计量,大体上比中位数大(小)的数据为观测值的一半。中位数的一个比中位数大(小)的数据为观测值的一半。中位数的一个优点是它不受个别极端数据的影响,具有稳健性。中位数优点是它不受个别极端数据的影响,具有稳健性。中位数的计算方法是:首先将数据从小到大排序为:的计算方法是:首先将数据从小到大排序为:x(1),.,x(n),然后计算,然后计算3. 3. 众数(众数(ModeMode) 观测值中出现最多的数称为众数。众数用得不如均值观测值中出现最多的数称为众数。众数用得不如

5、均值和中位数普遍。在属性变量分析中,常需考虑频数,因此和中位数普遍。在属性变量分析中,常需考虑频数,因此众数用得多些。众数用得多些。4. 4. 百分位数(百分位数(PercentilePercentile) 分位数也是描述数据分布和位置的统计量。分位数也是描述数据分布和位置的统计量。0.5分位数分位数就是中位数,就是中位数,0.75分位数和分位数和0.25分位数又分别称为上、下分位数又分别称为上、下四分位数,并分别记为四分位数,并分别记为Q3和和Q1。n三、表示数据分散程度的统计量三、表示数据分散程度的统计量1. 1. 极差(极差(RangeRange)与半极差()与半极差(Interquar

6、tile rangeInterquartile range) 极差就是数据中的最大值和最小值之间的差:极差就是数据中的最大值和最小值之间的差:极差极差 = maxxi minxi 上、下四分位数之差上、下四分位数之差Q3 Q1称为四分位极差或半极差,称为四分位极差或半极差,它描述了中间半数观测值的散布情况。它描述了中间半数观测值的散布情况。2. 2. 方差(方差(VarianceVariance或或VarVar) 方差是由各观测值到均值距离的平方和除以观测量减方差是由各观测值到均值距离的平方和除以观测量减1:3. 3. 标准差(标准差(Standard deviationStandard de

7、viation或或Std DevStd Dev) 方差的开方称为标准差:方差的开方称为标准差: 标准差的量纲与原变量一致。标准差的量纲与原变量一致。4. 4. 变异系数(变异系数(Coefficient of VariationCoefficient of Variation或或CVCV) 变异系数是将标准差表示为均值的百分数,是观测数变异系数是将标准差表示为均值的百分数,是观测数据分散性的一个度量,它在比较用不同单位测量的数据的据分散性的一个度量,它在比较用不同单位测量的数据的分散性时是有用的:分散性时是有用的:四、表示数据分布形状的统计量四、表示数据分布形状的统计量 偏度和峰度是描述数据分

8、布形状的指标。偏度和峰度是描述数据分布形状的指标。n1. 1. 偏度(偏度(skewnessskewness) 偏度是刻画数据对称性的指标。偏度的计算公式为:偏度是刻画数据对称性的指标。偏度的计算公式为: 在在SAS中:中: 关于均值对称的数据其偏度为关于均值对称的数据其偏度为0; 左侧更为分散的数据,其偏度为负,称为左偏;左侧更为分散的数据,其偏度为负,称为左偏; 右侧更为分散的数据,其偏度为正,称为右偏。右侧更为分散的数据,其偏度为正,称为右偏。2. 2. 峰度(峰度(kurtosiskurtosis) 峰度描述数据向分布尾端散布的趋势。峰度的计算公峰度描述数据向分布尾端散布的趋势。峰度的

9、计算公式为:式为: 利用峰度研究数据分布的形状是以正态分布为标准利用峰度研究数据分布的形状是以正态分布为标准(假定正态分布的方差与所研究分布的方差相等)比较两(假定正态分布的方差与所研究分布的方差相等)比较两端极端数据的分布情况,若端极端数据的分布情况,若 近似于标准正态分布,则峰度接近于零;近似于标准正态分布,则峰度接近于零; 尾部较正态分布更分散,则峰度为正,称为轻尾;尾部较正态分布更分散,则峰度为正,称为轻尾; 尾部较正态分布更集中,则峰度为负,称为厚尾。尾部较正态分布更集中,则峰度为负,称为厚尾。n五、其它统计量五、其它统计量1. 1. 均值的标准误(均值的标准误(Std Error

10、MeanStd Error Mean或或Std MeanStd Mean或或Std Std errorerror)2. 2. 校正平方和(校正平方和(Corrected sum of squaresCorrected sum of squares)3. 3. 未校正平方和(未校正平方和(Uncorrected sum of squaresUncorrected sum of squares)4. 4. k k阶原点矩阶原点矩其中其中A1即为均值即为均值 。5. 5. k k阶中心矩阶中心矩第二节第二节 在在SASSAS中计算统计量中计算统计量n用用INSIGHT计算统计量计算统计量n用用“分析

11、家分析家”计算统计量计算统计量n编程实现描述性统计编程实现描述性统计一、用一、用INSIGHT计算统计量计算统计量 INSIGHT可以非常方便地计算各种统计量。可以非常方便地计算各种统计量。n1. 1. 实例数据实例数据【例例2-1】表表2-1为两个不同地区居民家庭收入和支出情况为两个不同地区居民家庭收入和支出情况的抽样调查(单位:元),试分别统计收入和支出情况。的抽样调查(单位:元),试分别统计收入和支出情况。将表将表2-1中数据通过中数据通过Excel导入到导入到SAS数据集数据集TT中,中,4个变个变量名分别为:量名分别为:ID、R_ID、Income和和Outgo,相应的标签,相应的标

12、签名为家庭编号、地区编号、家庭总收入和家庭总支出。名为家庭编号、地区编号、家庭总收入和家庭总支出。n2. 2. 在在INSIGHTINSIGHT中打开数据集中打开数据集 在菜单中选择在菜单中选择“Solution(解决方案)(解决方案)”“Analysis(分析)(分析)”“Interactive Data Analysis(交互式数据分析)(交互式数据分析)”,打开,打开“SAS/INSIGHT Open”对话框,在对话框中选择数据集:对话框,在对话框中选择数据集:TT,单击,单击“Open(打开)(打开)”按钮,即可在按钮,即可在INSIGHT中打开数据窗口,中打开数据窗口,如图所示。如图

13、所示。n3. 3. 计算统计量计算统计量 选择菜单选择菜单“Analyze(分析)(分析)”“Distribution (Y)(分布)(分布)”,打开,打开“Distribution (Y)”对话框。在数对话框。在数据集据集sryzc的变量列表中,选择的变量列表中,选择Income为分析变量,选择为分析变量,选择R_Id,为分组变量。,为分组变量。 单击单击“Output(输出)(输出)”按钮,在打开的对话框中包按钮,在打开的对话框中包含描述性统计量选项。含描述性统计量选项。 选择选项矩统计量和分位数,取消默认的选项:选择选项矩统计量和分位数,取消默认的选项:“Box Plot/Mosaic

14、Plot”和和“Histogram/Bar Chart”,单击,单击“OK”按钮,即可得到变量按钮,即可得到变量Income按按“R_Id”分组的各分组的各种矩统计量(种矩统计量(Moments)和分位数()和分位数(Quantiles),如图),如图所示。所示。二、用二、用“分析家分析家”计算统计量计算统计量n1. 1. 启动启动“分析家分析家” 选择主菜单选择主菜单“Solutions(解决方案)(解决方案)”“Analysis(分析)(分析)”“Analyst(分析家)(分析家)”,打开打开“分析家分析家”窗口。窗口。 选择主菜单选择主菜单“File(文件)(文件)”“Open By S

15、AS Name”,打开,打开“Select A Member”对话框,选择数据集对话框,选择数据集TT。n2. 2. 通过通过Summary StatisticsSummary Statistics菜单计算描述性统计菜单计算描述性统计量量 选择主菜单选择主菜单“Statistics(统计)(统计)”“Descriptive(描述性统计)(描述性统计)”“Summary Statistics(汇总统计量)(汇总统计量)”,打开,打开“Summary Statistics”对话框,选择变量列表中的对话框,选择变量列表中的Income,单击,单击“Analysis”按钮,选定分析变量,如图所示。按钮

16、,选定分析变量,如图所示。单击单击“Statistics”按钮,打开按钮,打开“Summary Statistics:Statistics”对话框。对话框中列出可以计算的所有统计量对话框。对话框中列出可以计算的所有统计量(如右图所示)。(如右图所示)。描述性统计量如下图所示。描述性统计量如下图所示。n3. 3. 通过通过DistributionsDistributions菜单计算描述性统计量菜单计算描述性统计量 选择主菜单选择主菜单“Statistics(统计)(统计)”“Descriptive(描述性统计)(描述性统计)”“Distributions(分布)(分布)”,打开,打开“Distr

17、ibutions”对话框,选择变量列表中的对话框,选择变量列表中的Income,单击单击“Analysis”按钮,选定分析变量。按钮,选定分析变量。 单击单击“OK”按钮,即可得到关于变量按钮,即可得到关于变量Income的矩统计的矩统计量和基本统计测度量和基本统计测度三、三、 编程实现描述性统计编程实现描述性统计 SAS提供有多个不同的过程来实现统计量的计算,它提供有多个不同的过程来实现统计量的计算,它们在功能范围上有许多的重复,下面介绍用们在功能范围上有许多的重复,下面介绍用FREQ、MEANS和和UNIVARIATE这三个过程来计算简单的描述统这三个过程来计算简单的描述统计量。计量。 F

18、REQ过程常用来计算分类变量取值的频数,而过程常用来计算分类变量取值的频数,而MEANS和和UNIVARIATE过程则对数值型变量计算均值、过程则对数值型变量计算均值、标准差等统计量。标准差等统计量。n1. FREQ1. FREQ过程(过程(ex7-3-1; ex7-3-2; ex7-3-3; ex7-3-1; ex7-3-2; ex7-3-3; ex7-3-4 ex7-3-4 ) FREQ过程包括多个控制频数输出与检验的语句和选项,过程包括多个控制频数输出与检验的语句和选项,格式如下:格式如下:PROC FREQ DATA = ; TABLES ; FORMAT . . ;RUN; 其中其中

19、PROC FREQ语句调用语句调用FREQ过程,标志过程,标志FREQ过过程的开始;程的开始; TABLES语句用于创建有关变量所构成的各种表格并进语句用于创建有关变量所构成的各种表格并进行相应的假设检验和计算,可以多次使用。行相应的假设检验和计算,可以多次使用。n2. MEANS2. MEANS过程过程(ex7-2-1; ex7-2-2; ex7-2-3)(ex7-2-1; ex7-2-2; ex7-2-3)(1) 语法格式语法格式 MEANS过程的一般格式过程的一般格式:PROC MEANS DATA=; VAR ; BY ; CLASS ;RUN; PROC MEANS语句后的选项主要用

20、来指定所要计算的语句后的选项主要用来指定所要计算的统计量,默认情况下,统计量,默认情况下,MEANS过程会给出频数、均数、过程会给出频数、均数、标准差、最大值和最小值等,其余统计量的计算均需要在标准差、最大值和最小值等,其余统计量的计算均需要在选项中指定。选项中指定。 VAR语句引导所要进行分析的所有变量的列表,语句引导所要进行分析的所有变量的列表,SAS将对将对VAR语句所引导的所有变量分别进行描述性统计分析。语句所引导的所有变量分别进行描述性统计分析。 BY语句与语句与CLASS语句所指定的分类变量用来进行分组语句所指定的分类变量用来进行分组统计,但输出格式不同。统计,但输出格式不同。 可

21、以计算的描述性统计量关键字及其含义见下表。可以计算的描述性统计量关键字及其含义见下表。(3) 使用使用CLASS语句和语句和BY语句语句 使用使用CLASS语句和语句和BY语句可以分组计算分析变量的描语句可以分组计算分析变量的描述统计量值,由述统计量值,由CLASS语句和语句和BY语句指定的变量在分析语句指定的变量在分析中起分组(类)的作用,被称为分类变量。两个语句的区中起分组(类)的作用,被称为分类变量。两个语句的区别是:别是: 使用使用BY语句时要求数据集须按语句时要求数据集须按BY变量排序,使用变量排序,使用CLASS语句无此要求。语句无此要求。 使用使用BY语句时输出按语句时输出按BY

22、变量的每个值分别提供一个变量的每个值分别提供一个表,使用表,使用CLASS语句则将所有结果排列在一个表之中。语句则将所有结果排列在一个表之中。n3. UNIVARIATE3. UNIVARIATE过程过程(ex7-5-1)(ex7-5-1) UNIVARIATE过程的一般格式为:过程的一般格式为:PROC UNIVARIATE DATA = ; VAR ; BY | CLASS ; HISTOGRAM /; OUTPUT OUT = = ;RUN; UNIVARIATE过程和过程和MEANS过程的格式非常相似,相过程的格式非常相似,相同的语句和选项其含义也相同,所不同的是某些统计量只同的语句和

23、选项其含义也相同,所不同的是某些统计量只能在能在UNIVARIATE过程中计算(如众数),而且过程中计算(如众数),而且UNIVARIATE过程中具有绘图功能。过程中具有绘图功能。 其中,其中,HISTOGRAM语句用来指示语句用来指示SAS对其后所指定对其后所指定的变量绘制直方图,其后的选项用来指示的变量绘制直方图,其后的选项用来指示SAS添加不同类添加不同类型的拟合图形(如正态分布的分布密度曲线)。型的拟合图形(如正态分布的分布密度曲线)。 输出包括五个部分。输出包括五个部分。 第一部分是矩统计量,各统计量已在中作了介绍。第一部分是矩统计量,各统计量已在中作了介绍。 第二部分为基本的位置和

24、分散程度统计量,位置统计第二部分为基本的位置和分散程度统计量,位置统计量包括均值、中位数、众数,分散程度统计量包括标准差、量包括均值、中位数、众数,分散程度统计量包括标准差、方差、极差、四分位间距方差、极差、四分位间距 第三部分为关于均值等于零的三种检验的结果,包括第三部分为关于均值等于零的三种检验的结果,包括t检验、符号检验和符号秩检验。检验、符号检验和符号秩检验。 第四部分为各个重要的分位数。第四部分为各个重要的分位数。 第五部分是观测数据的五个最低值和五个最高值。第五部分是观测数据的五个最低值和五个最高值。第三节第三节 统计图形统计图形n定量变量的图形表示定量变量的图形表示n分类变量的图

25、形表示分类变量的图形表示一、定量变量的图形表示一、定量变量的图形表示n1. 1. 直方图直方图 对于数值型变量,常用直方图(对于数值型变量,常用直方图(histogram)来展示变)来展示变量取值的分布。将变量取值的范围分成若干区间,在等间量取值的分布。将变量取值的范围分成若干区间,在等间隔区间的情况,每个区间的长度称为组距。考察数据落入隔区间的情况,每个区间的长度称为组距。考察数据落入每一区间的频数与频率,在每个区间上画一个矩形,它的每一区间的频数与频率,在每个区间上画一个矩形,它的宽度是组距,它的高度可以是频数、频率或密度(频率宽度是组距,它的高度可以是频数、频率或密度(频率组距),在高度

26、是密度的情况,每一矩形的面积恰是数据组距),在高度是密度的情况,每一矩形的面积恰是数据落入区间的频率,这种直方图可以估计总体的概率密度。落入区间的频率,这种直方图可以估计总体的概率密度。图2-22 密度直方图与频数直方图SAS软件会根据样本容量在样本取值范围内自动地确定一软件会根据样本容量在样本取值范围内自动地确定一个分组方式,另外也提供了设定分组的方法。个分组方式,另外也提供了设定分组的方法。 n2. 2. 盒形图盒形图 盒形图(盒形图(boxplot,又称箱图、箱线图、盒子图)是用,又称箱图、箱线图、盒子图)是用更为简洁的方法表现数据在数轴上的分布及其特点的图形。更为简洁的方法表现数据在数

27、轴上的分布及其特点的图形。 图图2-23的左边是根据居民家庭的收入情况所绘的盒形的左边是根据居民家庭的收入情况所绘的盒形图;右边是分地区情况所绘的盒形图。图;右边是分地区情况所绘的盒形图。 n3. 3. 散点图散点图 通常得到的数据可能有两个变量,比如家庭的收入和通常得到的数据可能有两个变量,比如家庭的收入和支出情况的数据,这里家庭总收入是一个变量,而家庭总支出情况的数据,这里家庭总收入是一个变量,而家庭总支出是第二个变量。希望通过图形了解收入和支出的关系,支出是第二个变量。希望通过图形了解收入和支出的关系,这时可以用一个变量为横坐标(如家庭总收入),另一个这时可以用一个变量为横坐标(如家庭总

28、收入),另一个为纵坐标(这里是家庭总支出)来作图(图为纵坐标(这里是家庭总支出)来作图(图2-24)。这种)。这种图称为散点图图称为散点图(Scatter Plot)。 n4. 4. 线图线图 线图线图(Line Plot)用来表示变量间的取值变化情况,有单用来表示变量间的取值变化情况,有单式和复式两种(图式和复式两种(图2-25)。)。 在复式线图中可用不同颜色的实线来标志区别,如图在复式线图中可用不同颜色的实线来标志区别,如图2-25右所示。右所示。 2.3.2 分类变量的图形表示分类变量的图形表示 分类变量也可以通过图形直观地描绘出它们各类的数分类变量也可以通过图形直观地描绘出它们各类的

29、数量和所占比例,常用的有条形图、饼图和马赛克图。量和所占比例,常用的有条形图、饼图和马赛克图。n1. 1. 条形图条形图 条形图条形图(Bar Chart)给出分类变量取每个值的频数,如给出分类变量取每个值的频数,如图图2-26所示为变量所示为变量R_ID取值的条形图。取值的条形图。2. 2. 饼图饼图 通常,饼图通常,饼图(Pie Chart)可以对分类变量描述其频数取可以对分类变量描述其频数取值的比例,对于数值变量,则像直方图那样应先计算各区值的比例,对于数值变量,则像直方图那样应先计算各区间取值的频数,再按比例画出。间取值的频数,再按比例画出。 图图2-27中给出的是家庭支出分组频数的饼

30、图。要注意中给出的是家庭支出分组频数的饼图。要注意的是,如果有太多的分组,那么饼图就不那么好看了。的是,如果有太多的分组,那么饼图就不那么好看了。n3. 3. 马赛克图马赛克图 马赛克图马赛克图(Mosaic Plot)一般不对单个变量作,而是对一般不对单个变量作,而是对两个分类变量来作。这种图的好处是直观显示了两个变量两个分类变量来作。这种图的好处是直观显示了两个变量每种取值组合的观测个数和比例,如图每种取值组合的观测个数和比例,如图2-28所示。所示。第四节第四节 用用SASSAS绘制统计图形绘制统计图形n用用INSIGHT绘制统计图形绘制统计图形n用用“分析家分析家”绘制统计图形绘制统计

31、图形n编程绘制统计图编程绘制统计图n图形的调整与输出图形的调整与输出一、一、 用用INSIGHT绘制统计图形绘制统计图形 INSIGHT模块可以画出多种统计图形,而且图形清晰、模块可以画出多种统计图形,而且图形清晰、美观。美观。n1. 1. 绘制直方图绘制直方图 选择菜单选择菜单“Analyze(分析)(分析)”“Histogram/Bar Chart (Y)(直方图(直方图/条形图)条形图)”,打开,打开“Histogram/Bar Chart (Y)”对话框。在数据集的变量列表中,选择变量,对话框。在数据集的变量列表中,选择变量,然后单击然后单击“Y”按钮。按钮。 单击单击“Output(

32、输出)(输出)”按钮,在打开的对话框中选按钮,在打开的对话框中选择择“Labels(标签)(标签)”选项,如图所示,以便输出的图形选项,如图所示,以便输出的图形显示中文标签名。单击显示中文标签名。单击“OK”按钮返回对话框。按钮返回对话框。 单击单击“OK”按钮,即可得到直方图如图按钮,即可得到直方图如图2-30左所示。左所示。 单击图形框左下角处的三角形,在打开的菜单中选择单击图形框左下角处的三角形,在打开的菜单中选择“Values(值)(值)”,即可在图中显示频数值,如图,即可在图中显示频数值,如图2-30右右所示。所示。 n2. 2. 绘制条形图绘制条形图 INSIGHT模块对分类变量绘

33、制条形图。首先单击模块对分类变量绘制条形图。首先单击R_Id变量名上边的变量作用按钮,在弹出的菜单中选择变量名上边的变量作用按钮,在弹出的菜单中选择“Nominal(列名型)(列名型)”,如图左所示。,如图左所示。 选择菜单选择菜单“Analyze”“Histogram/Bar Chart (Y)”,打开,打开“Histogram/Bar Chart (Y)”对话框。在数据集的对话框。在数据集的变量列表中选择变量,然后单击变量列表中选择变量,然后单击“Y”按钮,如图右所示。按钮,如图右所示。 单击单击“Output(输出)(输出)”按钮,在打开的对话框中选按钮,在打开的对话框中选择择“Labe

34、ls(标签)(标签)”选项,单击选项,单击“OK”按钮返回对话框。按钮返回对话框。 单击单击“OK”按钮,即可得到条形图如图按钮,即可得到条形图如图2-34左所示。左所示。如果选择如果选择Income_freq(见节)作为分析变量,则可以得(见节)作为分析变量,则可以得到图到图2-34右所示的条形图。右所示的条形图。 n3. 3. 绘制盒形图绘制盒形图 选择菜单选择菜单“Analyze”“Box Plot/Mosaic Plot (Y)”,可以对区间型变量作盒形图,对分类型变量作马赛克图。,可以对区间型变量作盒形图,对分类型变量作马赛克图。打开打开“Box Plot/Mosaic Plot (

35、Y)”对话框。在数据表对话框。在数据表sryzc的变量列表中,选择的变量列表中,选择income变量,然后单击变量,然后单击“Y”按钮,按钮,income变量被选定,如图左所示。变量被选定,如图左所示。 单击单击“Output”按钮,在打开的对话框中选择按钮,在打开的对话框中选择“Labels”选项,取消选项,取消“Y Axis Vertical”如图右所示。如图右所示。 单击单击“OK”按钮,即可得到盒形图如图按钮,即可得到盒形图如图2-36左所示。左所示。 在在“Box Plot/Mosaic Plot (Y)”对话框中选定多个分析变对话框中选定多个分析变量,可以将多个盒形图画在一个坐标系

36、下,这样便于比较量,可以将多个盒形图画在一个坐标系下,这样便于比较变量的取值情况,如图所示。变量的取值情况,如图所示。 图形分析:从图中可以看到支出数据在均值两边的分图形分析:从图中可以看到支出数据在均值两边的分布近似对称,说明低于和高于平均支出的家庭几乎各占一布近似对称,说明低于和高于平均支出的家庭几乎各占一半;收入数据的二分之一分位数在均值的左边,说明大部半;收入数据的二分之一分位数在均值的左边,说明大部分人的收入低于平均收入。另外,分人的收入低于平均收入。另外,10号家庭的收入是一号家庭的收入是一个极端值,它不具有代表性。个极端值,它不具有代表性。 n4. 4. 绘制马赛克图绘制马赛克图

37、 选择选择“Analyze(分析)(分析)”“Box Plot/Mosaic Plot (Y)(盒形图(盒形图/马赛克图)马赛克图)”命令,可以对分类变量作马赛命令,可以对分类变量作马赛克图。下面以中修改过的数据集克图。下面以中修改过的数据集sryzc为例,作出为例,作出R_Id变变量和量和Income_freq变量的马赛克图。变量的马赛克图。n4. 4. 绘制马赛克图绘制马赛克图首先将首先将R_Id变量改为变量改为“列名型列名型”(参见图(参见图2-33左)。左)。 选择菜单选择菜单“Analyze(分析)(分析)”“Box Plot/Mosaic Plot (Y)(盒形图(盒形图/马赛克图

38、)马赛克图)”,打开,打开“Box Plot/Mosaic Plot (Y)”对话框。在数据集对话框。在数据集sryzc的变量列的变量列表中,选择表中,选择R_Id变量,然后单击变量,然后单击“Y”按钮,按钮,R_Id变量被变量被选定,单击选定,单击“OK”按钮,得到结果如图按钮,得到结果如图2-38所示。所示。n5. 5. 绘制散点图绘制散点图 选择菜单选择菜单“Analyze”“Scatter Plot (Y X)”,打开,打开“Scatter Plot (Y X)”对话框。在变量列表中,选择对话框。在变量列表中,选择Income,单击,单击“Y”按钮,按钮,Income变量被选定为变量被

39、选定为Y轴变轴变量,选择量,选择Outgo,单击,单击“X”按钮,按钮,Outgo变量被选定为变量被选定为X轴变量,如图左所示。轴变量,如图左所示。 单击单击“OK”按钮,即可得到散点图如图右所示。可以按钮,即可得到散点图如图右所示。可以看出收入与支出有一定的线性相关关系。看出收入与支出有一定的线性相关关系。 在数据集窗口选中所有在数据集窗口选中所有1号地区的观测号,图号地区的观测号,图2-40是在是在散点图中区分两个地区的情况,细点为散点图中区分两个地区的情况,细点为2号地区,粗点为号地区,粗点为1号地区。从该图可以看出号地区。从该图可以看出1号地区比号地区比2号地区在收入和支号地区在收入和

40、支出水平上都要高出许多。出水平上都要高出许多。 若在若在“Line Plot (Y X)”对话框中,将对话框中,将ID变量选定为变量选定为X轴,轴,选择选择Income变量和变量和Outgo变量,单击变量,单击“Y”按钮。单击按钮。单击“Output(输出)(输出)”按钮,在打开的对话框中选择按钮,在打开的对话框中选择“Labels(标签)(标签)”选项,如图左所示,以便输出的图形选项,如图左所示,以便输出的图形显示中文标签名。两次单击显示中文标签名。两次单击“OK”按钮,得到关于按钮,得到关于Income变量和变量和Outgo变量的复式线图(图右)。变量的复式线图(图右)。 二、二、 用用“

41、分析家分析家”绘制统计图形绘制统计图形n1. 1. 绘制饼图绘制饼图 在在“分析家分析家”中打开数据集中打开数据集mylib.sryzc。 选择主菜单选择主菜单“Graphs”“Pie Chart”,打开,打开“Pie Chart”对话框,选择变量列表中的对话框,选择变量列表中的Income,单击,单击“Chart”按钮,选定分析变量,如图左所示。所得饼图按钮,选定分析变量,如图左所示。所得饼图如图右所示。如图右所示。 n2. 2. 绘制条形图绘制条形图 选择主菜单选择主菜单“Graphs”“Bar Chart”“Horizontal”,打开,打开“Horizontal Bar Chart”对

42、话框,选择变量列表对话框,选择变量列表中的中的INCOME,单击,单击“Chart”按钮,选定分析变量,选按钮,选定分析变量,选择择R_ID变量,单击变量,单击“Stack By”按钮,再选中按钮,再选中3-D选项,选项,如图左所示。单击如图左所示。单击“OK”按钮,得到水平条形图,如图右按钮,得到水平条形图,如图右所示。所示。 三、三、 编程绘制统计图编程绘制统计图 SAS可以把存贮在可以把存贮在SAS数据集中的数据以图形的方式数据集中的数据以图形的方式形象直观地显示出来。在形象直观地显示出来。在SAS/GRAPH模块的支持下,模块的支持下,SAS可以作散点图、曲线图、直方图、扇形图、三维曲

43、面可以作散点图、曲线图、直方图、扇形图、三维曲面图、等高线图、地图,等等。图、等高线图、地图,等等。Plot过程:过程: Ex7-6-1, Ex7-6-2, Ex7-6-3;Chart过程:过程: Ex7-7-1, Ex7-7-2, Ex7-7-3.n1. GCHART1. GCHART过程过程(1) 语法格式语法格式 GCHART过程用于绘制直方图、饼形图(扇形图)、过程用于绘制直方图、饼形图(扇形图)、三维直方图等表示变量分布的图形。其语法格式为:三维直方图等表示变量分布的图形。其语法格式为:PROC GCHART DATA = ; /RUN; GCHART过程可以使用的图形关键字及其所绘

44、制的图过程可以使用的图形关键字及其所绘制的图形类型见表形类型见表2-5。 图形关键字后的变量名用以指定进行图形描述时的分图形关键字后的变量名用以指定进行图形描述时的分组变量,可以是数值型的(此时以各组的组中值为分组的组变量,可以是数值型的(此时以各组的组中值为分组的标志),也可以是字符型的。标志),也可以是字符型的。选项比较重要的有:选项比较重要的有: TYPE = 统计量关键字,表示以图形对变量统计量关键字,表示以图形对变量(SUMVAR所指定的变量)的哪一种统计量进行描述,所指定的变量)的哪一种统计量进行描述,比如频数(比如频数(FREQ)、均数()、均数(MEAN)、总计()、总计(SU

45、M)、)、频数百分比(频数百分比(PCTN)等;)等; SUBGROUP = 变量名(分组变量),指定要进行分组变量名(分组变量),指定要进行分组(各组段内再分组)的变量;(各组段内再分组)的变量; SUMVAR = 变量名(数值变量),指定要进行统计计变量名(数值变量),指定要进行统计计算的变量,也就是算的变量,也就是“TYPE = 统计量关键字统计量关键字”选项中统计选项中统计量的计算所依据的变量。量的计算所依据的变量。 其中绘图用的变量用其中绘图用的变量用VBAR语句给出,如果把语句给出,如果把VBAR改成改成HBAR则条形方向变为横向。用则条形方向变为横向。用GCHART绘制的条形图和

46、在绘制的条形图和在INSIGHT中绘制的直方图有所不同,它在横轴标的是区间的中中绘制的直方图有所不同,它在横轴标的是区间的中点值,而在点值,而在INSIGHT中横轴标的是区间的端点值。中横轴标的是区间的端点值。 可以指定分组的变量,例如在每个区段内再分段,可以用如可以指定分组的变量,例如在每个区段内再分段,可以用如下代码:下代码:proc gchart data = mylib.sryzc; vbar Income / subgroup = R_Id;run; 结果如图所示。结果如图所示。 (3) 画三维条形图画三维条形图 使用使用BLOCK关键字可以画三维条形图。例如,画出数关键字可以画三维

47、条形图。例如,画出数据集据集mylib.sryzc中中Income变量的三维条形图的代码如下:变量的三维条形图的代码如下:proc gchart data = mylib.sryzc; block Income/ group = R_Id;run; 结果如图所示。结果如图所示。(4) 画饼形图画饼形图 使用使用PIE关键字可以画饼形图,关键字可以画饼形图,PIE3D关键字可以画三关键字可以画三维饼形图。例如,画出数据集维饼形图。例如,画出数据集mylib.sryzc中中Income变量变量的三维饼形图的代码如下:的三维饼形图的代码如下:proc gchart data = mylib.sryz

48、c; PIE3D Income;run; 结果如图所示。结果如图所示。n2. 2. 使用使用GPLOTGPLOT过程绘制散点图和连线图过程绘制散点图和连线图 通常用散点图和连线图可以表示:通常用散点图和连线图可以表示: 一个变量随另一个变量的变化;一个变量随另一个变量的变化; 变量之间的关系;变量之间的关系; 数据值的分布。数据值的分布。(1) GPLOT过程的一般格式过程的一般格式PROC GPLOT DATA = ; PLOT * = /; SYMBOLn ;RUN;常用的选项见表常用的选项见表2-6。表表2-6 PLOT语句的选项语句的选项 SYMBOL语句用来控制表示点的符号和点间的连

49、线。语句用来控制表示点的符号和点间的连线。其中其中n是不同是不同SYMBOL语句的序号,可以是语句的序号,可以是1-99,缺省为,缺省为1。选项见表。选项见表2-7。表表2-7 SYMBOL语句的选项语句的选项(2) 散点图散点图 绘制家庭总收入对家庭总支出的散点图,代码如下:绘制家庭总收入对家庭总支出的散点图,代码如下:proc gplot data = mylib.sryzc; plot Income*outgo;run; 结果显示了一个结果显示了一个GRAPHICS窗口,绘出了以窗口,绘出了以Income为为纵轴、以纵轴、以Outgo为横轴的散点图(见图)。为横轴的散点图(见图)。 可以

50、在图中按第三个变量分组画出散点图(如图可以在图中按第三个变量分组画出散点图(如图2-48右),代码如下:右),代码如下:proc gplot data = mylib.sryzc; plot Income*outgo = r_id; symbol1 color=black v = star; symbol2 color=blue v = dot;run;(3) 连线图连线图 为了绘制连线,只要在为了绘制连线,只要在SYMBOL语句中指定语句中指定i = join。例如绘制家庭总收入对家庭编号的连线图(图例如绘制家庭总收入对家庭编号的连线图(图2-49左),左),代码如下:代码如下:proc g

51、plot data = mylib.sryzc; plot Income*id; symbol i=join v=star;run; 也可以分地区绘制家庭总收入对家庭编号的连线图也可以分地区绘制家庭总收入对家庭编号的连线图(图(图2-49右),代码如下:右),代码如下:proc gplot data = mylib.sryzc; plot Income*id=r_id; symbol1 color=black i=join v = star; symbol2 color=blue i=join v = dot;run;四、图形的调整与输出四、图形的调整与输出 在图形中也可以用在图形中也可以用T

52、ITLE语句和语句和FOOTNOTE语句语句给图形加标题和脚注。给图形加标题和脚注。 还可以在图形的标题、标签中使用还可以在图形的标题、标签中使用TrueType字型字型的汉字,例如:的汉字,例如:goptions ftext=宋体宋体 htitle=4 cells htext=3 cells;proc gplot data=sasuser.class; title 试验试验SAS图形的汉字功能图形的汉字功能; symbol i=none v=square; plot weight*height; label weight=体重体重 height=身高身高;run; 输出结果见图。其中输出结果

53、见图。其中GOPTIONS中的中的FTEXT选项选项指定图形中文本的字体。指定图形中文本的字体。 为了把为了把GRAPH绘制的图形保存为兼容的图形文件,只绘制的图形保存为兼容的图形文件,只要在显示某一页图形输出时,选要在显示某一页图形输出时,选“File-Export”菜单,菜单,在出现的输入文件名的窗口选择适当的文件类型,如在出现的输入文件名的窗口选择适当的文件类型,如BMP、WMF、JPEG、PS,等等。,等等。 要打印要打印GRAPH生成的图形,只要选生成的图形,只要选“File-Print”。这。这样用样用Windows的打印驱动程序与的打印驱动程序与SAS/GRAPH的图形驱的图形驱动配合来打印。另外,动配合来打印。另外,SAS/GRAPH模块还提供了许多种模块还提供了许多种打印机的独立的驱动程序,可以不依赖于打印机的独立的驱动程序,可以不依赖于Windows的打的打印驱动,具体请参考有关资料或帮助。印驱动,具体请参考有关资料或帮助。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号