sas的描述统计功能－金锄头文库

资源描述

《sas的描述统计功能》由会员分享，可在线阅读，更多相关《sas的描述统计功能（80页珍藏版）》请在金锄头文库上搜索。

1、第二章 SAS的描述统计功能,2.1 描述性统计的基本概念 2.2 在SAS中计算统计量 2.3 统计图形,2.1 描述性统计的基本概念 2.1.1 统计学的基本概念 2.1.2 表示数据位置的统计量 2.1.3 表示数据分散程度的统计量 2.1.4 表示数据分布形状的统计量 2.1.5 其它统计量,2.1.1 统计学的基本概念 1. 总体与样本总体(population)：总体是指所研究对象的全体组成的集合。样本(sample)：样本是指从总体中抽取的部分对象（个体）组成的集合。样本中包含个体的个数称为样本容量。容量为n的样本常用n个随机变量X1，X2，Xn表示，其观测值（样本数据）则表

2、示为x1，.，xn，为简单起见，有时不加区别。,2. 参数与统计量参数(parameter)：参数是用来描述总体特征的概括性值。如总体平均值（）、总体方差（2）、总体比例（）等。统计量(statistics)：统计量是用来描述样本特征的概括性值。如样本均值（）、样本方差（s2）、样本比例（P）等。,2.1.2 表示数据位置的统计量如果要用简单的数字来概括一组观测数据x1，.，xn，可以使用“位置统计量”来作为数据的总体代表，常见的位置统计量有：均值、中位数、分位数、众数等。 1. 均值（Mean）均值是所有观测值的平均值，是描述数据取值中心位置的一个度量：,2. 中位数（Median

3、或Med）中位数是描述观测值数据中心位置的统计量，大体上比中位数大（小）的数据为观测值的一半。中位数的一个优点是它不受个别极端数据的影响，具有稳健性。中位数的计算方法是：首先将数据从小到大排序为：x(1)，.，x(n)，然后计算,3. 众数（Mode）观测值中出现最多的数称为众数。众数用得不如均值和中位数普遍。在属性变量分析中，常需考虑频数，因此众数用得多些。 4. 百分位数（Percentile）分位数也是描述数据分布和位置的统计量。0.5分位数就是中位数，0.75分位数和0.25分位数又分别称为上、下四分位数，并分别记为Q3和Q1。,2.1.3 表示数据分散程度的统计量 1. 极差（

4、Range）与半极差（Interquartile range）极差就是数据中的最大值和最小值之间的差：极差 = maxxi minxi 上、下四分位数之差Q3 Q1称为四分位极差或半极差，它描述了中间半数观测值的散布情况。 2. 方差（Variance或Var）方差是由各观测值到均值距离的平方和除以观测量减1：,3. 标准差（Standard deviation或Std Dev）方差的开方称为标准差：标准差的量纲与原变量一致。 4. 变异系数（Coefficient of Variation或CV）变异系数是将标准差表示为均值的百分数，是观测数据分散性的一个度量，它在比较用不同单位

5、测量的数据的分散性时是有用的：,2.1.4 表示数据分布形状的统计量偏度和峰度是描述数据分布形状的指标。 1. 偏度（skewness）偏度是刻画数据对称性的指标。偏度的计算公式为：在SAS中：关于均值对称的数据其偏度为0；左侧更为分散的数据，其偏度为负，称为左偏；右侧更为分散的数据，其偏度为正，称为右偏。,2. 峰度（kurtosis）峰度描述数据向分布尾端散布的趋势。峰度的计算公式为：利用峰度研究数据分布的形状是以正态分布为标准（假定正态分布的方差与所研究分布的方差相等）比较两端极端数据的分布情况，若近似于标准正态分布，则峰度接近于零；尾部较正态分布更分散，则峰度为正，

6、称为轻尾；尾部较正态分布更集中，则峰度为负，称为厚尾。,2.1.5 其它统计量 1. 均值的标准误（Std Error Mean或Std Mean或Std error） 2. 校正平方和（Corrected sum of squares）,3. 未校正平方和（Uncorrected sum of squares） 4. k阶原点矩其中A1即为均值。 5. k阶中心矩,2.2 在SAS中计算统计量 2.2.1 用INSIGHT计算统计量 2.2.2 用“分析家”计算统计量 2.2.3 编程实现描述性统计,2.2.1 用INSIGHT计算统计量 INSIGHT可以非常方便地计算各种统计量。

7、1. 实例数据【例2-1】表2-1为两个不同地区居民家庭收入和支出情况的抽样调查（单位：元），试分别统计收入和支出情况。将表2-1中数据通过Excel导入到SAS数据集Mylib.sryzc中，4个变量名分别为：ID、R_ID、Income和Outgo，相应的标签名为家庭编号、地区编号、家庭总收入和家庭总支出。,2. 在INSIGHT中打开数据集在菜单中选择“Solution（解决方案）”“Analysis（分析）”“Interactive Data Analysis（交互式数据分析）”，打开“SAS/INSIGHT Open”对话框，在对话框中选择数据集：Mylib.sryzc，单击“

8、Open（打开）”按钮，即可在INSIGHT中打开数据窗口，如图所示。,3. 计算统计量选择菜单“Analyze（分析）”“Distribution (Y)（分布）”，打开“Distribution (Y)”对话框。在数据集sryzc的变量列表中，选择Income为分析变量，选择R_Id，为分组变量。单击“Output（输出）”按钮，在打开的对话框中包含描述性统计量选项。,选择选项矩统计量和分位数，取消默认的选项：“Box Plot/Mosaic Plot”和“Histogram/Bar Chart”，单击“OK”按钮，即可得到变量Income按“R_Id”分组的各种矩统计量（Moment

9、s）和分位数（Quantiles），如图所示。,2.2.2 用“分析家”计算统计量 1. 启动“分析家” 选择主菜单“Solutions（解决方案）”“Analysis（分析）”“Analyst（分析家）”，打开“分析家”窗口。选择主菜单“File（文件）”“Open By SAS Name”，打开“Select A Member”对话框，选择数据集Mylib.sryzc。,2. 通过Summary Statistics菜单计算描述性统计量选择主菜单“Statistics（统计）”“Descriptive（描述性统计）”“Summary Statistics（汇总统计量）”，打开“Summ

10、ary Statistics”对话框，选择变量列表中的Income，单击“Analysis”按钮，选定分析变量，如图所示。,单击“Statistics”按钮，打开“Summary Statistics：Statistics”对话框。对话框中列出可以计算的所有统计量（如右图所示）。描述性统计量如下图所示。,3. 通过Distributions菜单计算描述性统计量选择主菜单“Statistics（统计）”“Descriptive（描述性统计）”“Distributions（分布）”，打开“Distributions”对话框，选择变量列表中的Income，单击“Analysis”按钮，选定分析变

11、量。单击“OK”按钮，即可得到关于变量Income的矩统计量和基本统计测度,2.2.3 编程实现描述性统计 SAS提供有多个不同的过程来实现统计量的计算，它们在功能范围上有许多的重复，下面介绍用FREQ、MEANS和UNIVARIATE这三个过程来计算简单的描述统计量。 FREQ过程常用来计算分类变量取值的频数，而MEANS和UNIVARIATE过程则对数值型变量计算均值、标准差等统计量。,1. FREQ过程 FREQ过程包括多个控制频数输出与检验的语句和选项，格式如下： PROC FREQ DATA = ; TABLES ; FORMAT . . ; RUN; 其中PROC FREQ语句调

12、用FREQ过程，标志FREQ过程的开始； TABLES语句用于创建有关变量所构成的各种表格并进行相应的假设检验和计算，可以多次使用。,例如，统计数据集Mylib.sryzc中变量R_Id和Income频数的代码如下： proc freq data = mylib.sryzc; tables R_Id Income; RUN; 显示结果如图所示。,2. MEANS过程 (1) 语法格式 MEANS过程的一般格式： PROC MEANS DATA=； VAR ； BY ； CLASS ； RUN；,PROC MEANS语句后的选项主要用来指定所要计算的统计量，默认情况下，MEANS过程会给出频数、

13、均数、标准差、最大值和最小值等，其余统计量的计算均需要在选项中指定。 VAR语句引导所要进行分析的所有变量的列表，SAS将对VAR语句所引导的所有变量分别进行描述性统计分析。 BY语句与CLASS语句所指定的分类变量用来进行分组统计，但输出格式不同。,如对数据集Mylib.sryzc中的Income变量计算简单统计量，只要用如下MEANS过程： proc means data = mylib.sryzc; var Income; run; 结果如图2-15所示。,(2) 使用统计量关键字列表在PROC MEANS语句中使用统计量关键字列表： proc means data = mylib.s

14、ryzc n mean median p1 p5 p95 p99 q1 q3 max min; var Income; run; 结果如图2-16所示。,可以计算的描述性统计量关键字及其含义见下表。,(3) 使用CLASS语句和BY语句使用CLASS语句和BY语句可以分组计算分析变量的描述统计量值，由CLASS语句和BY语句指定的变量在分析中起分组（类）的作用，被称为分类变量。两个语句的区别是：使用BY语句时要求数据集须按BY变量排序，使用CLASS语句无此要求。使用BY语句时输出按BY变量的每个值分别提供一个表，使用CLASS语句则将所有结果排列在一个表之中。,使用BY语句之前先排序，

15、如下代码可以在上例中按变量R_Id分组统计： proc sort data = mylib.sryzc; by R_Id; run; proc means data = mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 max min; var Income; by R_Id; run;,使用CLASS语句分组较为简单，如下代码也可以在上例中按变量R_Id分组统计： proc means data = mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 max min; var Income; class R_I

16、d; RUN;,3. UNIVARIATE过程 UNIVARIATE过程的一般格式为： PROC UNIVARIATE DATA = ； VAR ; BY | CLASS ; HISTOGRAM /; OUTPUT OUT = = ; RUN；,UNIVARIATE过程和MEANS过程的格式非常相似，相同的语句和选项其含义也相同，所不同的是某些统计量只能在UNIVARIATE过程中计算（如众数），而且UNIVARIATE过程中具有绘图功能。其中，HISTOGRAM语句用来指示SAS对其后所指定的变量绘制直方图，其后的选项用来指示SAS添加不同类型的拟合图形（如正态分布的分布密度曲线）。,输出包括五个部分。第一部分是矩统计量，各统计量已在2.1.1中作了介绍。第二部分为基本的位置和分散程度统计量，位置统计量包括均值、中位数、众数，分散程度统计量包括标准差、方差、极差、四分位间距第三部分为关于均值等于零的三种检验

展开阅读全文