统计数据代表值计算 (2).doc

上传人:人*** 文档编号:543650976 上传时间:2024-02-23 格式:DOC 页数:24 大小:165KB
返回 下载 相关 举报
统计数据代表值计算 (2).doc_第1页
第1页 / 共24页
统计数据代表值计算 (2).doc_第2页
第2页 / 共24页
统计数据代表值计算 (2).doc_第3页
第3页 / 共24页
统计数据代表值计算 (2).doc_第4页
第4页 / 共24页
统计数据代表值计算 (2).doc_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《统计数据代表值计算 (2).doc》由会员分享,可在线阅读,更多相关《统计数据代表值计算 (2).doc(24页珍藏版)》请在金锄头文库上搜索。

1、第5章 统计数据的标志值计算及其描述5.3 探索性统计分析前面介绍的统计资料描述方法通常是先将统计资料分组处理,然后把分组资料画成各种图分析其分布规律。但这种传统的统计资料处理方法有一定的局限性,容易失去原始资料的真实性。为了克服这一弊端,70年代开始国外已经出现了新的探索性资料分析方法。探索性资料分析特征操作简便,能够准确地描述统计变量分布情况。在这里只介绍最常用的茎叶图和箱线图。5.3.1 箱线图(Boxplot)Q1Q2Q3L0H0平均数箱线图是把第一四分位数,第二四分位数(中位数),第三四分位数,四分位数范围,最大值及最小值画成一个箱子和一条线。将箱子两侧超过四分位数差1.5倍范围内的

2、值用点线(-)连接起来,超出四分位数差1.5倍至3倍范围的值为零,超过3倍的特别大或特别小的异常值用*表示。如果我们所研究的统计资料的分布是对称的,那么Q2垂直线将落在箱子的正中央。如果Q2垂直线落在靠近Q3的位置,那么分布的长尾拖向左边;相反Q2垂直线落在靠近Q1的位置,那么分布的长尾拖向右边。因此不同的箱线形状就反映出不同的分布特征(见图5-6)。 Q1Q2Q3(B) 右偏分布Q1Q2Q3(A) 正态分布Q1Q2Q3(C) 左偏分布图5-6 箱线图与分布形状5.3.2 茎叶图(Stem-and-leaf Display)茎叶图将提供统计资料的分布形态、范围、集中程度等情报。利用茎叶图主要有

3、两个优点,首先它既能保留原始资料的真实情报,又能为准确计算平均数等代表值提供方便。特别是对100个以下观测值的频数分布分析非常有用。其次SAS for Windows在统计量的分组中,茎叶图可将统计分组和画直方图一次完成,不会出现重复分组的可能。茎叶图将树茎置于垂直线的左侧,树叶在垂直线的右侧按顺序排列。绘制茎叶图,关键是要设计好树茎,这好比和资料分组时,先确定分组数和每组的组限一样重要。茎叶图是以观测值的间隔为纵坐标(茎),观测值的末尾数字为横坐标(叶),叶的右边数字为相应区间内观测值的个数。观测值的间隔为系统自动给出,当观测值的个数小于30时,数据间隔为10,当大于30时,间隔为5。 St

4、em Leaf # 9 1 1 8 4 1 7 125 3 6 135689 6 5 2558 4 4 567 3 3 5 1 2 2 1 -+-+-+-+ Multiply Stem.Leaf by 10*+15.4 利用SAS程序计算描述性统计量5.4.1 PROC UNIVARIATE 前面我们叙述了平均数、中位数、众数、偏度系数、方差、标准差等代表分布集中趋势和离散趋势的标志值和箱线图及茎叶图等探索性资料分析。下面将介绍利用SAS for Windows,计算和分析描述性统计量12) 把描述性统计量也称作基础统计量.)的基本方法(SAS程序),SAS for Windows统计分析的基

5、本形式如下: PROC UNIVARIATE OPTION1; VAR 变量名1 变量名2 变量名n; BY 变量名1 变量名2 变量名n; FREQ 变量名; WEIGHT 变量名; OUTPUT OUT=dsn option2;PROGRAM 解释PROC UNIVARIATE;SAS for Windows统计分析PROC UNIVARIATE命令是最常用的命令,也是最重要的命令之一,用来分析各种各样的描述性统计量。PROC UNIVARIATE命令不仅具有统计量分析功能,还具有打印功能等。option1- DATA=dsn:指定分析资料名dsn。- PLOT:探索性分析,作茎叶图和箱线

6、图。在SAS for Windows,根据观测值个数的多少,茎叶图和箱线图的形状有所不同。下面的图(a)是观测值个数n=30的情况,图(b)是观测值个数n=32的情况。由此可知,当观测值的个数n30时,茎叶图的同一个级别的树茎不分杈,当n30时,茎叶图的同一个水准的树茎分杈,比如70级别的树茎,分成7074和7579级别的两个树茎,这等于把原来的茎叶图和箱线图拉长了一倍。 图(a) 观测值n30 图(b) 观测值n30 Stem Leaf # Boxplot Stem Leaf # Boxplot 9 5 1 | 9 567 3 | (右) 8 0233456 7 +-+ 9 | 7 1223

7、4556788 11 *-* 8 56 2 | 6 35 2 | + | 8 22334 5 +-+ 5 1369 4 +-+ 7 556788 6 | | 4 046 3 | 7 12234 5 *-+-* 3 9 1 | 6 5 1 | | 2 2 1 | 6 3 1 | | -+-+-+-+ 5 69 2 +-+ Multiply Stem.Leaf by 10*+1 5 13 2 | 4 6 1 | 4 04 2 | 3 9 1 | 3 | 2 | 2 2 1 | (左) -+-+-+-+ Multiply Stem.Leaf by 10*+1(图5-7) 茎叶图和箱线图与观测值- F

8、REQ:作频数分析表(频数也称作次数)。- NORMAL:正态分布分析。计算有关检验正态分布的统计量p-值。- NOPRINT:不打印分析结果。以上的Option,可以在一个PROC UNIVARIATE命令中重复使用。比如, ;PROC UNIVARIATE DATA=one PLOT FREQ;RUN; VAR 变量名1 变量名2;指定描述性统计分析的变量。SAS程序中只有一个变量时不需要指定VAR变量。但在SAS程序中有两个以上变量时,需要指定VAR变量。如果不指定,则对所有的变量都作统计分析。比如,INPUT x y z; SAS程序中有3个变量。 ;PROC UNIVARIATE P

9、LOT; 作描述性统计分析。VAR x y; 只作x y变量的探索性统计分析。 BY 变量1 变量2;以BY指定的变量为基准,对VAR变量进行统计分析。 FREQ 变量名:该语句指定一个数值型的变量,它的值表示输入数据集中相应的观测出现的频数。WEIGHT 变量名:该语句规定一个变量,它的值表示相应观测的权数。OUTPUT OUT= dsn option2;OUTPUT语句要求把计算的描述性统计量输出到新的SAS数据集中。新数据集名字的定义用OUT=DSN来命名,OPTION2是对输出的描述性统计量进行选择和规定统计量在输出列表中的变量名。一般格式为: OUTPUT OUT= 新dsn 统计量代号=新变量名1 新变量名2;例如,OUTPUT OUT=EXAMPLE MEAN=MEANX MEANY STD=STDX STDY;option2 - N:资料个数 - MEDIAN:中位数- VAR:样本方差 - SUM:观测值的总和()- Q1:第一四分位数(上位四分位数)(25%) - Q3:第三四分位数(75%)- P1:第一百分位数(1%) - P10:第十百分位数(10%)- P90:第九十百分位数(90%) - P95:第九十五百分位数(95%)- P99:第九十九百分位数(99%) - USS:观测值的平方之和()

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号