SAS统计图形剖析课件

上传人:re****.1 文档编号:590152972 上传时间:2024-09-12 格式:PPT 页数:61 大小:2.74MB
返回 下载 相关 举报
SAS统计图形剖析课件_第1页
第1页 / 共61页
SAS统计图形剖析课件_第2页
第2页 / 共61页
SAS统计图形剖析课件_第3页
第3页 / 共61页
SAS统计图形剖析课件_第4页
第4页 / 共61页
SAS统计图形剖析课件_第5页
第5页 / 共61页
点击查看更多>>
资源描述

《SAS统计图形剖析课件》由会员分享,可在线阅读,更多相关《SAS统计图形剖析课件(61页珍藏版)》请在金锄头文库上搜索。

1、3.3.1 3.3.1 3.3.1 3.3.1 定量定量定量定量变变量的量的量的量的图图形表示形表示形表示形表示3.3.2 3.3.2 3.3.2 3.3.2 分分分分类变类变量的量的量的量的图图形表示形表示形表示形表示1、直方图(histogram)2、盒形图3、散点图(Scatter Plot)4、线图(Line Plot)直方图是根据变量的取值来显示其频数分布情况的图形。它的横轴代表数据分组,纵轴可用频数或百分比(频率)表示。对于数值型变量,常用直方图来展示变量取值的分布。将变量取值的范围分成若干区间(一般是等间距的),在等间距区间的情况下,每个区间的长度称为组距。考察数据落入每一个区间

2、的频数或频率,在每一个区间上画矩形,它的宽度是组距,高度可以是频数、频率或密度(频率/组距)。组距对直方图的形态有很大的影响,组距太小,每组的频数较少,由于随机性的影响,邻近区间上的频数可能很大;组距太大,直方图所反映概率密度的形态就会过于粗略。一个合适的分组是希望直方图的形态能接近总体的概率密度,SAS软件会根据样本容量在样本取值范围内自动地确定一个分组方式,另外也提供设定分组的方法。盒形图是一个用来描述数据分布状况的、类似盒子的图形,有时也叫盒式图、箱线图,是统计分析中一个重要的描述性分析工具。盒形图可显示数据的5个特征值:最大值、最小值、中位数和两个四分位数。盒形图由一个盒子和两根线构成

3、。盒子的中间线代表数据的中位数,数据中有一半大于中位数(在其之上),另一半小于中位数(在其之下)。封闭盒子的上下两横线(边)分别为上、下四分位数(点)。因此盒子上下边线内包含了位于分布中间的50%的数据。盒子的长度就是分布的四分位间距。其作用类似于标准差,可以反映数据分布的分散程度。从盒子边线向外画了两条线叫做触须线,最长可以延伸到四分位间距的1.5倍,但是如果已经到了数据的最小值或最大值处就不再延伸。如果有些数据值超出了触须线的范围,则这些数据用触须线以外的点来画出,一般认为这样的店是可能的异常点,在进一步进行数据分析时可以考虑是否需要剔除它。从盒形图上可以大体看出数据集中在什么范围,上下两

4、侧是否对称。如果盒子的下半部比上半部长,而且下触须线比上触须线长,说明数据分布为左偏;否则数据分布为右偏。散点图是由坐标轴上的一系列散点构成的图形,通常用来表示两个变量之间的关系。当坐标轴中的散点多的能够连成线的时候,便成为了线图。线图是由折线和曲线构成的图形。线图在生活中很常见,如股票的K线图、价格走势图等。线图一般由两个变量绘制。一个变量作为分析变量,即线图中线所代表的含义;另一个变量往往是定性变量或时间变量,作为分类变量或参照变量,用以考察分析变量的变动状况。此外,借助线图也可以同时考察多个变量的变动状况,并从中找出数据之间的关系。1、条形图(Bar Chart)2、饼图(Pie Cha

5、rt)3、马赛克图(Mosaic Plot)条形图是描述已汇总为频数、相对频数或百分比频数分布的定性数据的图形。通常将横轴指定为数据的分组标志,而将纵轴指定为频数、相对频数或百分比频数的刻度(横轴和纵轴也可互换);每组标志都用相同宽度的条形表示,条形的长度等于观测数值的大小。在绘图时通常将条形分开以突出每组数据的独立性。饼图是一种描述定性数据的相对频数和百分比频数分布的图形,通常以圆饼或椭圆饼的形式出现。饼图的整个圆即代表一个总体的全部数据,圆中的一个扇形表示总体的一个类别,其面积大小由相应部分占总体的比例决定,且各部分比例的总和必为100%。在统计分析中,他主要用来研究结构性问题,如股权结构

6、、投资结构等。马赛克图一般不针对单个变量,而是针对两个以上分类变量。这种图的好处是直观显示了两个以上变量每种取值组合的观测个数和比例。3.4.1 3.4.1 3.4.1 3.4.1 用用用用InsightInsightInsightInsight绘绘制制制制统计图统计图形形形形3.4.2 3.4.2 3.4.2 3.4.2 用用用用“ “ “ “分析家分析家分析家分析家” ” ” ”绘绘制制制制统计图统计图形形形形3.4.3 3.4.3 3.4.3 3.4.3 编编程程程程绘绘制制制制统计图统计图形形形形1、绘制直方图和条形图【例3-19】 根据表3-1学生体检数据,以体重为分析变量绘制直方图

7、。【例3-20】根据表3-1学生体检数据,以年龄为分析变量生成条形图。2、绘制盒形图和马赛克图【例3-21】 以学生体检表中的体重为分析变量,绘制盒形图。3、绘制散点图【例3-22】根据表3-1学生体检数据,绘制身高与年龄的散点图。4、绘制线图【例3-23】根据表3-1学生体检数据,绘制体重随身高变化的线图。1、绘制直方图【例3-24】根据表3-1学生体检数据,绘制身高分布直方图。2、绘制条形图分析家绘制条形图分为水平条形图和垂直条形图。其操作步骤与绘制直方图相同。3、绘制散点图(线图)【例3-25】根据表3-1学生体检数据,以身高为横轴、体重为纵轴,分别绘制散点图和线图。4、绘制饼图【例3-

8、26】根据表3-1学生体检数据,按身高分类绘制饼图。1、GChart过程2、GPlot过程计算中心图形参数语句图形参数语句Goptions 图形选项设置图形输出的参数,如设置图形输出的参数,如goptions ftext=SWISS ctext=BLACK goptions ftext=SWISS ctext=BLACK htext=1 cells; htext=1 cells; Symbol 图形选项常对常对GPLOTGPLOT过程输出的图形进行参数设置过程输出的图形进行参数设置GoptionsGoptions语句语句一般格式GOPTIONS GOPTIONS 选择项;选择项;选项Cback

9、=Cback=颜色颜色 图形的背景色图形的背景色Colors=(Colors=(颜色列表颜色列表) ) 规定图形的默认颜色顺序规定图形的默认颜色顺序Cell|nocell Cell|nocell 进行或不进行单元调整进行或不进行单元调整Cpattern=Cpattern=颜色颜色 规定规定patternpattern语句的默认颜色值语句的默认颜色值CSYMBOL=CSYMBOL=颜色颜色 规定规定symbolsymbol语句的默认颜色值语句的默认颜色值Ctext=Ctext=颜颜色色 ftext=ftext=字字形形 htext=htext=高高度度 规规定定文文本本颜色、字形和高度颜色、字形

10、和高度Ctitle=Ctitle=颜颜色色 ftitle=ftitle=字字形形 htitle=htitle=高高度度 规规定定所所有有titletitle和和footnotefootnote的默认颜色、字形和高度的默认颜色、字形和高度语法格式PROC GCHART DATA=;/;RUN;gchart可以绘制方块图、条形图、饼图、环形图等,不同的图形关键字表示绘制不同图形。变量名:指定需要绘制图形的分析变量。选项列表:根据不同的图形关键字有不同的选项。常用的选项有:type=统计量关键字,常用的统计量关键字有Freq(频数)、mean(均值)、sum(总和)、percent(频数百分比),默

11、认为频数。group=变量:指定分组变量。subgroup=变量:按分组变量的值分段。midpoints=值列表:指定条形图每个矩形中点。levels=值:指定条形图中矩形的个数。patternid=midpoint|group|subgroup,规定连续性图形的图案按数字列表中的中心点值|并排分组值|重叠分组值的次序呈现gchart过程可以使用的图形关键字及其图形类型图形关键字图形关键字图形类型图形类型图形关键字图形关键字图形类型图形类型block方块图pie饼图hbar水平条形图pie3d三维饼图hbar3d三维水平条形图donut环形图vbar垂直条形图star星型图vbar3d三维垂直

12、条形图【例3-27】根据表3-1学生体检数据,以身高为分析变量绘制频数条形图。proc gchart data=mylib.class;vbar height;run;在绘制条形图时,亦可自定义每个矩形块的中点值。例如:proc gchart data=mylib.class;vbar height/midpoints=50 55 60 65 70;run;【例3-28】根据表3-1学生体检数据,按性别分组,绘制身高的频数条形图。proc gchart data=mylib.class;vbar height/group=sex; run;也可以使用subgroup选项设置分组。proc gc

13、hart data=mylib.class;vbar height/subgroup=sex;run;【例3-29】根据表3-1学生体检数据,以绘制身高的频数百分比饼图。proc gchart data=mylib.class;pie height/type=percent;run;【例3-30】根据表3-1学生体检数据,按性别分组,绘制体重的频数方块图。proc gchart data=mylib.class;block weight/group=sex;run;【例例】下下表表为为两两个个不不同同地地区区居居民民家家庭庭收收入入和和支支出出情情况况的的抽抽样样调调查查(单单位位:元元),试

14、试绘绘制制收收入入情情况况的的频频数数条条形形图图。数数据据集集Mylib.sryzcMylib.sryzc中中,4 4个个变变量量名名分分别别为为:IDID、R_IDR_ID、IncomeIncome和和OutgoOutgo,相相应应的的标标签签名名为为家家庭庭编编号号、地地区区编编号、家庭总收入和家庭总支出。号、家庭总收入和家庭总支出。家庭编号家庭编号地区编号地区编号家庭总收入家庭总收入家庭总支出家庭总支出家庭编号家庭编号地区编号地区编号家庭总收入家庭总收入家庭总支出家庭总支出1 12 2179417941550155016162 222002200206020602 22 2171617

15、161365136517171 127302730223622363 31 1341034102730273018181 124962496145514554 42 2176517651530153019191 117601760104010405 52 2218421841900190020201 128202820236623666 62 2205020502050205021212 222502250196619667 72 2246024602184218422221 131703170240024008 81 1197619761170117023232 21200120012501

16、2509 91 1285028502496249624242 2177617761350135010101 1427542752760276025252 2198019801794179411112 2201020101275127526261 1245524552550255012121 1223622361810181027272 2108010801380138013131 1330533052820282028282 2198619861200120014141 1240024001976197629291 1336933692305230515152 2225022501970197

17、030302 21530153013161316goptions colors=(red green blue pink orange goptions colors=(red green blue pink orange brown);brown);proc gchart data=mylib.sryzc;proc gchart data=mylib.sryzc;vbar income/vbar income/patternid=midpointpatternid=midpoint; ;run;run;proc gchart data=mylib.sryzc;proc gchart data

18、=mylib.sryzc;vbar income/group=r_id vbar income/group=r_id patternid=grouppatternid=group; ;run;run;效果有何效果有何不同?不同?运行结果运行结果语法格式PROC GPLOT DATA=;PLOT *=/;SYMBOL ;RUN;gplot过程可绘制散点图和连线图等包含两个变量的图形。每个点对应一个观测,由横坐标和纵坐标定位,构成一幅平面散点图或连线图。主要表示:一个变量随另一个变量的变化;变量之间的关系;数据值的分布。PLOT选项1用来设置图形的整体特性,例如坐标轴的值、颜色,外框颜色、填充色等

19、选项选项含义含义说明说明FRAME|NOFRAMEFRAME|NOFRAME图形加/不加边框默认为加边框CFRAME=CFRAME= 图形背景色默认为白色AUTOHREF(AUTOVREF)AUTOHREF(AUTOVREF)在水平(垂直)轴的每个主刻度处加入垂直(水平)参考线NOAXISNOAXIS取消坐标轴及相关的图形元素CAXIS=CAXIS= 设置坐标轴颜色CTEXT=CTEXT= 设置与轴相关的文字颜色HAXIS=HAXIS= 设置水平轴主刻度值VAXIS=VAXIS= 设置垂直轴主刻度值OVERLAYOVERLAY多个图形绘在一张图中LEGENDLEGEND显示图例SYMBOL语句

20、选项2点或连线的相关参数选项选项含义含义取值取值V=V= 设置点使用的符号plus,x,star,square,diamond,triangle,hash,paw,point,dot,circleCV=CV= 设置点的颜色black,red,green,blue,cyan,magenta,gray,pink,orange,brown,yellowH=H= 设置点的大小单位取值:cell,cm,pct,pt,inPOINTLABELPOINTLABEL在点附近标明Y轴值I=I= 设置连线方式none,join,spline,needleCI=CI= 设置连线颜色C=C= 设置点和线的颜色L=L=

21、n为线的序号0-无连线,1-实线,2-虚线W=W=n表示线宽度由于symbol语句为全局语句,即如果未设置symbol选项,将以最后一次设置的选项作为本次的参数。若要恢复初始设置,可执行以下语句:goptions reset=symbol;【例3-31】根据表3-1学生体检数据,以身高为横轴,体重为纵轴绘制散点图。proc gplot data=mylib.class;plot weight*height;run;【例3-32】根据表3-1学生体检数据,按性别分组绘制体重随身高变化的散点图。proc gplot data=mylib.class;plot weight*height=sex;s

22、ymbol1 cv=black v=x;symbol2 cv=blue v=dot;run;【例3-33】根据表3-1学生体检数据,以年龄为横轴,以身高和体重为纵轴,在一张图中绘制散点图。proc gplot data=mylib.class;plot (weight height)*age/overlay legend;symbol1 cv=black v=x;symbol2 cv=blue v=plus;run;【例3-34】根据表3-1学生体检数据,以身高为横轴,体重为纵轴绘制连线图。在绘制连线图时,为避免图形混乱,最好先按横轴变量升序排序。proc sort data=mylib.cl

23、ass;by height;proc gplot data=mylib.class;plot weight*height;symbol v=dot i=join;run;【例3-35】根据表3-1学生体检数据,以年龄为横轴,以身高和体重为纵轴,在一幅图中绘制两个纵轴各异的连线图。proc sort data=mylib.class;by age;proc gplot data=mylib.class;plot weight*age=1/overlay legend;plot2 height*age=2/overlay legend;symbol1 cv=black v=x i=join;symbol2 cv=blue v=dot i=join;run;描述性统计量一般分为表示位置的统计量、表示分散程度的统计量、表示分布形状的统计量,本章介绍了用Insight、分析家以及means、univariate、freq等过程以及相应的函数计算各种描述性统计量。各种统计图形也是描述数据统计规律的常用方法,本章介绍了应用Insight、分析家以及gchart、gplot等过程绘制各种统计图形的方法。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号