第五讲数据描述性分析与绘图知识分享

上传人:youn****329 文档编号:136954711 上传时间:2020-07-04 格式:PPT 页数:56 大小:1.30MB
返回 下载 相关 举报
第五讲数据描述性分析与绘图知识分享_第1页
第1页 / 共56页
第五讲数据描述性分析与绘图知识分享_第2页
第2页 / 共56页
第五讲数据描述性分析与绘图知识分享_第3页
第3页 / 共56页
第五讲数据描述性分析与绘图知识分享_第4页
第4页 / 共56页
第五讲数据描述性分析与绘图知识分享_第5页
第5页 / 共56页
点击查看更多>>
资源描述

《第五讲数据描述性分析与绘图知识分享》由会员分享,可在线阅读,更多相关《第五讲数据描述性分析与绘图知识分享(56页珍藏版)》请在金锄头文库上搜索。

1、统计描述与绘图,1、统计描述2、绘图方法3、实验练习,授课内容,授课目的,学习如何应用R软件的统计描述与绘图,R的统计分析分为统计描述和统计推断两部分。统计描述是通过绘制统计图形、编制统计表、计算统计量等方法来表述数据的分布特征。描述统计量包括了均值、中位数、次序统计量、百分数、方差、标准差、变异系数、极差、偏度系数等,是数据的位置度量、分散程度和分布形状的体现。还包括分布函数、直方图、经验分布图、QQ图、茎叶图、箱线图等等。,均值(mean)的基本用法是mean(x,trim=0,na.rm=FALSE);其中x是要计算均值的那个量,trim是计算均值前,去掉x两端观测值的比例,na.rm如

2、果是TRUE,则表示删除NA再计算均值,允许缺失数据。xxmean(x)16.5,若要分别求矩阵的行和列,则要用apply()函数apply(x,1,mean)15.56.57.5apply(x,2,mean)125811若x是个dateframe,则返回的是各列的平均值mean(as.data.frame(x)V1V2V3V425811因此多元数据的输入采用数据框的形式,会便于后期数据的处理,若要计算数据的加权平均,可以用weighted.mean()函数,其基本格式为:weighted.mean(x,w,na.rm=FALSE)其中w是数据x的权重系数,其维数与x相同,基本用法与mean(

3、)相同,唯一有区别的地方是:weighted.mean()不适用于数据框,它作用在数据框的时候,和作用于矩阵的时候,结果是一样的,返回全部数据的加权平均,百分数,将数据按从小到大的顺序排列后,取p分位数,若np是整数,则取第np和第np加一个数的平均;若np不是整数,取第np+1那个数。计算百分数要用到的函数是quantile(),基本格式为:quantile(x,probs=seq(0,1,0.25),na.rm=FALSE,names=TRUE,type=7,)probs给出相应的百分位数,默认值是0,0.25,0.5,0.75,1;na.rm是处理缺失数据的,na.rm=TRUE时,NA

4、和NaN将从数据中移走,向量取值中若有NA或NaN,要添加这一参数,否则会出错;names若为TRUE,返回值当中有names这个属性;type是取值1-9的整数,选择了九种分位数算法(具体算法见帮助文件)中的一种。,w.quantileattributes(w.quantile)$names10%25%50%75%100%quantile(w,probs=seq(0,1,0.2)0%20%40%60%80%100%47.456.9862.2064.0067.3275.00,数据的分布,数据的分布主要考察分布函数(p),密度函数(d),分位数函数(q)及产生随机数(r).以正态分布为例:dat

5、adnorm(data,mean=0,sd=1,log=F);pnorm(data,mean=0,sd=1,lower.tail=T,log.p=F);pqnorm(p,mean=0,sd=1,lower.tail=T,log.p=F);11.9599641.644854#0.05/2,0.1/2分位数,直方图、经验分布图与QQ图,cl-read.table(chapter4-cl.txt,header=T);用hist()函数可以绘制直方图。hist的一般用法为:hist(x,breaks=Sturges,freq=NULL,probability=!freq,)break规定了直方图的组距

6、(必须覆盖数据的范围);freq是逻辑变量,TRUE是频率直方图,FALSE是密度直方图;probability和freq相反,TRUE是密度直方图,FALSE是频率直方图。其他参数详见帮助文档。,hist(cl$Weight),用density()函数可以绘制与直方图配套的核密度估计。density的一般用法为:density(x,bw=nrd0,adjust=1,kernel=c(gaussian,),)bw是带宽,默认值R画出光滑图形;kernel是核函数;adjust表示实际带宽是adjust*bw。其他参数详见帮助文档。whist(w,freq=F);w.density-densit

7、y(w);w.densityCall:density.default(x=w)Data:w(15obs.);Bandwidthbw=3.478xyMin.:36.97Min.:9.044e-051stQu.:49.081stQu.:4.402e-03Median:61.20Median:1.603e-02Mean:61.20Mean:2.061e-023rdQu.:73.323rdQu.:3.409e-02Max.:85.43Max.:5.518e-02,lines(w.density,col=blue);xlines(x,dnorm(x,mean(w),sd(w),col=red);,经验分

8、布函数ecdf()可以估计总体的分布函数,一般用法为:ecdf(x)若要在R中画出经验分布函数,则用plot函数:plot(ecdf(x),ylab=Fn(x),verticals=FALSE,col.01line=gray70)verticals是逻辑变量,TRUE时表示画竖线,否则不画竖线;col.01line是0-1线的颜色。plot(ecdf(w),verticals=T,do.p=F);xlines(x,pnorm(x,mean(w),sd(w),不画左连续点,QQ图是用来鉴别样本的分布是否近似于某种类型的分布qqnorm()和qqline()提供了画正态QQ图和相应直线的方法qqn

9、orm(y,ylim,xlab=,ylab=,plot.it=TRUE,datax=FALSE)plot.it是逻辑变量,TRUE时将结果画出来;datax是将样本数据放x轴,默认值是FALSE。qqplot(x,y,plot.it=TRUE);比较x和y的分布接近程度,qqnorm(w);qqline(w,col=red),茎叶图、箱线图,茎叶图stem()可以细致地看出数据分布的结构。stem()的一般用法为:stem(x,scale=1,width=80)scale控制了茎叶图的长度,默认值是1,如果scale=2,则表示将0-9这10个个位数分成两段,04为一段,59为一段;width

10、是绘图的宽度。,xstem(x);Thedecimalpointis1digit(s)totherightofthe|2|53|4|55|0456|1487|255898|1344456679999|011210|0,stem(x,scale=2)Thedecimalpointis1digit(s)totherightofthe|2|53|3|4|4|55|045|56|146|87|27|55898|134448|56679999|01129|10|0,stem(x,scale=0.5);#scale也可以是小数,等于0.5时,表示将0-9这10个个位数分成1/2段,即20个数为一段Thed

11、ecimalpointis1digit(s)totherightofthe|2|54|50456|148255898|134445667999011210|0,箱线图boxplot()直观地展现数据分布的主要特征。boxplot()有三种基本的用法:boxplot(x,)boxplot(x,range=1.5,width,varwidth,notch=FALSE,outline=TRUE,horizontal=FALSE,add=FALSE,at=NULL)boxplot(formula,data,subset,na.action=NULL);x是数据构成的数值型向量;range控制了“触须”

12、的范围(默认值1.5);notch=TRUE时,箱线图带有切口(切口表示中位数的近似95%置信区间);outline是逻辑变量,TRUE时标出异常点;horizontal是逻辑变量,TRUE表示把箱线图绘制成水平状(默认值为FALSE);add是逻辑变量,TRUE时表示在原图上画图,否则替换一张图(默认值为FALSE)。若用最后一种形式,fomular是公式;data给出了公式作用的对象;subset是可选参数,可以给定要绘制的数据子集;na.action表示对NA数据作出处理,默认值为NULL,即忽略NA数据。,ABboxplot(A,B,names=c(A,B),col=c(red,blu

13、e);boxplot(A,B,notch=T,outline=T,names=c(A,B),col=c(3,5);,InsectSprays;boxplot(countspray,data=InsectSprays,col=lightgray)boxplot(countspray,data=InsectSprays,notch=T,col=2:7,add=T),boxplot(decreasetreatment,data=OrchardSprays,log=y,col=bisque);,R中的绘图命令高级图形函数,R的图形函数分为两类:高级图形函数直接绘制图形并可自动生成坐标轴等附属图形元素;

14、低级图形函数可以修改已有的图形或者为绘图规定一些选择项。高级图形函数总是开始一个新图。下面我们介绍常用的高级图形函数,以及用来修饰这些高级图形函数的常用可选参数。,最常用的是plot()函数。比如,plot(x,y)(其中x,y是向量)对两个变量画散点图。用plot(z)(其中z是一个定义了x变量和y变量的列表,或者一个两列的矩阵)也可以达到同样目的。如果x是一个时间序列对象(时间序列对象用ts()函数生成),plot(x)绘制时间序列曲线图。如果x是一个普通向量,则绘制x的值对其下标的散点图。如果x是复数向量则绘制虚部对实部的散点图。如果f是一个因子,则plot(f)绘制f的条形图(每个因子

15、水平的个数)。如果f是因子,y是同长度的数值向量,则plot(f,y)对f的每一因子水平绘制y中相应数值的盒形图。如果d是一个数据框,则plot(d)对d的每两个变量之间作图(散点图等)。,如果X是一个数值型矩阵或数据框,用pairs(X)可以绘制每两列之间的散点图矩阵。这在变量个数不太多时可以同时看到多个变量的两两关系,变量太多时则图示过小而看不清。协同图(coplot)是一种多变量的探索性分析图形。其形式为coplot(yx|z),其中x和y是数值型向量,z是同长度的因子。对z的每一水平,绘制相应组的x和y的散点图。,pairs(cl),coplot(WeightHeight|Sex),高

16、级图形函数的常用选项,高级图形函数有一些共同的选项,作为函数的可选参数(自变量)。例如:plot(x)plot(x,main=Graphofx)其中的main就是一个可选参数,用来指定图形的标题。没有此选项时图形就没有标题。这样的选项还有,低级图形函数,高级图形函数可以迅速简便地绘制常见类型的图形,但是,某些情况下你可能希望绘制一些有特殊要求的图形。比如,你希望坐标轴按照自己的设计绘制,在已有的图上增加另一组数据,在图中加入一行文本注释,绘出多个曲线代表的数据的标签,等等。低级图形函数让你在已有的图的基础上进行添加。低级图形函数一般需要指定位置信息,其中的坐标指的是所谓用户坐标,即前面的高级图形函数所建立的坐标系中的坐标。坐标可以用两个向量x和y给出,也可以由一个两列的矩阵给出。如果交互作图可以用下面介绍的locator()函数来交互地从图形中直接输入坐标位置。常用的低级图形函数罗列如下:,图形参数详解,鉴于绘制有特殊需要的图形是R的一个强项,而使用图形参数是完成此类任务的重要手段,我们在这里较详细地介绍R的各种图形参数。这些图形参数可以大体上分为以下的几个大类

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号