R_数据处理、绘图、编程与统计检验解读课件

上传人:我*** 文档编号:145150039 上传时间:2020-09-17 格式:PPT 页数:88 大小:985KB
返回 下载 相关 举报
R_数据处理、绘图、编程与统计检验解读课件_第1页
第1页 / 共88页
R_数据处理、绘图、编程与统计检验解读课件_第2页
第2页 / 共88页
R_数据处理、绘图、编程与统计检验解读课件_第3页
第3页 / 共88页
R_数据处理、绘图、编程与统计检验解读课件_第4页
第4页 / 共88页
R_数据处理、绘图、编程与统计检验解读课件_第5页
第5页 / 共88页
点击查看更多>>
资源描述

《R_数据处理、绘图、编程与统计检验解读课件》由会员分享,可在线阅读,更多相关《R_数据处理、绘图、编程与统计检验解读课件(88页珍藏版)》请在金锄头文库上搜索。

1、1,语言介绍,数据处理、绘图、编程与统计检验,2,什么是R ?,The R Project for Statistical Computing R是一种统计绘图语言,也指实现该语言的软件,1995年由新西兰Auckland大学统计系的Robert Gentleman和Ross Ihaka,基于S语言的源代码,编写了一能执行S语言的软件,并将该软件的源代码全部公开,这就是R软件,其命令统称为R语言 从S统计绘图语言演变而来,可看作S的“方言”,!免费、软件本身及程序包的源代码公开。,3,R登陆界面(Windows版) 路径: 开始所有程序R 2.11.0,菜单栏,快捷按钮,控制台,光标:等待输入

2、,4,R程序包(R Packages),程序包是什么? R程序包是多个函数的集合,具有详细的说明和示例。 Window下的R程序包是经过编译的zip包。 每个程序包包含R函数、数据、帮助文件、描述文件等。 为什么要安装程序包? R程序包是R功能扩展,特定的分析功能,需要用相应的程序包实现。 例如:系统发育分析,常用到ape程序包,群落生态学vegan包等。,5,常用R程序包(I),6,常用R程序包(II),7,安装程序包的方法,1 用函数 install.packages(), 如果已经连接到互联网,在括号中输入要安装的程序包名称,选择镜像后,程序将自动下载并安装程序包。 例如: 要安装pic

3、ante包,在控制台中输入 install.packages(picante) 2 安装本地zip包 路径:Packagesinstall packages from local files 选择本地磁盘上存储zip包的文件夹。,8,程序包使用,程序包的中函数,都要先导入,再使用,因此导入程序包是第一步。 在控制台中输入如下命令: library(affy) 程序包内的函数的用法与R内置的基本函数用法一样。 library(affy),9,查看函数的帮助文件,函数的默认值是什么? 怎么使用? 使用时需要注意什么问题? 需要查询函数的帮助。 1 ?t.test 2 RGuiHelpHtml he

4、lp 3 apropos(t.test) 4 help(t.test) 5 help.search(t.test) 6 查看R包pdf手册,10,二 函数与对象,11,R的函数,R是一种解释性语言,输入后可直接给出结果。 功能靠函数实现。 函数形式: 函数(输入数据,参数= ) 如果没有指定,则参数的以默认值为准。 例如: 平均值 mean(x, trim = 0, na.rm = FALSE, .) 线性模型 lm(yx, data=test),12,R的函数,每一个函数执行特定的功能,后面紧跟括号,例如: 平均值 mean() 求和 sum() 绘图 plot() 排序 sort() 除了

5、基本的运算之外,R的函数又分为”高级”和”低级”函数,高级函数可调用低级函数,这里的”高级”函数习惯上称为泛型函数。 如plot()就是泛型函数,可以根据数据的类型,调用底层的函数,应用相应的方法绘制相应的图形。这就是面向对象编程的思想。,13,R有哪些函数?,查询的方法:HelpHtml helppackages log() log10() exp() sin() cos() tan() asin() acos(),binom.test() fisher.test() chisq.test() glm(y x1+x2+x3, binomial) friedman.test() mean()

6、sd() var() .,14,R函数调用及其选项,箱线图绘制函数的调用 boxplot(daytype, data=bac, col=red, xlab=Virus, ylab=days) daytype,以type为横轴,day为纵轴绘制箱线图。 data=bac 数据来源bac col=“red” 箱线图为红色 xlab=“Virus” 横轴名称为Virus ylab=“days” 纵轴名称为days,15,赋值与注释,在控制台中键入如下命令 2 + 2 a 代替 b - 2 c - a+b c #注释,赋值符号,16, 1 + 1 1 2 1 + 1 * 7 1 8 (1 + 1) *

7、 7 1 14, x x 1 1 y = 2 y 1 2 3 - z z 1 3 (x + y) * z 1 9,Math:,Variables:,17, x x 1 0 1 2 3 4 y y 1 1 2 3 4 5 z z 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 46 47 48 49 50,Arrays:,18,运算符,数学运算 运算后给出数值结果 +, -

8、, *, /, (幂) 比较运算 运算后给出判别结果(TRUE FALSE) , =, =, != 逻辑运算 与、或、非 !, axis(at=seq(0.2,1.8,0.2), side=2) 4.补齐散点图的边框 box() 5.添加标题、副标题、横轴说明、纵轴说明 title(main=Main title, sub=subtitle, xlab=x-label, ylab=y-label),44,图25 分步绘图,45,一页多图,图26 一页多图 par() par(mfrow=c(2,2) .,46,在原有图形上添加元素,举例: x - rnorm(100) # 生成随机数 hist

9、(x,freq=F) # 绘制直方图 curve(dnorm(x),add=T) # 添加曲线 h - hist(x, plot=F) # 绘制直方图 ylim - range(0, h$density, dnorm(0) #设定纵轴的取值范围 hist(x, freq=F, ylim=ylim) #绘制直方图 curve(dnorm(x),add=T,col=red) #添加曲线,47,图27 在原有直方图上添加曲线,48,五 编写函数,49,编程基础,R可以灵活的编写程序,用户自己编写的程序可以直接调用。编程时无需声明变量的类型,这与C,C+等语言不同。 基本格式 函数名 - functi

10、on(数据,参数1= 默认值,) 异常处理; 表达式(循环/判别); return(返回值); 函数内部也可用#添加注释,50,函数实例,图28 函数实例 data2mat(),51,程序流程控制 if,if(条件) 表达式 if(条件) 表达式1 else 表达式2 举例 p = 0.03 if(p 0.05!) ,52,循环 for, while,for(变量 in 向量) 表达式 用法: for(i in 1:10) print(i) while(条件) 表达式 用法: i - 1 while(i10) print(i) i - i + 1 ,53,返回值,返回值表示函数输出的结果。 返

11、回值必须是一个对象。 R默认将最后一行作为返回值。 如果函数的结果需要有多个返回值,可以创建一个list(),并返回该对象。 也可以用return()函数,设定返回值。 但是一个函数的返回的对象只有一个。,54,异常处理,如数据输入不能满足要求,或者参数设定错误等等,可能造成函数给出错误的结果,则需要对函数的运行过程发出警告或终止,以提高程序的稳健性。 警告的写法 if(any(is.na(inputdata) inputdata - na.omit(inputdata) cat(“NAs are found in the input data, and has been removed.n)

12、 终止的写法 if(any(is.na(xx) stop(NAs are not allowed!n),55,函数举例,问题:输入直角三角形的两个边长,求其斜边长。 定义函数: rcal - function(x,y) z - x2 + y2 result - sqrt(z) return(result) 调用函数: rcal(3,4),56,write.table() write.csv() save.image() sink() unlink() 若有LaTeX基础,可以用 Sweave() 函数 该函数能将脚本、程序说明和运算结果直接保存成.tex文件,用LaTeX编译成pdf文件。,六

13、数据保存,常用概率分布,重点回顾生物科学研究中常用的几种随机变量的概率分布正态分布、 二项分布、 波松分布,如果表示试验结果的变量x,其可能取值至多为可列个 ,且 以各种确定的概率取这些不同的值 , 则 称 x 为 离 散 型 随 机 变 量 ( discrete random variable); 如果表示试验结果的变量x ,其可能取值为某范围内的任何数值 ,且x在其取值范围内的任一区间中取值时,其概率是确定的,则称x为 连续 型 随 机 变 量 ( continuous random variable)。,59,要了解离散型随机变量x的统计规律,就必须 知 道它的一切可能值xi及取每种可能

14、值的概率pi。 如果我们将离散型随机变量x的一切可能取值xi ( i=1, 2 , ),及其对应的概率pi,记作 P(x=xi)=pi i=1,2, (43) 则称 (43)式为离散型随机变量x的概率分布或分布。常用 分 布 列 (distribution series)来表示离散型随机变量:,x1 x2 xn . p1 p2 pn 显然离散型随机变量的概率分布具有pi0和pi=1这两个基本性质。,60,连续型随机变量的概率分布 连续型随机变量 (如体长、体重、蛋重)的概率分布不能用分布列来表示, 因为其可能取的值是不可数的。我们改用随机变量x在某个区间内取值的概率P(axb)来表示。 下面通

15、过频率分布密度曲线予以说明。,若记概率分布密度函数为f(x),则x取值于区间a,b)的概率为图中阴影部分的面积,即 P(axb)=,式 为 连 续 型 随机变量 x 在 区间a,b)上取值概率的表达式。可见,连续型随机变量的概率由概率分布密度函数确定。,连续型随机变量概率分布的性质: 1、分布密度函数总是大于或等于0,即f(x)0; 2、当随机变量x取某一特定值时,其概率等于0;即 (c为任意实数) 因而,对于连续型随机变量,仅研究其在某一个区间内取值的概率,而不去讨论取某一个值的概率。,3、 在 一次试验中 随机变量x之取值 必在 -x+范围内,为一必然事件。所以 表示分布密度曲线下、横轴上

16、的全 部面积为1。,一、正态分布的定义及其特征 (一) 正态分布的定义 若连续型随机变量x的概率分布密度函数为 其中为平均数,2为方差,则称随机变量x服从正态分布(normal distribution), 记为xN(,2)。相应的概率分布函数为,(二) 正态分布的特征 1、正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为x=; 2、f(x) 在 x = 处达 到 极 大 , 极大值 ; 3、f(x)是非负函数,以x轴为渐近线,分布从-至+;,4、曲线在x=处各有一个拐点,即曲线在(-,-)和(+,+) 区间上是下凸的,在-,+区间内是上凸的; 5、正态分布有两个参数,即平均数和标准差。 是位置参数,当恒定时,愈大,则曲线沿x轴愈向右移动;反之,愈小,曲线沿x轴愈向左移动。 是变异度参数, 当恒定时,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号