R软件在生物学分析中的应用--百替生物

上传人:宝路 文档编号:53078753 上传时间:2018-08-28 格式:PPT 页数:39 大小:2.35MB
返回 下载 相关 举报
R软件在生物学分析中的应用--百替生物_第1页
第1页 / 共39页
R软件在生物学分析中的应用--百替生物_第2页
第2页 / 共39页
R软件在生物学分析中的应用--百替生物_第3页
第3页 / 共39页
R软件在生物学分析中的应用--百替生物_第4页
第4页 / 共39页
R软件在生物学分析中的应用--百替生物_第5页
第5页 / 共39页
点击查看更多>>
资源描述

《R软件在生物学分析中的应用--百替生物》由会员分享,可在线阅读,更多相关《R软件在生物学分析中的应用--百替生物(39页珍藏版)》请在金锄头文库上搜索。

1、Genomic responses in mouse models greatly mimic human inflammatory diseases,Genomic responses in mouse models poorly mimic human inflammatory diseases,vivian,R语言在生物学中的应用,与起源于贝尔实验室的S语言类似,R也是一种为统计计算和绘图而生的语言和环境。,相比于Excel,SPSS,Minitab,SAS,Stata,R有其独特的优势:完全免费几乎任何类型的数据分析都能在R中得到解决拥有顶尖水准的绘图功能进行交互数据分析和探索的强大平

2、台可使用一种简单而直接的方法编写新的统计方法,R简介,典型的数据分析步骤,1.最新的方法进行数据分析 2.有意义有吸引力的图形化方式展示结果,当代研究需要:,正是一个适合完成以上目标的理想而又功能全面软件,第一大功能 绘图,散点图添加了最佳拟合线性直线和平滑曲线,各子集通过不同颜色和不同符号加以区分,并同时绘制线性拟合和平滑拟合曲线,散点图,利用代码将变量重新排序,相关性最高离主对角线越近,红色表明相关性大,简单相关关系图,散点图矩阵,添加了垂直线和阴影,利用多元回归方程,添加了一个平面预测值,3D散点图,相关图:通过相关系数矩阵图,可以回答被考察变量与其他变量间相关性强弱,相关变量是否以某种

3、特定的方式聚集在一起等问题。,矩阵的行和列通过主成分分析法进行了排序,斜杠指向表明正负相关,颜色深浅表示相关性大小,相关关系图,按船舱等级、乘客性别和年龄层绘制的泰坦尼克号幸存者的马赛克图,马赛克图,第二大功能 数据分析,计算描述性统计量,mmary() sapply() describe() stat.desc(),分组计算描述性统计量,aggregate() by() mmaryBy() describe.by() reshape包,独立性检验,chisq.test() fisher.test() mantelhaen.test(),计算相关系数,Pearson相关系数 Spearman相

4、关系数 Kendall相关系数 polychoric相关系数 polyserial相关系数 偏相关系数,非参数检验,wilcox.test() kruakal.test() friedman.test(),基本统计分析,简单线性回归 多项式回归 多元线性回归 交互项多元回归,正态性 独立性 线性 同方差性,选择最佳回归模型,anova() 赤池信息准则:AIC() 逐步回归:tepAIC() 全子集回归:regbsets(),k重交叉验证:crossval() 相对权重:relweights(),回归,离群点:outlierTest() 高杠杠值点:hat.plot 强影响点:cooks D,

5、模型比较,变量选择,OLS回归,回归诊断,异常观测值,深层次分析,单因素方差分析 单因素协方差分析 双因素方差分析 重复测量方差分析 多元方差分析 用回归来做ANOVA,方差分析,1. “我的研究到底需要多少个受试者呢?” 2. “对于我的研究,现有x个受试者,这样的研究值得做吗?”,给定置信度的情况下,可以: 1. 判断检测到给定效应值时所需的样本量。 2. 计算某样本内能检测到给定效应值的概率。,功效分析,Question,Answer,功效分析,数据来自未知分布, 存在严重的离群点, 样本量过小, 没有参数可以回答你所感兴趣的问题时,置换检验法与自助法无疑是非常实用的。,重抽样与自助法,

6、Logistic回归二值型结果变量,泊松回归计数型结果变量,广义线性模型,对于处理潜变量的统计模型,即处理那些你坚信存在并能解释可观测变了的无法被观测到的、理论上的变量。在R中,可以利用因子分析法检测和检验这些无法被观测到的变量的假设。,主成分和因子分析,用R进行基因芯片数据分析处理,举例,基因芯片扫描图像,如果芯片图像有斑块现象就很可能是坏片,对灰度值做简单的统计分析,箱线图,Histogram图,MA-plot分析,IQR差别大的芯片可能有问题,但芯片能不能用得看具体情况(参考其他指标)而定,RNA降解分析,理想状况下各样品的线(分段)是平行的。从上面图上看芯片1可能有点问题,用simpl

7、eaffy包进行分析,平均背景值,如果太大则表示可能有问题,affy建议每个样品间的scale factor差异不能超过3倍,表达基因所占的比例,太小则表示有问题,第二步 芯片数据预处理,虽然说是背景处理,但是这一步既处理背景值,又处理噪声信号。芯片的背景处理理论上很简单,因为Affy公司设计MM的目的就是检测非特异杂交信号,但是研究发现居然有多达30%的MM探针获得的信号强度比相应PM探针的还强。R软件包affy用于芯片背景噪声消减的函数是bg.correct(),而MAS和RMA方法是最常用的两种方法。,背景处理,Affy芯片数据的预处理一般有三个步骤: 1. 背景处理(backgroun

8、d adjustment) 2. 归一化处理(normalization,或称为“标准化处理”) 3. 汇(mmarization) 最后一步获取表达水平数据。需要说明的是,每个步骤都有很多不同的处理方法(算法),选择不同的处理方法对最终结果有非常大的影响。选择哪种方法是仁者见仁智者见智,不同档次的杂志或编辑可能有不同的偏好。,归一化处理,同一个RNA样品用相同类型的几块芯片进行杂交,获得的结果都不可能完全相同,甚至差别很大。为了使不同芯片获得的结果具有可比性,必需进行归一化处理。这一步的方法也很多。,线性缩放方法 非线性缩放方法 分位数方法,其他,如Cyclic loess和 Contras

9、ts方法,背景校正,汇,常用的汇方法是medianpolish, liwong和mas,获取差异表达基因,计算基因表达量,运用exprs函数就可以从eset数据中提取出表达量,得到的数据类型是矩阵。但是应该注意rma的eset结果是经过对数变换的,而mas5的eset结果是原始信号强度。,计算均值,计算表达量差异倍数(1h,24h和7d与0h对比),筛选表达基因,获取差异表达基因,生物学数据分析时的“差异“应该有两个意思,一是统计学上的差异,另外一个是生物学上的差异。差异表达基因的选取一般设置至少两个阈值:基因表达变化量和统计显著性量度(p值、q值等)经常使用的筛选阈值是表达量变化超过2倍,即|log2(fc)|=log2(2),简单t检验,Wilcoxons signed-rank test 中的parison,Moderated T statistic,拟南芥基因数据库中, 有PATH注释的probesets只有3018个, 而有GO注释的有2万多个,GO 和 KEGG分析,计算距离,聚类分析,聚类,Heatmap图,改变排序,结语,R是一个庞大、健壮而且在不断进化的统计平台和编程语言。对于生物信息学分析无疑是一款强大的软件,要是能掌握它,相信大部分数据对于你来说,都是“小菜一碟”了!,THANK YOU,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号