R语言在生物科学研究绘图中的应用

上传人:杨*** 文档编号:319082261 上传时间:2022-06-28 格式:DOCX 页数:8 大小:33.57KB
返回 下载 相关 举报
R语言在生物科学研究绘图中的应用_第1页
第1页 / 共8页
R语言在生物科学研究绘图中的应用_第2页
第2页 / 共8页
R语言在生物科学研究绘图中的应用_第3页
第3页 / 共8页
R语言在生物科学研究绘图中的应用_第4页
第4页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《R语言在生物科学研究绘图中的应用》由会员分享,可在线阅读,更多相关《R语言在生物科学研究绘图中的应用(8页珍藏版)》请在金锄头文库上搜索。

1、 R语言在生物科学研究绘图中的应用 蓝洋 何秀 朱诚勖 张玉娟Summary:R语言具有强大的数据分析处理和可视化绘图功能,可以在Window、Linux以及Mac系统上使用,并且根据其编写新代码或调整已有代码可轻松实现科研中数据呈现与图形绘制的要求.然而其代码学习较为艰难、R-package使用复杂,所以未受到科研新手的青睐.基于生物科学相关领域的背景,整理汇集已出版的文献、公共数据库以及国家统计局中提供的数据,使用R语言、R編辑器RStudio并载入相关的R-package绘制出地图、热图、关联网络图、韦恩图和柱形图等高质量的图片,并提供相应的脚本与说明,以方便生物科研人员直接更改使用.本

2、研究对生物科研中合理、直观地表述研究结果提供了良好的范例,并进行了详细讨论,且与其他绘图软件作了比较,以期R语言能够成为生物科学领域科研工作者入门学习、研究应用中绘制图片的首选工具.Key:地图;热图;关联网络图;韦恩图;柱形图;R语言:Q811.4 文献标志码:A DOI:10.3969/j.issn.1000-5641.2019.01.0140引言为了更加清晰且直观地反映生物科学研究中的结果,论文中通常会将数据合理量化处理后绘制成图像.R语言作为一种功能性编程语言兼具统计分析、数据处理和可视化绘图三大功能.R语言与其他数据处理、分析与绘图工具不同,其在具体操作时可以轻松地编写新代码或调整其

3、他用户的代码,适应特定的科研问题以实现用户的绘制要求,凸显图像绘制的科学性与新颖性.因此合理掌握并使用R语言在生物科学研究中进行绘图,不仅是论文中科学规律揭示的可视化保证,更可以促进生物科学研究中的学术交流.图形绘制一直是人类展示数据、解释规律的重要手段.随着近年来科学技术的迅猛发展,图形绘制软件被不断开发出来,例如软件OriginPro、SigmaPlot、Microsoft Excel和SPSS等均可绘制较为直观的矢量图.然而这些绘图软件大多被应用于柱形图、折线图和散点图等简单图像的绘制,在热图、地图等特异性、复杂性较高的图像绘制上显得捉襟见肘.自1992年Ross Ihaka和Rober

4、t Gentleman开发R语言以来.应用R语言绘图已经出现在农业、生态学、植物学、癌症研究、医疗、生理学和种群遗传等众多领域.在实际的R语言学习应用时,虽然已有部分系统介绍R语言绘图的书籍,如An Introduction toR、R(programming language)和An Overview of the R Language等,但内容繁杂、艰深,不能够快速专一地完成生物科学领域的绘图.另一方面,在R语言应用生物科学研究绘图的论文中,大多针对某一类图像,如箱形图、柱形图等;部分集中在某一研究方面,如藓类、橡胶林动态检测、差异表达基因检测和水文预测分析等,还没有系统地介绍R语言应用于

5、生物科技论文绘图方面的文章.R语言之所以功能强大是因为具有数量众多的外源R-package(R扩展包),截至2017年3月CRAN(comprehensive R ArchiveNetwork)包含R-package已超过10320个.不同功能的R-package有很多,即使是相同功能的R-package也需要不同的参数进行调用,这成为生物科学研究者绘制图片的困难之处.本研究为R语言在生物科学论文中的绘图提供了源代码,并对源代码进行了相应解释,以方便生物领域科技工作者直接更改使用.本论文对生物科研中合理、直观地表述数据结果展示了良好范例,具有一定的借鉴意义.1材料与方法1.1 R软件的准备R语

6、言安装程序包是从https:/www.r-project.org/下载得到的,版本为R64 3.0.1(R版本需要与R-package相匹配以方便操作).RStudio安装程序包是从https:/1.2设置和查看路径设置路径使R可以方便导入数据文件,同时R语言绘制形成的图像也会保存在此文件夹下,因此设置的路径要指向数据所在文件夹.设置路径和查看当前路径的代码如下.2结果2.1地图绘制应用农业生态环境地图是依据一定法则制图并体现在载体上,并借以反映区域内的自然要素和社会经济现象的普通特征的图像.因地图具有统一的数学基础;按国家统一测量和编绘规定完成;几何精度高且内容详细这三大特征,从而通常将其用

7、于描述研究对象在地理位置的分布状况、时间或条件引起的在不同地区的改变等问题.在生物科学研究中的生态方面,常常需要反映某一地区和作物相关宏观生态状况,如某一地区的蔬菜种植面积、果树分布状况、外来入侵植物分布状况、农业害虫分布情况、灾情分布及改善状况和麦区冬春气象干旱趋势_40_等问题.本研究则以近10年西瓜单位面积平均产量的数据为基础,绘制出反映西瓜在各省份的平均产量地图.数据来自国家统计局.需要注意的是,绘制地图时除了绘图数据,还要下载一个地图的shp文件并将文件放在绘图路径文件夹下.2.2热图绘制应用遗传育种热图(heatmap)是通过使用颜色渐变来显示数据矩阵的图像,其可以直观的显示出矩阵

8、中数值的差异.热图适用于研究实验数据的质量控制和差异数据,还可以对数据和样品进行聚类,观测样品质量.目前生物科学研究中的遗传领域已经深入到分子水平,其大多基于基因组、转录组和蛋白质组等组学数据,绘制热图以初步体现不同样品中数据的关联性与差异性,从而便于下一步研究操作.基于基因组和蛋白质组数据,绘制热图分析其聚类的关联度与差异情况,可以找到显著性差异的基因或蛋白质;基于转录组的数据,用RNA_seq的数据绘制热图以分析表达量的情况,可以找到在某一时期或是某一条件下高表达、低表达或不表达的基因.本文绘图数据来自应激反应基因表达时间的自然变化预测拟南芥的种内杂种的杂种优势,将原始数据log10处理后

9、绘图.2.3关联图绘制应用植物保护关联图是把数据中各个对象根据一定的相关关系进行串联绘制出的图形.关联图可以清晰的反映个体与群体间,群体中个体和个体间存在的相关联系,其适用于研究含有复杂关系的对象,用以反映出各个对象之间的关系.在生物科学研究中,常常需要研究物质之间的关系或是物质与环境之间的关系,如某些基因和蛋白质与抗性相关、某些基因或蛋白质对疾病发生至关重要、某些环境与植物生长状况的关系等问题.在分析基因和蛋白质方面的数据时,会查看与该基因或蛋白质有关的基因或蛋白质,进而初步判断该蛋白质的功能等.热激蛋白质fHeat stressproteins,Hsp)是生物为了应对环境的突然变化,合成的

10、一种特定的蛋白质,可使生物有效应对外来胁迫.本文选用玉米(zea mays)的HSPl8基因,在STRING(http:/string-db.org)上查找玉米中与HSP18相互联系的蛋白质,并导出数据,绘制出与HSP18存在关系的蛋白质关联图.2.4韦恩图绘制应用资源昆虫韦恩图是以图形表示集合的重要方式,其通过表示各集合间的交集和并集情况,可以清晰地反映数据集间的关系,以体现其共性基数或个性基数的情况.在生物科学研究中,无论是通过宏观数据体现不同地区昆虫的种类分布特点,还是在微观视角下通过宏基因组研究人类的肠道微生物,抑或基于转录组水平分析家畜在不同处理下的生长繁殖情况,这些均需要以韦恩图作

11、为可视化对象反映数据之间的交集等情况.如资源昆虫对不同环境的抗逆性不同,其表达的基因也有所差异.利用维恩图描述该种昆虫在不同时间或抗性环境中表达转录数据、差异表达的蛋白质数据信息,即可筛选出重要功能的基因或蛋白质.本文以黑腹果蝇幼虫的低温存活和贮存的生理基础的数据为基础绘制韦恩图.2.5柱形图的绘制应用加工保鲜柱形图是通过柱子的高低直接反映不同样品数据差异的图形,其在科研中是最为常见、直观反映数据的一类重要图像.在生物科学研究中,常常用柱形图来反映不同食品处理方式对食品感官、营养和生化指标等方面的差异状况.在食品加工与保鲜方面,常会探究不同包装方式和贮藏温度对食品中基本指标造成的变化,如自由基

12、含量、pH值、酸价和亚硝酸盐等生化指标,形成的微生物数量和种类变化等生物指标.DPPH(2,2-二苯基-1-苦肼基自由基)是一种很稳定的以氮为中心的自由基,可以测定抗氧化物质含量高低47-48,在食品的加工、保鲜方面有广泛的应用.本文绘制累积直方图的数据来自苏木fCaesalpinia sappan L.)提取物对冷藏期间猪肉肠的理化性质的影响.提供两种堆积图形,一种传统的堆积柱形图(见图5(a),清晰明了地反映数据情况;一种“玫瑰花环”柱形图(见图5(b),更为新颖、美观地反映出数据情况,吸引读者阅读.3讨论生物统计分析、绘图软件众多,难以选择.虽然有些软件在某些方面较为出众,但不够广泛,科

13、研工作者难以花费大量精力学习大量软件.这就需要一款有强大技术支撑的开源软件,可以普遍地适用于各类数据,绘制出高质量的图片.在眾多统计绘图软件之中,R已经成为了绘图软件的首选,其使用面广,更可适用于生物科研领域的各类数据绘制图像.3.1R语言绘图的功能实现由上文使用R语言实现生物科研绘图的过程来看,其清楚、便捷,能够明确说明相关问题并实现功能.通过其实现的地图绘制既是对生物科研基础数据的准确、直观描述,又能够通过整体与部分的情况充分展示统一性与差异性,以方便生物科研人员与统计决策者更好地进行分析研究、制定政策.而绘制的热图既可以通过数据聚类找到数据之间的相关性,而且可以通过对差异性的清晰反映,以

14、方便生物科研工作者迅速筛出重要基因进行进一步研究.关联图的绘制既可以反映了复杂的网络关系,又展现了该网络关系中各组分之间的重要程度,方便生物科研人员更好地分析数据,做出正确判断.此外,维恩图绘制方便了资源昆虫中重要靶标基因的筛选,以完成基础生物学研究.R实现的柱形图绘制更是可以将食品的各类指标综合处理,清晰展示.因而探究发现,R语言可以贴合生物科研的数据有效实现其绘图功能.3.2科研绘图软件比较现代生物科研论文绘图软件主要有Excel、SPSS、OriginPro、SigmaPlot、Python等.Excel可谓是最常见的统计绘图软件,其优势就是操作简单、使用方便,并且科研工作者对Excel

15、非常熟悉.但是Excel绘图实现的图形类型十分有限,无法绘制复杂图形,且图片的灵活性很低,仅可对颜色等进行略微调整,无法任意的改变.SPSS作为一款统计软件,其统计功能非常强大,但是用于绘图不尽人意.与Excel一样,SPSS操作简单,但出图速度缓慢,图片不够清晰、美观.而R出图速度快,回车之后立即见图,图片的美观程度是绘图者决定的,图片质量高,可以输出tiff、png、jpeg和pdf等8种图片格式.SigmaPlot与OriginPro相似,二者均是为友好的用户界面,可以轻松地从Excel中提取数据,操作简单且绘图功能强大.但是,两者均为付费软件,需要支付昂贵的使用费.Python和R一样

16、也是一门编程语言,但是Python与R最大的区别在于Python的数据统计分析是通过第三方package来实现的,且Python是并不是专化的数据统计与绘图分析的语言,因此在数据处理、统计分析、绘图方面略逊一筹.R的统计函数包罗万象,无论是经典还是前沿的方法,都可以直接使用相应的package调用,相比Python在这方面贫乏不少.综上所述,R应当成为生物科研中的首选.3.3 R绘图的优缺点R语言为开源性软件,其开源有两层意义:首先R可以免费获得,其在所有硬件和操作系统上安装均没有限制,适合各个领域各种专业背景的人使用;其次,任何人均可自由检查或修改源代码,以匹配各行各业的数据处理与图像绘制需求.以上两点致使R语言在科研工作的使用率已经越来越高,并逐渐成为科研人员必备技能之一.R为编程语言,其统计绘图的灵活性也体现在此

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号