人类微生物组研究设计、样本采集和生物信息分析指南.docx

上传人:大米 文档编号:507493143 上传时间:2023-10-31 格式:DOCX 页数:19 大小:171.48KB
返回 下载 相关 举报
人类微生物组研究设计、样本采集和生物信息分析指南.docx_第1页
第1页 / 共19页
人类微生物组研究设计、样本采集和生物信息分析指南.docx_第2页
第2页 / 共19页
人类微生物组研究设计、样本采集和生物信息分析指南.docx_第3页
第3页 / 共19页
人类微生物组研究设计、样本采集和生物信息分析指南.docx_第4页
第4页 / 共19页
人类微生物组研究设计、样本采集和生物信息分析指南.docx_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《人类微生物组研究设计、样本采集和生物信息分析指南.docx》由会员分享,可在线阅读,更多相关《人类微生物组研究设计、样本采集和生物信息分析指南.docx(19页珍藏版)》请在金锄头文库上搜索。

1、人类微生物组研究设计、样本采集和生物信息分析指南钱旭波 陈同2,徐益萍 陈雷七孙馥香七卢美萍I刘永鑫5,61. 浙江大学医学院附属儿童医院风湿、免疫和变态反应科2. 中国中医科学院中药资源中心3. 首都医科大学附属复兴医院4. 易汉博基因科技(北京)有限公司5. 中国科学院遗传与发育生物学研究所6. 中国科学院大学,生物互作卓越创新中心钱旭波和陈同为共同第一作者通讯作者:卢美萍,浙江大学医学院附属儿童医院风湿、免疫和变态反应科,中国浙江杭 州竹竿巷57号,邮编:310003,邮箱:A guide to human microbiome research: study design, sampl

2、e collection, and bioinformatics analysisChinese Medical Journal IF: 1.585DOI:相异性或距离度量:Bray-Curtis相异性、Jaccard距离以及加权和未加权UniFrac距 离29。如果PERMANOVA检验的P值小于0.05,则表明不同组间的B多样性差异 具有统计学意义;该检验的另一个输出结果是R2,它表示总方差可以用分组因素来 解释的比例。5.3 Mantel 检验Mantel检验通常用于分析元数据矩阵和微生物组矩阵之间的关联刀】,它可使用 R包vegan中的mantel()函数实现毕,771。该检验的输出至

3、少2个主要统计量:P值 和r。与其他类型的相关系数类似,r的值范围是-1+1仔9。例如,假设研究人员想 知道元数据种的分组因素(例如吸烟状态)是否对肠道微生物组的组成产生影响。 如果PV0.05并且r0,这表明吸烟组和不吸烟组之间肠道微生物组的组成不同, 元数据矩阵和微生物组矩阵呈正相关。6. 生物信息分析6.1扩增子数据分析:从原始数据到物种分类表有几种流行的软件或分析流程(pipeline)可用于扩增子数据分析,例如QIIME 213、USEARCH78、VSEARCH79和mothur8。前两者具有许多优点,并已被许多 研究者使用和推荐。每种软件或分析流程的优缺点已在我们先前的论文中详细

4、描述 。扩增子分析的主要步骤见图4A。我们通常从fastq格式的原始双端Illumina数 据开始,最终输出是一个特征表,也称为OTU表或ASV表。第一步是从原始数据中恢复纯净的扩增子序列,因为原始数据包括人工产物 (artifact),例如引物和标签(barcode)o它包括3个主要过程:合并双端序列,通 过标签拆分序列和去除引物。由于原始数据没有统一的标准格式,因此我们需要设 计适合上述过程的分析流程。另外,我们也可以使用基因测序公司提供的纯净扩增 子数据。图4B显示了用于恢复纯净扩增子序列的典型分析流程。第二步是滤除低质量序列,以便减少背景“噪音二第三步是识别非冗余序列并且计数。高质量序

5、列仍然有许多人工产物,例如错 误序列和嵌合体。非冗余序列的计数是找出可靠序列的关键信息。第四步是选择代表性序列(特征)。此步骤基于唯一序列,并通过将序列聚类成 OTU或降噪生成ASV来实现W,821。此步骤还包括de novo检测和去除嵌合体。第五步是有参嵌合体检测,这是第四步的替代选项修3】。通过将序列比对到数据 库中,例如rRNA数据库SILVAN,可以进一步过滤特征序列。应当指出的是,该 步骤可以降低假阳性率但易于导致假阴性结果。最后,通过将纯净的扩增子数据与特征序列进行比较来生成特征表(图4A)O 然后使用基于RDP佝或Greengenesf86!数据库的分类器实现特征序列的物种分类。

6、 此外,基于 16S rRNA 基因谱,使用 PICRUSt87FAPROTAX87 891 和 BugBase】等工具可实现功能预测。6.2宏基因组分析:从原始数据到物种和功能分类表扩增子测序仅产生分类学信息,而且PCR过程很容易产生偏倚和嵌合体83】。 鸟枪宏基因组测序比扩增子测序提供更详细的基因组信息和更高的分类学分辨率 l66J O与扩增子方法相比,宏基因组学分析更为复杂,但是它提供了更准确的物种分 类、多维度的功能信息和无法培养微生物的基因组草图。宏基因组分析流程如图4C 所示。第一步是预处理原始序列数据。原始数据包含低质量的污染序列以及与宿主相 关序列。我们可以使用FastQC软件

7、()进行数据质量检查,然后使用KneadData流 程进行质量控制并去除宿主DNA【92。有关更多KneadData的信息,请访问. edu/kneaddata。原始序列,忒&BIllumina产生的原始双端序列纯净序列纯净序列合并双端序列移除标签通过域签重命名移除引物(b)基序序列的分析物种分类和 功能注释比对 一 (a)预处理1物种分类结果Gene A Gene C vGon B Gn D基因丰度组装基因预测及非冗|5=长序列余基因集构建1(c)基丁组装的分析非冗余基因集PathwayKEGGeggNOG功能注释 CAZyCARD箱(微生物基 因组草图)(d)分箱灌 VFDB基于不同数据库

8、的功能注释图4:人类微生物组研究的生物信息学分析流程。(A)扩增子数据分析的主要步骤。(B)扩增子数据预处理的典型流程图:从原始的双端序列到纯净的扩增子。(C) 宏基因组测序数据的分析流程。(a)预处理。它涉及删除低质量序列、接头和宿主 序列。输出文件是纯净序列。(b)基于序列的分析。它将序列与数据库比对来推断 物种分类和代谢特征。(c)基于组装的分析。它将短序列组装为长序列,预测基因, 构建非冗余基因目录,并与数据库比对进行物种分类和功能注释。(d)分箱。它涉 及恢复无法培养微生物的基因组草图,并重建系统发育和代谢通路。KEGG:京都 基因与基因组百科全书(Kyoto encyclopedi

9、a of genes and genomes) ; eggN OG:基因 进化谱系:非监督直系同源群(Evolutionary genealogy of genes: non-supervised orthologous groups); CAZy:碳水化合物活性酶数据库(Carbohydrate-active enzymes database); CARD:抗性基因综合数据库(Comprehensive antibiotic resistance database); VFDB:毒力因子数据库(Virulence factor database)o第二步是使用基于序列的方法分析物种分类和代谢

10、特征。人类微生物组具有高 质量的基因目录(genecatalog)和基因组665,因此我们建议使用HUMAnN2f93I 具并采用基于序列的方法进行物种分类和代谢通路分析,该方法高效且易于操作。 但是,这种方法只使用一小部分序列信息,而且分析结果受到已知数据库的限制66。如果需要发现新物种或基因功能,则需要进行第三步。有几个好的软件工具可 以用于将纯净序列组装为长序列(contigs),例如MEGAHIT94和metaSPAdes95o 然后通过MetaProdigal96或Prokkal从长序列中预测基因。另外,其他软件工具也 可以用于从短序列中预测编码基因,例如MetaGeneAnnota

11、torl98J MetaGeneMarklJ Glimmer-MG100 MetaGUN101 FragGeneScan102和 0rphelia103o 为了减少重复基 因,在分析多个样品或批次时需要使用CD-HIT构建非冗余基因集气通过采用 Bowtie292或Salmon】工具进行比对的方法可以计算基因丰度。目前至少有20个 软件工具可用于宏基因组数据物种分类|。6。我们建议使用超快速分类器Kraken 2, 它可以提供快速、准确和“种级别的分类结果质。至于功能注释,许多研究人员 都推荐使用DIAMOND108,它是一种快速、敏感的蛋白质比对工具山阊。每个数据 库都提供了独特的功能视角,

12、例如,京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes, KEGG) 109 EggNOG (一个提供直系同源关系、功能注释 和基因进化历史的数据库)110碳水化合物活性酶数据库(Carbohydrate-Active enZYmes Database, CAZy)致病菌的毒力因子(Virulence Factors of PathogenicBacteria, VFDF)和综合抗生素抗性数据库(Comprehensive Antibiotic Resistance Database,CARD)ri 131 o宏基因组通常包含100100

13、0个物种啊,很难厘清彼此关系。 分箱算法可以恢复无法培养的高丰度菌的基因组草图,并重建系统发育和代谢通路。最后一步是使用metaWRAPH4或DASTool5执行分箱流程(图4C)。这些软 件工具有逐步操作教程,并且在其网站上提供了有关人类微生物组的一些样本数据 集1。另外,几个集成的分析流程,例如MOCAT2|116 bioBakery981 IMPI171微 生物组助手(MicrobiomeHelper)薛1,可以执行上述部分或全部分析步骤。你可以 在微信公众号“宏基因组”中找到最受欢迎软件的中文教程。现在你已经获得了物种分类和功能信息文件。通过STAMP或LEfSe可以轻松 找到你感兴趣

14、的生物标记lll9J20Jo使用R语言或ImageGP ()可以将所有结果可视 化。7. 病毒组在人类疾病中的作用近年来病毒组在人类疾病中的作用吸引了医学研究者的关注Ml。使用病毒组 学的方法己发现了许多令人信服的研究成果Ml,其中一些技术已经用于临床】。 在微生物组研究中,病毒组学与其他多组学方法整合后显示出广阔的应用前景。 但是,病毒组学研究仍然面临一些挑战。例如,至少40%的病毒序列无法注释 mi。此外,病毒的测序结果容易受到背景噪音的影响。最后,很难获得用于病 毒组研究的商业化阳性对照,即病毒模拟群落。8. 总结和结论本文讨论了用于微生物组研究的研究设计、样本收集、统计方法和生物信息

15、学分析方法。在“研究设计”部分,我们强调了研究设计的重要性,特别是设计 方案、样本量计算以及用于提高研究可靠性的多种措施。研究设计非常重要,因 为不好的研究设计可能会产生无意义的数据。在“统计分析”部分,我们介绍了 详细的多重比较尸值校正方法。选择合适的统计方法对于准确解释微生物组数据 很重要。最后,“生物信息学分析”部分介绍了用于分析微生物组数据分析的方 法。本文图中使用的脚本可从。综上所述,对于微生物组研究而言,严谨的研究设计在获得有意义的结果方 面具有举足轻重的作用,而适当的统计方法对于准确解释微生物组数据非常重 要。循序渐进的分析流程为研究者掌握最新生物信息学分析方法提供了帮助。参考文献1. Integrative HMP (iHMP) Research Network Consortium. The Integrative Human Microbiome Project. Nature 2019; 569: 641-648. doi: 10.1038/s41586-019-1238-8.2. NIH Human Microbiome Portfolio Analysis Team. A review of 1

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号