全基因组测序与其在遗传性疾病研究与诊断中应用-邵谦之

举报
资源描述
遗传 Hereditas(Beijing)2014 年 11 月,36(11):10871098 综 述 收稿日期:2014-08-29;修回日期:2014-10-13 基金项目:国家自然科学基金面上项目(编号:31171236)资助 作者简介:邵谦之,硕士研究生,专业方向:遗传学。E-mail: 通讯作者:吴金雨,博士,副研究员,研究方向:医学基因组学,生物信息学。E-mail: DOI:10.3724/SP.J.1005.2014.1087 网络出版时间:2014-10-16 11:39:12 URL:http:/ 全基因组测序及其在遗传性疾病研究及诊断中的应用 邵谦之1,姜毅1,吴金雨2 1.温州医科大学基因组医学研究院,温州 325000;2.中国科学院北京生命科学研究院,北京 100101 摘要:最近,随着测序成本的不断降低,数据分析策略的不断提升,全基因组测序(Whole-genome sequencing,WGS)已经在癌症、孟德尔遗传病、复杂疾病的致病基因检测中得到了一定运用,并逐步走向了临床诊断。全基因组测序不但可以检测编码区和非编码区的点突变(Single nucleotide variants,SNVs)和插入缺失(Insertions or deletions,InDels),还可以在全基因组范围内检测拷贝数变异(Copy number variation,CNV)以及结构变异(Structure variation,SV)。文章详细地介绍了全基因组测序的标准生物信息分析流程与方法,及其在疾病研究、临床诊断中的应用,并对全基因组测序在医学遗传学中的应用与研究进展以及数据分析方面所面临的挑战进行了概述。关键词:全基因组测序;遗传性疾病;致病基因;临床诊断 Whole-genome sequencing and its application in the research and di-agnoses of genetic diseases Qianzhi Shao1,Yi Jiang1,Jinyu Wu2 1.Institute of Genomic Medicine,Wenzhou Medical University,Wenzhou 325000,China;2.Beijing Institutes of Life Science,Chinese Academy of Sciences,Beijing 100101,China Abstract:Recently,with the decreasing cost of DNA sequencing and the improving strategy of data analysis,whole-genome sequencing(WGS)has been used for the detection of causal genes in cancer,Mendelian diseases and other complex diseases,and has gradually become applicable for clinical diagnosis.WGS enables not only the identi-fication of single nucleotide variants(SNVs),insertions and deletions(InDels)in both coding and non-coding re-gions,but also the detection of copy number variations(CNVs)and structural variations(SVs)on a genome scale.In this review,we present a detailed report of the standard workflow and methods of bioinformatics analysis in WGS,and its application in disease research and clinical diagnoses.In general,this review aims to provide an overview of WGS in its application,progress and challenge on medical genetics.Keywords:whole-genome sequencing;genetic diseases;pathogenic genes;clinical diagnosis 1088 遗传 Hereditas(Beijing)2014 第 36 卷 随着高通量测序技术(Next generation sequencing,NGS)的不断发展,特别是随着测序费用的逐年降低以及数据分析流程的日趋成熟,全基因组测序(WGS)已经成为疾病研究、临床诊断中重要的手段1,2。研究者已经运用全基因组测序来检测癌症、孟德尔遗传病、复杂疾病的致病突变和致病基因,取得了前所未有的科研成果3。本文就全基因组测序的数据分析及其在疾病研究和临床诊断中的应用进行综述。1 全基因组测序的背景介绍 近年来,随着高通量测序技术的不断发展与成熟,全基因组测序被应用到了各种领域,尤其是在遗传性疾病研究方面的应用备受关注1,2,46。目前人类已知的疾病中,大约有 4000 多种疾病与基因异常有关7。利用全基因组测序,可在全基因组水平上检测与人类疾病相关的单核苷酸变异(SNVs)、插入缺失(InDels)、拷贝数变异(CNV)和结构变异(SV)等多种全面的突变信息,进而找到致病突变并研发有效的治疗药物,为临床用药提供指导。价格昂贵一直是全基因组测序发展的一个重大阻碍,然而随着 Hiseq X Ten 的出现,全基因组测序的成本已大幅下降,测序费用仅需 1000 美元。Hiseq X Ten是由Illumina公司研发的有史以来最强大的测序平台,旨在提供大规模人类基因组测序服务。它由 10 台超高通量测序仪组成,每台测序仪的产出效率是 Hiseq 2000 的 12 倍,每天可产出高达 600 GB的数据量,全年可以完成约 18 000 人次全基因组测序。数据分析速度慢则是全基因组发展的另一个难题,受数据量及分析软件的限制,全基因组数据分析需要 1 d 以上。然而 2014 年 7 月,Dutch 生物信息公司宣布开发的 Genalice Map 软件可以成功实现 1 min 比对人类全基因组,并在将来的合作中继续测试 10 000 个人类全基因组。此外,由 Edico Genome开发的生物科技处理器(Dynamic Read Analysis for Genomics,DRAGEN),作为全球首款新一代测序生物信息特殊应用集成电路,可以将用于分析整个人类基因组数据所需的 24 h 锐减为 18 min,同时还确保了分析的准确性。相信不久以后,其他分析步骤也将在几分钟内完成。尽管全基因组测序面临着价格昂贵、数据分析速度慢等难题,但是由于其能检测结构变异以及非编码区的 SNVs、InDels 等,目前在国内已被应用于一系列遗传性疾病的研究。早在 2003 年,赵国屏课题组就利用全基因组测序分析钩端螺旋体病8。此后,全基因组测序逐渐被应用于肝癌9、膀胱癌10、胰腺癌11、腹膜间皮瘤12、自闭症13等疾病致病机理的研究。谢晓亮课题组于 2012 年底利用其新近发明的 MALBAC 扩增技术对一个亚洲男子的 99 个精子进行单细胞全基因组 DNA扩增,首次实现了单个精子高覆盖度的全基因组测序14。此外,该课题组还首次利用上述 MALBAC 基因组扩增高通量测序对试管婴儿进行单基因遗传病筛查,该婴儿已于 2014年 9 月 19 日在北京大学第三医院诞生,标志着我国胚胎植入前遗传诊断技术已处于世界领先水平。由此可见,全基因组测序已成为现阶段基因测序工作的重心。全基因组测序的时代已经到来,势不可挡。2 全基因组测序的数据分析流程 全基因组测序的数据分析流程包括质量控制(Quality control)、比对(Mapping)、突变检测(Call variant)、突变注释(Annotation)。针对不同数据要求,已有多款分析软件得以开发(表 1),目前广泛使用的分析流程为“BWA+GATK+ANNOVAR”(附图 1)。2.1 质量控制 对测序产生的原始数据(Raw data)进行去接头、过滤低质量处理,得到 Clean data 的过程称为质量控制。质量控制能除去部分测序效果较差的序列,提高后续分析的准确性。经过该步骤通常会过滤掉 5%15%低质量的序列。2.2 比对到参考基因组 将质量控制后的 Clean data 比对到参考基因组上,得到每条序列的比对位置、比对质量值等信息。目前最主流的比对软件为 BWA(Burrows-Wheeler Aligner)18,它能将短序列准确快速地比对到参考基因组上,生成通用的 SAM 格式的文件。自 2013年起 BWA 发布了新算法 BWA MEM,可以比对 70 bp1 Mb 的序列,比原来的算法更加准确,运行速度也更加快54。第11期 邵谦之等:全基因组测序及其在遗传性疾病研究及诊断中的应用 1089 表 1 全基因组数据分析常用软件 功 能 常用软件 质量控制 Trim galore,NGS QC Toolkit15,HTQC16,NGSQC17,FastQC 比对 BWA18,Bowtie19,SOAP20 检测单个核苷酸变异或插入缺失(SNVs/InDels)GATK,SAMtools21,VarScan22,SOAPsnp23 检测拷贝数变异(CNVs)SegSeq24,CNVnator25,ReadDepth26,CNAseg27 检测结构变异(SVs)BreakDancer28,LUMPY29,CREST30,GASV31,SVDetect32 检测新生突变 RandomForest33,DNMFilter34,PolyMutt35,DeNovoGear36 注释 ANNOVAR37,GAMES38 功能预测 SIFT39,Polyphen2_hvar40,Polyphen2_hdiv40,MutationTaster41,MutationAssessor42,LRT43,FATHMM44 保守性预测 GERP+13,PhyloP45,SiPhy46,47,RadialSVM,MetaLR 公共数据库 OMIM48,MGI49,Cosmic50,ClinVar51,HGMD52 非编码区注释 FunSeq53,ENCODE 2.3 突变检测 比对好的 SAM 文件通常会转换成 BAM 文件并进行去重(Remove duplication),然后进行突变的检测。目前主流检测 SNV 和 InDel 的软件为 Genome Analysis Toolkit(GATK,http:/www.broadinstitute.org/gatk/),GATK 准确度非常高,它会对 BAM 文件进行两次校正过程以提高突变检测的准确率,但是速度比较慢。2014 年 3 月,Broad 宣布最新版GATK(version3.1)在突变检测速度上将比原来快35倍,使全基因组的分析时间从 3 d 缩短到 1 d。由于全基因组测序具有较好的均一性和覆盖度,因此在 CNVs 的检测方面具有众多优势。目前已经发表了多种 CNV 的检测方法与软件,可以分为两大类别:(1)基于深度差异的检测方法受测序局部不均一性的影响,往往假阳性率比较高;(2)基于读段对之间的距离检测 CNV 的方法能相对准确地找到断点。若读段对之间的距离明显超过正常大小,就可以认为这对读段之间存在 CNV。另外,有些比对不上的读段拆成两条读段后能分别比对到染色体
展开阅读全文
温馨提示:
金锄头文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
相关搜索

当前位置:首页 > 办公文档 > 解决方案


电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号