基因组学技术在致病基因发现课件

资源描述

《基因组学技术在致病基因发现课件》由会员分享，可在线阅读，更多相关《基因组学技术在致病基因发现课件（99页珍藏版）》请在金锄头文库上搜索。

1、,1,基因组学技术在致病基因发现及临床诊断中的应用,引言,对疾病的研究一直是人类科研活动的重点和热点之一人类所有疾病都具有遗传影响和背景，但只有在一少部分疾病中，遗传因素起主要作用遗传病通常具有先天性、终生性和家族性的特点,2,遗传病分类单基因遗传病研究策略回顾复杂疾病研究策略回顾应用二代测序技术寻找易感基因,3,遗传病分类,单基因遗传病多基因遗传病染色体疾病线粒体疾病体细胞遗传病,4,权威的在线人类孟德尔遗传数据库（Online Mendelian Inheritance in Man，OMIM），目前已收录的以孟德尔遗传方式为主的遗传病约6700种，其中常染色体连锁的约

2、6200中，性染色体连锁的500种。在这6700多种遗传疾病中，其中已确定其分子遗传基础的单基因病接近3000种，表型已知而致病分子基础未知的约有1830多种。由于单基因病的遗传异质性，还有很多的亚型未被发现。,单基因遗传病,OMIM Statistics for May 3, 2011,6,多基因遗传病,遗传方式复杂，无显性和隐性之分，故也称多因子遗传或复杂疾病。常见的有唇腭裂、先天性下颌前突、高血压、糖尿病、精神分裂症、类风湿性关节炎及先天性心脏病等。复杂疾病的发病率常有地区或族群差异。比如在世界范围内，唇腭裂的发生率约为1/700，拉美、亚洲发生率高，非洲较低。下颌前突亚洲群体发病率较

3、高，大约有8%40%，非洲为3%8%, 欧美较低，约为0.4%4%。,7,染色体疾病,数目性染色体畸变例子如Down综合征，即21三体综合征表型特征有智力低下、伸舌、鼻梁低平、眼裂上斜、小耳、小颌、枕平、内眦敖皮、颈短及肌张力减低等，常伴有先天性心脏发育缺陷结构性染色体畸变是在细胞分裂过程中曾有染色体断裂所致。常见的结构异常有缺失、环状染色体、易位、重复、倒位和等臂染色体。如毛细血管扩张性共济失调症染色体数目异常比结构异常更常见,8,疾病致病基因查找研究,疾病致病基因查找对疾病的诊断与治疗有巨大意义除DNA水平，还有RNA、蛋白、细胞水平等自动化DNA测序仪与微阵列芯片-强有力工

4、具人类基因组计划完成总体框架传统的基于连锁不平衡（LD）的方法基于家系的Linkage分析基于大样本的Association分析很多成功范例,疾病致病基因定位研究,罕见疾病感染率低（1/1000），样本少患者生存期短，难以繁衍后代，家系不完整基于LD的方法的不足罕见疾病-无完整家系, 无大样本定位粗糙，无法确定真正的基因或位点，靠DNA测序直接测序精确测定个体基因组序列，可发现细微差别通过比较多个同疾病类型个体的突变数据，寻找共同突变基因 Sanger测序技术成本高，方法复杂,单基因病研究策略简要回顾,功能克隆绝大多数遗传病的致病机制是不为人知的，因此致病基因的产

5、物是不清楚的，也就无法运用功能克隆策略。位置克隆其最大优点是不需要事先对致病基因相关功能的了解。利用连锁分析或细胞学定位技术将致病基因定位于染色体的某一特定区域。位置候选克隆针对基因组上已定位的候选区域，对其中已注释的基因、表达序列标签、开放阅读框、cDNA片段等数据信息进行整合分析，按照功能信息来预测和筛选的致病基因。在此基础上，设计实验鉴定和验证致病基因。,11,单基因病研究策略简要回顾,参数连锁分析方法需要提供各项描述疾病遗传模式的参数，主要包括致病基因频率、各基因型的外显率。一般指LOD Score法非参数连锁分析方法由于很多遗传病的基因频率未知，同一种疾病在不同家系的遗

6、传模式和外显率也有变化。非参数分析避开对遗传模式的猜测。,12,多基因病研究策略简要回顾,关联分析 HapMap计划的实施和SNP芯片技术的成熟使得大样本量的关联解析在近10年间迅速流行。加之收集散发样本较收集大家系样本容易，使得关联分析的更受推崇。连锁分析由于很多复杂疾病通常未表现出明显的孟德尔遗传模式，导致参数连锁分析在其易感定位研究中的应用受到限制。尽管如此，利用家系定位复杂疾病易感基因也不乏成功的例子。如乳腺癌易感基因BRCA1, 2的确证。另外，结合初步连锁分析和后续关联分析的方法已经成功定位了几个复杂疾病的易感基因，如2型糖尿病的NIDDM基因及哮喘病的ADAM33基因,13

7、,家系样本收集,14,独生子现象，导致难以收集大家系相关资料收集齐全，尽量多收样本长期收集，保持回访,家族性高胆固醇血症,15,家族性高胆固醇血症,16,先证者父母胆固醇都较高,17,SNP芯片全基因组连锁分析,SNP标记最大的特点在于单个SNP位点只有两个等位基因，杂合度低，多态性不够，但是可以通过分析相连SNP位点构成的单体型来增加信息量。利用SNP芯片进行连锁分析，并精确定位到连锁区域或易感基因的研究有很多。甚至在有些研究中，采用高密度的SNP连锁分析发现了被STR连锁分析漏掉的显著连锁信号。基于SNP的连锁分析较传统的基于STR的连锁分析更为高效、便捷，且其检测连锁信号的效力可

8、能更强。,18,Illumina Infinium Human Linkage-12 panel,平均间距 0.55 cM 441 kb,19,Illumina HumanCNV-370 芯片,370,000 loci 318,000 tag SNPs,20,数据分析方法,Genome Studio Call rate 99% CNV partition 至少连续5个探针,21,数据分析方法,连锁分析 Merlin Genehunter Mendel 单体型分析 Merlin Haplopainter CNV partition,22,连锁分析流程,23,参数连锁分析在复杂疾病中的应用,在复杂

9、疾病连锁分析中，很多研究倾向于非参数分析，避开对遗传模式的猜测仍有一些学者认为参数连锁在复杂疾病研究中仍然有不可替代的优势在很多研究采用一系列不同的遗传模式，以得到最优遗传模式参数最好结合参数和非参数分析的结果，二者吻合度到，共同支持的连锁区域更可信。,24,参数连锁分析在复杂疾病中的应用,双致病位点连锁分析在定位到两个或多个候选区域的复杂疾病家系研究中，具有重要意义双致病位点模式可以提高复杂疾病连锁信号的检测效能。这种方法已在多项复杂疾病如家族性高胆固醇血症、静脉血栓栓塞和双相情感障碍研究中成功运用。双区域连锁分析数值高于与单个区域连锁值提示遗传因素相互影响是客观存在的。而这种优势越

10、明显，则越支持两个区域的相互作用。,25,CNV与疾病,CNV不仅在基因组中广泛存在，而且在基因富集区尤为突出。大量研究已证实CNV是某些复杂疾病的易感因素，与人类的一些复杂性状，如个体之间的感官差异（包括嗅觉、听觉、味觉和视觉）也有关系。目前已知多种复杂疾病与特定基因的CNV有着明确关系。目前，关于基因组内CNV与疾病的相关性仍处在广泛的研究中，可以肯定的是，其中高频拷贝数变异区域往往在减数分裂时产生重排，导致发育异常类疾病。,26,总体结论,基于类似孟德尔遗传的大家系（患者大于10例，至少3代），采用SNP芯片连锁分析是定位复杂疾病易感基因的有效方法之一。双致病位点连锁分析在定位到两

11、个或多个候选区域的复杂疾病家系研究中，具有重要意义。,27,应用二代测序技术寻找易感基因,外显子组测序单个病例、病例组、核心家系全基因组测序几个病例、癌组织,28,应用二代测序技术寻找易感基因,随着二代高通量测序技术的成熟，基于家系样本和少量病例样本的全基因组重测序和外显子组重测序在疾病易感基因研究方面开始显现巨大优势。目前，已有数十种疾病通过外显子组重测序成功定位到了新的易感基因及突变，比如恶性黑素瘤、和痉挛性截瘫。全基因组重测序主要是在癌症这样异常复杂的疾病研究中应该更广泛，比在肝癌和乳腺癌。,29,外显子捕获测序（WES）技术,外显子区域基因组主要功能区至少85%孟德尔遗传疾

12、病突变位点位于外显子域只占全基因组1%区域，数据量小外显子捕获测序多重探针杂交，特异扩增 2009 年首次应用于致病基因的筛选 Freeman Sheldon syndrome， 4样本-MYH3，验证了已有研究结果。（NG S B, Jay Shendure, Nature，2009） 2010年科学杂志十大科学突破之一,WES筛选疾病致病基因策略,筛选目标引起氨基酸变化的未知或已知罕见突变（missense, nonsense, splice SNP, coding Indel）筛选方案,WES实验方法,外显子捕获试剂盒及实验 Agilent 公司SureSelect Huma

13、n All Exon Kit试剂盒（有效覆盖区域 30M） Pair-end文库 Illumina Paired-End Genomic DNA Sample Prep Kit (p/n PE-102-1001)试剂盒，平均插入片段长度200 测序平台及实验 Illumina Hiseq 2000 单样本单道（lane），目标测序长度100，循环次数为108次,WES数据分析,目标：Rare或novel突变，NS/SS/cIndel 流程图,WES数据分析,方法和软件选择依据：1000 Genomes使用软件使用软件原始数据质量评估与过滤 - SolexaQA软件包原始数据定位（Rea

14、ds Alignment）软件- BWA软件数据校准和重定位 Genome Analysis Toolkit（GATK）突变和插入缺失查找 Samtools dbSNP 和1000 Genomes 位点过滤 - 自编Perl 程序基因注释自编程序突变功能评估 - Polyphen-2,突变基因筛选,复合杂合突变基因 - 筛选流程,NGS突变查找中的FN和FP问题,NGS突变查找中的存在假阴性和假阳性未知突变中的FP问题尤难发现解决方法应用及检验：新算法，后续大样品SNP验证,NGS突变查找中的FN和FP问题,FN主要与测序覆盖度有关 FP主要来自系统偏差和数据处理偏差系统偏差：

15、 454单碱基重复引起插入缺失；Solexa/SOLiD累计误差数据分析偏差：对齐错误，Paralog 突变查找软件通常计算整体的FNR和FPR,未知突变中的FP问题,发现现象 FP在未知突变数据集(NDB)中富集，而已知位点(DB)突变数据中少。估测随机抽取50个候选未知突变，使用Samtools工具观察其序列对齐情况。,未知突变中的FP问题,碱基置换率考察同类型碱基置换（transition）应高于不同类型碱基置换（transversion）。结果：DB突变符合正常情况，NDB突变明显偏离。,未知突变中的FP问题,解释 1）已发现报导的突变位点数量巨大（24M），个体细胞中可发

16、现的新的突变越来越少。真正突变中大部分是频率较高的已知突变。 2）相对于全基因组，已报告位点只占少数（8%），随机假阳性事件大部分发生在非已报导位点。 Venter研究 Venter团队2008年基于Sanger测序数据的研究（HuRef）表明，相对于db129，至少25%的新突变是假阳性。何况是NGS？,FP对未知致病基因突变查找的影响,FP对基于未知致病基因突变查找的影响加大人工负担降低样本利用效率引发假阴性事件样本过多，目标区域覆盖率不足,未知突变中的FP问题分析,FP突变有哪些特征，哪些最严重？ Solexa：低质量碱基，读序末端，前面有单碱基重复，插入缺失定位紊乱，单向极端覆盖，等等。很难确定硬阈值：界限不清，与设备、试剂有关。,未知突变中的FP问题分析,突变碱基重复（VR） JPT数据,应用二代测序技术研究发病机理、开发临检标志物,转录组测序 miRNA组测序甲基化组测序免疫组测序,44,An example,白血病相关的三株淋巴细胞系转录组差异表达及microRNA表达调控分析,研究背景, 急性淋巴细胞白

展开阅读全文