snp和cnv资料－金锄头文库

资源描述

《snp和cnv资料》由会员分享，可在线阅读，更多相关《snp和cnv资料（41页珍藏版）》请在金锄头文库上搜索。

1、SNP和CNV与人类表型的关系,1,什么是SNP？,SNP（单核苷酸多态性）：在不同个体的同一条染色体或同一位点的核苷酸序列中，绝大多数核苷酸序列一致，而只有一个碱基不同的现象。 SNP是人类基因组DNA序列中最常见的变异形式。并非所有的SNP都有临床意义，对疾病和药物治疗有重大影响的SNP，估计只占数以百万计SNP的很小一部分。从数以百万存在于整个基因组的SNP，到导致蛋白质氨基酸编码改变或基因表达调控改变的SNP，最后到导致蛋白质体外活力改变的SNP，SNP的数目都在迅速递减。,2,关联分析,联合SNPs和人类疾病表型的研究，可以提供对诊断、预测、新的治疗方案等的新的和更精确的遗传标记，从

2、而对直接的临床应用有很大的潜能。联合基因、基因变异和人类疾病表型的关联分析在识别那些涉及单个基因的、高渗透性、常染色体显性孟德尔遗传疾病的基因位点比较成功。但是，对于更经常出现的复杂疾病成功率比较低，例如多因素疾病：心脏病、糖尿病、高血压和癌症等。,3,整个基因组的关联分析是基于连锁不平衡（LD）的（描述了在两个SNPs的等位基因间的非随机关系），被作为确定与有一个遗传元素的人类慢性疾病相关的位点的一般的方法。关联分析的主要限制因素是：在这些复杂表型中，涉及多个基因，每个基因有相对弱的作用，并且与其他基因和环境因子有较强的相互作用。这个方法的不足是，存在一些不确定性因素。主要的是，不同种

3、群间的人类基因组的LD的细节信息的缺乏。当一个疾病的基因变异以一个低频发生的话，研究的种群大小就会使得结果不同。,4,候选路径方法间接候选关联,基于LD的的整个基因组关联研究是一种统计方法，这种方法没有对基因识别的先验假设。候选基因关联研究涉及五个方面： 1、适合不同类型信息的路径中候选基因的选择 2、确定这些基因在控制种群中的单倍型结构 3、在每个基因中代表全部一般的单倍型的标签SNPs集的选择 4、表型和单倍型状态的关联测试 5、通过功能检验确定真实的原因变异的真实的位置,5,尽管用标签SNPs的间接候选关联方法说明复杂疾病的遗传病因现在很可行，但是仍然存在一个主要的问题它涉及到一个

4、假设：位点有很小的等位异质性，复杂疾病的易感性是由于少数目的祖先SNPs在种群中高频发生（1%）。但是，对于在很多位点的大量的稀有变异，这种策略是无效的，因为，没有一个单体型与复杂性状有很强的关联，大多数的变异的贡献比较小。,6,原因变异的精确定位将是一个重要的障碍，而且，对于不同民族、不同地理位置以及所研究群体的其他特征都可能影响不同SNP单体型的频率，并且标签SNPs也可能不同。这就暗示单独使用SNP数据库研究表型和基因型关联的局限性。,7,候选路径方法直接候选关联,直接关联研究被候选SNP分析所限制，在假定的功能变异和疾病风险间的关联被测试。功能SNPs可以分为编码SNPs（cSNP

5、s），它可以改变氨基酸，和调控SNPs，控制表达或基因的剪接。 1700多个人类疾病基因的识别说明大部分疾病是由于在编码蛋白质的改变，少于1%的变异在调控区发现,8,仅仅通过核苷酸序列评估SNP功能比较困难，尤其在SNPs没有改变一个氨基酸或没有破坏一个影响蛋白质功能或结构的模体的特征时。另外，仅有一个小的SNPs的子集将对表型有小的影响，所以对候选疾病易感性关联研究的一个重要的挑战是定义与疾病功能牵连的变异。,9,用于发现SNP的预检方法,10,SSCP 单链构象多态性（SSCP）分析，是一种基于DNA构象差别来检测点突变的方法。相同长度的单链DNA，如果碱基序列不同，形成的构象就不同，这

6、样就形成了单链构象多态性。单链DNA片段呈复杂的空间折叠构象，这种立体结构主要是由其内部碱基配对等分子内相互作用力来维持的，当有一个碱基发生改变时，会或多或少地影响其空间构象，使构象发生改变，空间构象有差异的单链DNA分子在聚丙烯酰胺凝胶中受排阻大小不同.因此，通过非变性聚丙烯酰胺凝胶电泳，可以非常敏锐地将构象上有差异的分子分离开。,11,尽管SSCP是最流行和广泛应用的方法之一，但它的缺点是要求在多于一个电泳条件下检测所有可能构象变化，并且灵敏度是60%95%，依赖于基因和片段大小，对大于250bp的片段是无效的。只能作为一种突变检测方法，要最后确定突变的位置和类型，还需进一步测序当某

7、些位置的点突变对单链DNA分子立体构象的改变不起作用或作用很小时，再加上其他条件的影响，使聚丙烯酰胺凝胶电泳无法分辨造成漏检.,12,CFLP 裂解片段长度多态性（CFLP）原理与SSCP一样，但它不是依赖于二级结构中SNP的不同，而是发卡结构被核酸内切酶在连接单链和双链部分的5端切开。裂解产物说明了在一个凝胶上带的序列特异性模式，可以通过在一个或多个带上的信号强度的出现、不出现、增加或减少来区分；这些模式反映了序列位置的不同,13,优点：与SSCP相比，CFLP更快、更精确并且可以分析大的DNA片段缺点：产生片段模式、检验时间和温度都需要对每种类型的DNA片段进行优化,14,CSGE

8、也是利用DNA二级结构。它是基于同双聚体和异双聚体在构象上的不同。异双聚体是在加热变性，很多种类型和变异的DNA分子的混合物种退火中得到的。,15,DHPLC 变性高效液相色谱分析（DHPLC）：在部分变性的条件下，通过杂合与纯合二倍体在柱中保留时间的差异，发现DNA突变。异源双链DNA与同源双链DNA的解链特性不同，在部分变性条件下，异源双链因有错配区的存在而更易变性，在色谱柱中的保留时间短于同源双链，故先被洗脱下来，在色谱图中表现为双峰或多峰的洗脱曲线。,16,DGGE 变性梯度凝胶电泳法（DGGE）依据首要的一点是： DNA 双链末端一旦解链，其在凝胶中的电泳速度将会极剧下降。第二个根据

9、是，如果某一区域首先解链，而与其仅有一个碱基之差的另一条链就会有不同的解链温度，因此，将样品加入含有变性剂梯度的凝胶进行电泳就可将二者分开。,17,通过三方面提高灵敏度： 1、“ GC 夹板”（ clamp ）技术，它是将一段长度为 30-50 碱基，富含 GC 的 DNA 附加到双链的一端以形成一个人工高温解链区。这样，片段的其他部分就处在低温解链区从而可以对其进分析。 2、一个计算机程序可以模拟任何已知序列 DNA 解链温度有关的解链行为。以碱基序列为基础，程序可以给出解链图象。 3、应用异源双链技术,18,TDGS TDGS是DGGE的衍生技术，是一个关于解链温度和片段大小的二维形式

10、分析，可以对不同DNA片段同时检测，降低了成本。,19,什么是CNV,CNV（拷贝数变异）：指在人类基因组中广泛存在的，从1000bp到数百万bp范围内的缺失、插入、重复和复杂多位点的变异。注： 1、都是与基因组参考序列相比； 2、 SNPs和CNVs是人类表型变异的两个重要潜在来源。,20,CNVs与表型相关的根据,CNPs（拷贝数多态性）与一些复杂疾病表型有关，包括HIV的感染和发展、狼疮性肾炎和三个系统自身免疫性疾病：系统性红斑狼疮、显微镜下多血管炎和韦格纳肉芽肿病。最近的一个研究发现，SNP基因型和CNV测量与基因表达性状各有83%和18%的统计显著相关。但这低估了CNVs的作用，

11、因此，更大完备性和精确性的检测技术需要被提出。,21,评估CNVs在疾病中作用的技术问题,发现DNA变异和表型的关系被测量每个个体中DNA变异的敏感度和精确度所限制。并且数据不足使得当前CNVs发现技术的发现比率远比SNP要低。目前报道的CNV位置是包含CNV的一个区域的位置，可以有很多可能的变异，精确的变异的位置或基因没有很好的测量。,22,CNVs的关联研究和发现研究,大部分CNV研究是发现研究而不是关联研究（评估基因型和表型的关系）。发现研究是基于在这个位点没有变异的空假设，然后，评估变异的证据是否超过基因组的一个显著性阈值。有较高的假阴性和较低的假阳性。一个关联研究是基于变异没

12、有关联到表型的空假设。,23,24,整合SNPs和CNVs的关联研究,对SNPs的关联研究目前研究的比较多，因此这类研究将是CNP疾病关联研究的可能的资源。许多CNVs位于基因结构变异的复杂区域, 一些CNVs与邻近SNPs存在着连锁不平衡, 可通过检验SNPs基因型推测邻近的CNVs。 McCarroll等猜想拷贝数缺失变异会以3种形式的“足迹(Footprints)”表现在SNPs数据上: (1)特定个体携带的无效基因型; (2)邻近区域SNP等位基因频率背离Hardy-Weinberg平衡原理预期估计值; (3)SNPs基因型运算结果不符合孟德尔遗传模式。,25,但是，一些因素限制了利用

13、SNP阵列分析CNP。 1、一些CNVs独立分布于基因组内不能直接通过探测SNPs而得到，这样有些包含一般的CNP的遗传区域可能会被部分或完全的过滤掉； 2、因为SNP阵列对于等位基因的检测是最优的而不是拷贝数测量，因此，它提供的拷贝数测量是有噪音的，结果是只有很大的变异才能检测到。,26,理想的是，每个DNA样本能用一个整合的分析同时检测SNPs和CNVs。提出了一个双杂交寡核苷酸阵列，包含SNP等位基因检测探针和专用的拷贝数探针。这种双杂交阵列为整合SNP和CNV的关联研究提供可能。,27,CNVs全基因组扫描的方法,常用的技术平台有基于大插入片段的比较基因组杂交(CGH)、代表性寡核苷酸

14、微阵列分析(ROMA)、基于长的等温寡核苷酸探针的比较基因组杂交和SNP芯片等。,28,然而即使如此，当前的各种CNV 全基因组扫描技术平台仍然具有一定的局限性，比如对于更小的CNVs 检出效力有限( 20 kb)，位于扩增富集区(通常是产生新突变的热点)或人类基因组中某些“新”的区域内的CNVs难以检测到等。,29,CNV分析软件和算法,目前已经发展了多种在全基因组水平推算CNVs的软件包和算法模型。其中比较常用的算法是隐马可夫模型(Hidden Markov Model，HMM)、环状二元分割(Circular binary segmentation,CBS)、等级分割(Segmentat

15、ion algorithm)、核平滑算法(Kernel Smoothing algorithm)等。但是，无论哪种方法都具有一定的假阳性和假阴性率。,30,事实上，由于不同的样本、不同的算法、使用不同的参考样本组，而且CNVs 判别标准也不尽相同，造成不同研究之间重合的CNVs 仅介于25%45%之间。既使同样的研究样本，用不同算法得到的CNVs重合率也只有72%。这提示不同类型算法/ 软件之间可能具有一定互补性。,31,利用父母- 子女三人同胞对(Trios)样本分析时发现，子女中绝大多数的CNVs 遗传自父母，这些位点称为遗传性CNVs( inherited CNVs)，而新发生的与父母染

16、色体同源序列重合率 50%的CNV，称为新的CNV 或新的拷贝数突变(De novo CNVs，or De novo CN mutations)。遗传性CNVs通常是某些疾病具有家族聚集性的遗传学基础，而新的拷贝数突变可能导致某些散发性疾病的发生。,32,CNV全基因组关联分析的流程,33,通过CNV 全基因组关联分析评价新的拷贝数突变在散发性疾病中的作用,目前的CNV 全基因组关联分析主要集中在散发性疾病与新的拷贝数突变方面。传统认为，遗传性疾病通常是指遗传性状与改变蛋白质结构、功能或调节的突变碱基以孟德尔遗传方式分离。然而，临床遗传学家发现，至少有97%的疾病是散发的，而且不涉及任何基因的突变，仅仅源于CNVs。,34,那么散发性疾病的分子基础是什么呢？目前认为它通常是由一个染色体异常或隐性性状或新的显性突变引起的。因此对于大部分散发性疾病病例来说(甚至可能包括遗传性疾病)，新的拷贝数突变可能是一个主要的遗传性机制。也有可能部分散发性疾病源于分布于相同或不同位点的两个不同(父母)来源的CNVs 组合，而仅携带其中之

展开阅读全文