计算表观遗传学_哈医大《生物信息学基础》课件

上传人:j****9 文档编号:57575417 上传时间:2018-10-23 格式:PPT 页数:123 大小:4.98MB
返回 下载 相关 举报
计算表观遗传学_哈医大《生物信息学基础》课件_第1页
第1页 / 共123页
计算表观遗传学_哈医大《生物信息学基础》课件_第2页
第2页 / 共123页
计算表观遗传学_哈医大《生物信息学基础》课件_第3页
第3页 / 共123页
计算表观遗传学_哈医大《生物信息学基础》课件_第4页
第4页 / 共123页
计算表观遗传学_哈医大《生物信息学基础》课件_第5页
第5页 / 共123页
点击查看更多>>
资源描述

《计算表观遗传学_哈医大《生物信息学基础》课件》由会员分享,可在线阅读,更多相关《计算表观遗传学_哈医大《生物信息学基础》课件(123页珍藏版)》请在金锄头文库上搜索。

1、第十三章 计算表观遗传学,( 张岩 哈尔滨医科大学),第一节 引言,一、 表观遗传学与计算表观遗传学 二、 计算表观遗传学的研究内容 三、 计算表观遗传学的方法和工具 四、 计算表观遗传学的进展,第二节 基因组的DNA甲基化,一、CpG岛的DNA甲基化调控基因的表达 (一) DNA甲基化与CpG岛 (二) 甲基化对转录的调控 (三) DNA甲基化的意义,(一) DNA甲基化与CpG岛,DNA甲基化是一种发生在DNA序列上的化学修饰,可以被稳定地在转录及细胞分裂前后遗传。DNA甲基化是重要的表观遗传代码。,DNA甲基化,在哺乳动物中,大约60%-90%的CpG二核苷酸是甲基化的。CpG中的p代表

2、连接脱氧胞嘧啶核苷和脱氧鸟嘌呤核苷的磷酸基团。在哺乳动物细胞中,DNA甲基化主要发生在CpG二核苷酸中胞嘧啶的第五位碳原子上,这样的胞嘧啶也叫做5-甲基-胞嘧啶,如图所示。,CpG岛与DNA甲基化的关系,CpG二核苷酸倾向于聚集成簇,这样的区域称做CpG岛(CpG islands)。CpG岛的特点是GC的含量及CpG的含量非常高。CpG岛主要分布在基因的5非编码区,启动子和第一外显子区域,大约80%的基因的启动子含有CpG岛。这些区域的CpG二核苷酸的富集表明它们处于非甲基化状态(至少在生殖细胞中),因此避免甲基化CpG带来高的突变率。,(二) 甲基化对转录的调控,DNA甲基化影响转录的机制

3、1. DNA甲基化阻碍转录因子的结合 2DNA甲基化识别染色质标记 3. DNA甲基化募集其它蛋白引起染色质沉默 4. DNA甲基化影响核小体定位,(三) DNA甲基化的意义,CpG二核苷酸的甲基化与重复元件沉默CpG二核苷酸的甲基化与染色体的选择性沉默DNA甲基化与组织特异表达,二、通过实验和计算方法识别CpG岛(一) CpG岛的定义及预测(二) 实验方法寻找CpG岛(三) CpG岛的定位有助于发现新基因,(一)CpG岛的定义及预测,Gardiner-Garden和Frommer 长度最短200bp, GC含量至少50%, CpG o/e最小0.6。许多启动子缺乏严格定义的CpG岛,但是有组

4、织特异的甲基化模式,和转录活性有密切联系。,1. 最初的CpG岛定义,2. 改进的CpG岛定义,Takai和Jones 增加最短长度、CpG o/e值 和GC含量分别到500 bp, 0.65% 和 55%对预测精度 的影响。通过使阈值更加严格,Alu重复元件得到最大程度的排除,但此时却排除了原来数量10%的CpG岛,这表明一些真正的CpG岛可能也被排除。,常见的CpG岛预测算法,差异取决于以下因素:(1)任意阈值的应用; (2)没有考虑到CpG岛的异质性; (3)基于DNA序列的预测方法忽略了DNA甲基化状态。,3.排除重复元件对CpG岛预测算法的干扰,重复元件例如“年轻”的Alu元件的碱基

5、组成和CpG岛十分类似,这显著地增加了鉴别CpG岛的假阳性率。大多数的多拷贝序列可以通过Repbase数据库中已知的重复类型得以剔除。在Takai和Jones的基础上应用重复元件筛选后剔除1890个非CpG岛,从而得到更加保守的CpG岛数目的估计即27000。,4. 基于窗口滑动法的CpG岛预测算法,首先准备实验得到的候选CpG岛集合或全基因组序列,然后设定窗口宽度的大小。接着考察窗口内的序列片段是否满足CpG岛定义中的长度、GC含量和CpG o/e值中的一个或几个阈值。一旦发现窗中的序列片段满足了CpG岛的定义,该片段就被选为候选CpG岛,同时扫描窗右移1bp。,如果扫描窗中的序列片段不满足

6、CpG岛的定义,扫描窗右移一个窗口的长度。如果扫描得到的CpG岛区域有重叠,则将重叠部分合并。这种依赖于长度,GC含量和CpG o/e值的一个或全部阈值的CpG岛识别算法有显而易见的缺陷:(1)由于这三个阈值的使用使得参数空间变得很大。(2)预测的CpG岛的长度和数目取决于窗口的长度和步长的预设值,存在主观任意性。(3)CpG岛的起始点一般不是CpG双核苷酸。(4)预测和筛选过程依赖于相同的参数。(5)方法经常需要针对特定物种进行调整。(6)运行时间长。,窗口法,Analyze a window.,Does it meet CpG island criteria?,If not, slide

7、to the right one nucleotide,And analyze again.,And again.,Until it meets the criteria,Then jump ahead and check the window adjacent to the island on the 3 side.,Repeat as needed, until the new window does not meet the CpG island criteria,Then slide the window back toward the island.,Keep sliding unt

8、il the window meets CpG island criteria.,If it doesnt meet the criteria, try trimming a base pair off each end and analyzing again.,削减,Once it meets CpG island criteria, move on to the next adjacent window and analyze that.,5. 基于相邻CpG二核苷酸距离的 CpG岛预测算法,CpGcluster是一种独特的方法,它并不依赖于任何CpG岛阈值,并且由于只涉及算术运算,计算速

9、度提高很多。 工作原理是计算基因组范围的相邻CpG二核苷酸之间的距离。 该算法利用几何分布估计出该距离的理论分布,从而计算出CpG二核苷酸进行汇聚的统计学阈值(40bp)。 最终,该算法得到197727个CpG岛。这个算法得到的CpG岛的特点是短而多,但其中包含大量的重复元件。,(1)假设有如下一条序列:TTGCGGGTCCTAGAAGTCGCCTCCCCGCCTTGCCGGCCGCCCTTGCAGCCCCGAGCCGAGCAGC (2) CpGcluster首先找到所有的CpG双核苷酸的位置(粗体):TTGCGGGTCCTAGAAGTCGCCTCCCCGCCTTGCCGGCCGCCCTTGC

10、AGCCCCGAGCCGAGCAGC (3) 然后得到CpG双核苷酸的位置的列表:4;18;26;34;38;52;57,(4) 通过公式 计算相邻二核苷酸之间的算术距离:13;7;7;3;13;4 (5)考虑到假设:CpG是伯努利实验的结果,这里设成功为CpG,失败为non-CpG。伯努利实验的概率p可以通过大量的序列算出。令序列的长度为L,N为CpG的数目,则 。(伯努利实验,例如投掷硬币N次,最后一次正面朝上的概率,满足几何分布 )。所以临近的CpG双核苷酸的距离满足几何分布,距离d等于失败的次数。(6) 绘制长度(d)分布和几何分布的直方分布图(图13-4)。从中,我们可以发现观测值分

11、布和理论分布差别很大。短距离出现的概率较大。中位数值恰好可以作为CpG二核苷酸富集的阈值。(7) 为了计算之前步骤找到的CpG簇是CpG岛的概率,需要给出统计学p值,该p值可由负二项分布给出(伯努利实验,例如投掷硬币N次,r次正面朝上的概率,满足负二项分布)。通过描述CpGcluster的算法原理,我们知道:存在比随机出现CpG二核苷酸之间距离距离更短的CpG簇,通过合并重合的簇,最终得到的簇就被认为是CpG岛。,人类基因组1号染色体的邻接CpG二核苷酸之间距离的概率密度函数。观察值的分布以空心圆圈表示,而理论分布即几何分布则用实线表示。中位数值恰好和理论值吻合。距离小于中位数值的两个CpG二

12、核苷酸则被纳入CpG岛的一部分。X轴为距离d,Y轴为概率p。Median为中位数,Mean为均值,带圈实线代表观测值的连线,实线代表几何分布的概率密度曲线。(来自于CpGcluster: a distance-based algorithm for CpG-island detection),算法,表格展示的是LRRMT1的 上游序列的预测结果,6. 结合功能基因组数据的CpG定位方法,大多数的预测算法和序列选择技术鉴别的CpG岛数目在24000到27000之间。尽管这些方法之间的差别不大,但是许多鉴别出来的CpG岛在不同的预测结果中并不一致。这种不一致的现象可以通过结合包括DNA甲基化状态和

13、染色质修饰在内的不同类型的信息到预测方法中来而得以解决。在CpG岛预测算法中融合表观遗传信息和基因组属性可能有利于探测方法去除一些看起来有些任意的阈值。例如,Bock等人使用了DNA结构,组蛋白修饰,DNA甲基化,转录因子结合谱,重复元件,进化保守,DNA序列模式等信息定位人类基因组CpG岛,是目前较好的CpG岛定位方法。但该方法很难扩展到非人类的物种中,因为注释数据在其它物种并不全面,甚至十分缺乏。,(二) 实验方法寻找CpG岛,为了克服算法带来的问题,Illingworth等人最近开发了一项CXXC亲和纯化技术(CAP,CXXC affinity purification)以富集非甲基化的

14、CpG富集的DNA片段(CpG岛)。该技术使用了半胱氨酸富集的对非甲基化的CpG位点有高亲和性的CXXC3结构域。CXXC结构域对只包含甲基化的CpG位点或缺乏CpG位点的DNA片段几乎没有亲和性。从小鼠Mbd1中得到的重组的CXXC结构域对非甲基化的CpG位点有高的结合特异性,并被用于从全基因组DNA中提取CpG岛。他们从人类血液中提取了超过17000个CpG岛。,实验方法确定的基因组范围CpG岛图谱,来自于:A Novel CpG Island Set Identifies Tissue-Specific Methylation at Developmental Gene Loci,(三)

15、 CpG岛的定位有助于发现新基因,CpG岛是重要的调控元件,是基因起始的标志,可用于新基因的发现。同时,CpG岛通常是不被甲基化的,作为管家基因的重要标志之一。,http:/202.97.205.61:8080/cpgmi/,三、实验检测技术测定DNA甲基化状态(一)DNA甲基化的检测方法 (二)基因组范围的DNA甲基化检测方法 (三)基于高通量测序的DNA甲基化检测方法 (四)高通量检测技术的选择策略,(一)DNA甲基化的检测方法,目前常用的DNA甲基化检测方法是将待检序列中甲基化的胞嘧啶转化为其它碱基组成的变化。最新的检测方法还用到了基因微阵列(microarray)。,1. 限制性内切酶

16、法,2. 重亚硫酸钠法,3. 亲和纯化,1. 限制性内切酶法,2. 重亚硫酸钠法,重亚硫酸钠(sodium bisulfite)法,3. 亲和纯化,(二)基因组范围的DNA甲基化检测方法,高通量测序是最新发展起来的但却是最有前途的全基因组DNA甲基化分析方法。高通量测序技术的出现,使得产生大量序列信息的时间和成本均要低于桑格法。目前,两种高通量的测序平台最为流行:一种是454生命科学公司开发的焦磷酸测序方法,另外一种是Illumina前身的Solexa开发的基于荧光核苷酸的系统。,(三)高通量检测技术的选择策略,DNA甲基化大规模分析可用平台一览表,四、计算方法预测DNA甲基化,(一)从DNA序列预测胞嘧啶甲基化,1CpG位点甲基化预测,预测的原理如下: 基于n个样本xi,yi,i=1,n (其中xi为d维特征构成的向量,yi取自-1,1而代表类别,-1作为甲基化标记,1作为非甲基化标记)作为训练数据,SVM利用下面的判别函数进行训练和检验: 。 其中, 和b为待估参数,使得判别函数更好地拟合训练数据。当进一步增加窗宽时,SVM的性能并没有显著地提高。 由于单个CpG位点的甲基化状态一般不是一成不变的,因此Methylator几乎没有实用价值,不能满足组织特异分析的要求。实际上,目前尚缺乏有效的CpG位点的预测工具。,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 初中教育

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号