8年制生物信息学ppt课件 第13章

上传人:清晨86****784 文档编号:260548549 上传时间:2022-02-28 格式:PPT 页数:117 大小:8.39MB
返回 下载 相关 举报
8年制生物信息学ppt课件 第13章_第1页
第1页 / 共117页
8年制生物信息学ppt课件 第13章_第2页
第2页 / 共117页
8年制生物信息学ppt课件 第13章_第3页
第3页 / 共117页
8年制生物信息学ppt课件 第13章_第4页
第4页 / 共117页
8年制生物信息学ppt课件 第13章_第5页
第5页 / 共117页
点击查看更多>>
资源描述

《8年制生物信息学ppt课件 第13章》由会员分享,可在线阅读,更多相关《8年制生物信息学ppt课件 第13章(117页珍藏版)》请在金锄头文库上搜索。

1、第十三章第十三章 计算表观遗传学计算表观遗传学 哈尔滨医科大学哈尔滨医科大学 张岩张岩Computational EpigeneticsComputational Epigenetics第一节第一节 引言引言 一、一、 表观遗传学与计算表观遗传学表观遗传学与计算表观遗传学二、二、 计算表观遗传学的研究内容计算表观遗传学的研究内容三、三、 计算表观遗传学的方法和工具计算表观遗传学的方法和工具四、四、 计算表观遗传学的进展计算表观遗传学的进展第二节第二节 基因组的基因组的DNADNA甲基化甲基化 一、一、CpGCpG岛的岛的DNADNA甲基化调控基因的表达甲基化调控基因的表达n n(一)(一) D

2、NADNA甲基化与甲基化与CpGCpG岛岛 n n(二)(二) 甲基化对转录的调控甲基化对转录的调控n n(三)(三) DNADNA甲基化的意义甲基化的意义(一)(一) DNADNA甲基化与甲基化与CpGCpG岛岛n nDNADNA甲基化是一种发生在甲基化是一种发生在DNADNA序列上的化学修饰,序列上的化学修饰,可以在转录及细胞分裂前后被稳定地遗传。可以在转录及细胞分裂前后被稳定地遗传。DNADNA甲甲基化是重要的表观遗传代码。基化是重要的表观遗传代码。 DNADNA甲基化甲基化n n在哺乳动物中,大约在哺乳动物中,大约60% 60% 90%90%的的CpGCpG二核苷酸是甲基化二核苷酸是甲

3、基化的。的。CpGCpG中的中的p p代表连接脱氧胞嘧啶核苷和脱氧鸟嘌呤核代表连接脱氧胞嘧啶核苷和脱氧鸟嘌呤核苷的磷酸基团。苷的磷酸基团。n n在哺乳动物细胞中,在哺乳动物细胞中,DNADNA甲基化主要发生在甲基化主要发生在CpGCpG二核苷酸二核苷酸中胞嘧啶的第五位碳原子上,这样的胞嘧啶也叫做中胞嘧啶的第五位碳原子上,这样的胞嘧啶也叫做5-5-甲基甲基- -胞嘧啶,如图所示。胞嘧啶,如图所示。CpGCpG岛与岛与DNADNA甲基化的关系甲基化的关系 n nCpGCpG二核苷酸倾向于聚集成簇,这样的区域称作二核苷酸倾向于聚集成簇,这样的区域称作 CpG CpG岛(岛(CpG islandsCp

4、G islands)。)。n nCpGCpG岛的特点是岛的特点是GCGC的含量及的含量及CpGCpG的含量非常高。的含量非常高。n nCpGCpG岛主要分布在基因的岛主要分布在基因的5 5 非编码区、启动子和第一外显非编码区、启动子和第一外显子区域,大约子区域,大约60%60%的基因的启动子含有的基因的启动子含有CpGCpG岛。这些区域岛。这些区域的的CpGCpG二核苷酸的富集表明它们处于非甲基化状态(至二核苷酸的富集表明它们处于非甲基化状态(至少在生殖细胞中),因此避免甲基化少在生殖细胞中),因此避免甲基化CpGCpG带来高的突变带来高的突变率。率。(二)(二) 甲基化对转录的调控甲基化对转

5、录的调控DNADNA甲基化影响转录的机制甲基化影响转录的机制n n1. DNA1. DNA甲基化阻碍转录因子的结合甲基化阻碍转录因子的结合n n2 2DNADNA甲基化识别染色质标记甲基化识别染色质标记 n n3. DNA3. DNA甲基化募集其他蛋白引起染色质沉默甲基化募集其他蛋白引起染色质沉默n n4. DNA4. DNA甲基化影响核小体定位甲基化影响核小体定位(三)(三) DNADNA甲基化的意义甲基化的意义n nCpGCpG二核苷酸的甲基化与重复元件沉默二核苷酸的甲基化与重复元件沉默n nCpGCpG二核苷酸的甲基化与染色体的选择性沉默二核苷酸的甲基化与染色体的选择性沉默n nDNAD

6、NA甲基化与基因的组织特异表达甲基化与基因的组织特异表达二、通过实验和计算方法识别CpG岛 (一) CpG岛的定义及预测 (二) 实验方法寻找CpG岛 (三) CpG岛的定位有助于发现新基因( (一)一)CpGCpG岛的定义及预测岛的定义及预测n nGardiner-GardenGardiner-Garden和和FrommerFrommern n长度最短长度最短200bp200bpn nGCGC含量至少含量至少50%50%n nCpG O/ECpG O/E最小最小0.60.6n n许多启动子缺乏严格许多启动子缺乏严格 定义的定义的CpGCpG岛,但是岛,但是 有组织特异的甲基化有组织特异的甲基

7、化 模式,和转录活性有模式,和转录活性有 密切联系。密切联系。1. 最初的CpG岛定义2. 改进的CpG岛定义n nTakaiTakai和和JonesJonesn n增加最短长度、增加最短长度、CpG O/ECpG O/E值值n nGCGC含量分别到含量分别到500 bp,0.65% 500 bp,0.65% 和和 55%55%对预测精度的影响。对预测精度的影响。n n通过使阈值更加严格,通过使阈值更加严格,AluAlu 重复元件得到最大程度的排重复元件得到最大程度的排 除,但此时却排除了原来数除,但此时却排除了原来数 量量10%10%的的CpGCpG岛,这表明一岛,这表明一 些真正的些真正的

8、CpGCpG岛可能也被排岛可能也被排 除。除。常见的常见的CpGCpG岛预测算法岛预测算法预测预测预测预测 方法方法长长长长度度(bpbp)GCGC含量含量(% %)CpG O/ECpG O/E重复元件重复元件屏蔽屏蔽备备备备注注ENSEMBLENSEMBL40040050%50%0.60.6否否严严严严格的参数限制格的参数限制NCBINCBI宽宽宽宽松松20020050%50%0.60.6否否总总总总CpGCpG岛岛岛岛数目数目307193307193NCBINCBI严严严严格格50050050%50%0.60.6否否总总总总CpGCpG岛岛岛岛数目数目2416324163UCSCUCSC2

9、0020050%50%0.60.6是是总总总总CpGCpG岛岛岛岛数目数目2822628226EMBOSSEMBOSS指定指定指定指定指定指定否否参数可参数可调调调调CpGProDCpGProD50050050%50%0.60.6是是总总总总CpGCpG岛岛岛岛数目数目7679376793CpGclusterCpGcluster无限制无限制无限制无限制无限制无限制否否总总总总CpGCpG岛岛岛岛数目数目197727197727CpG_MICpG_MI5050无限制无限制无限制无限制否否总总总总CpGCpG岛岛岛岛数目数目4092640926差异取决于以下因素:(1)任意阈值的应用;(2)没有考

10、虑到CpG岛的异质性;(3)基于DNA序列的预测方法忽略了DNA甲基化状态。 3. 3.排除重复元件对排除重复元件对CpGCpG岛预测算法的干扰岛预测算法的干扰n n重复元件重复元件( (例如例如“ “年轻年轻” ”的的AluAlu元件元件) )的碱基组成和的碱基组成和CpGCpG岛岛十分类似,显著地增加了鉴别十分类似,显著地增加了鉴别CpGCpG岛的假阳性率。岛的假阳性率。n n大多数的多拷贝序列可以通过大多数的多拷贝序列可以通过RepbaseRepbase数据库中已知的数据库中已知的重复类型得以剔除。重复类型得以剔除。n n在在TakaiTakai和和JonesJones的基础上应用重复元

11、件筛选后剔除的基础上应用重复元件筛选后剔除18901890个非个非CpGCpG岛,从而得到更加保守的岛,从而得到更加保守的CpGCpG岛数目的估计岛数目的估计即即2700027000个。个。4. 4. 基于窗口滑动法的基于窗口滑动法的CpGCpG岛预测算法岛预测算法n n首先准备通过实验方法得到的候选首先准备通过实验方法得到的候选CpGCpG岛集合或全基因岛集合或全基因组序列,然后设定窗口宽度的大小。组序列,然后设定窗口宽度的大小。n n接着考察窗口内的序列片段是否满足接着考察窗口内的序列片段是否满足CpGCpG岛定义中的长岛定义中的长度、度、GCGC含量和含量和CpG O/ECpG O/E值

12、中的一个或几个阈值。值中的一个或几个阈值。n n一旦发现窗中的序列片段满足了一旦发现窗中的序列片段满足了CpGCpG岛的定义,该片段岛的定义,该片段就被选为候选就被选为候选CpGCpG岛,同时扫描窗右移岛,同时扫描窗右移1bp1bp。n n如果扫描窗中的序列片段不满足如果扫描窗中的序列片段不满足CpGCpG岛的定义,扫描窗右岛的定义,扫描窗右移一个窗口的长度。如果扫描得到的移一个窗口的长度。如果扫描得到的CpGCpG岛区域有重叠,岛区域有重叠,则将重叠部分合并。则将重叠部分合并。n n这种依赖于长度、这种依赖于长度、GCGC含量和含量和CpG O/ECpG O/E值的一个或全部阈值值的一个或全

13、部阈值的的CpGCpG岛识别算法有显而易见的缺陷岛识别算法有显而易见的缺陷:(:(1 1)由于这三个阈)由于这三个阈值的使用使得参数空间变得很大;(值的使用使得参数空间变得很大;(2 2)预测的)预测的CpGCpG岛的长岛的长度和数目取决于窗口的长度和步长的预设值,存在主观任度和数目取决于窗口的长度和步长的预设值,存在主观任意性;(意性;(3 3)CpGCpG岛的起始点一般不是岛的起始点一般不是CpGCpG二核苷酸;(二核苷酸;(4 4)预测和筛选过程依赖于相同的参数;(预测和筛选过程依赖于相同的参数;(5 5)方法经常需要)方法经常需要针对特定物种进行调整。(针对特定物种进行调整。(6 6)

14、运行时间长。)运行时间长。窗口法窗口法Analyze a window. Does it meet CpG island criteria? If not, slide to the right one nucleotideAnd analyze again.And again.Until it meets the criteria Then jump ahead and check the window adjacent to the island on the 3 side.Repeat as needed, until the new window does not meet the C

15、pG island criteriaThen slide the window back toward the island.Keep sliding until the window meets CpG island criteria. If it doesnt meet the criteria, try trimming a base pair off each end and analyzing again. 削减Once it meets CpG island criteria, move on to the next adjacent window and analyze that

16、. 5. 5. 基于相邻基于相邻CpGCpG二核苷酸距离的二核苷酸距离的CpGCpG岛预测算法岛预测算法n nCpGclusterCpGcluster是一种独特的方法,它并不依赖于任何是一种独特的方法,它并不依赖于任何CpGCpG岛的阈值,并且由于只涉及算术运算,计算速度提高岛的阈值,并且由于只涉及算术运算,计算速度提高很多。很多。n n工作原理是计算基因组范围的相邻工作原理是计算基因组范围的相邻CpGCpG二核苷酸之间二核苷酸之间的距离。的距离。n n该算法利用几何分布估计出该距离的理论分布,从而该算法利用几何分布估计出该距离的理论分布,从而计算出计算出CpGCpG二核苷酸进行汇聚的统计学阈值(二核苷酸进行汇聚的统计学阈值(40bp40bp)。n n最终,该算法得到最终,该算法得到197727197727个个CpGCpG岛。这个算法得到的岛。这个算法得到的CpGCpG岛的特点是短而多,但其中包含大量的重复元件岛的特点是短而多,但其中包含大量的重复元件。n n(1)(1)假设有如下一条序列:假设有如下一条序列:TTGCGGGTCCTAGAAGTCGCCTCCCCGCCTTGTTGCGG

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号