人类基因组中的CpG岛上的所有甲基化区段的测定

上传人:m**** 文档编号:458215018 上传时间:2023-08-05 格式:DOCX 页数:4 大小:21.11KB
返回 下载 相关 举报
人类基因组中的CpG岛上的所有甲基化区段的测定_第1页
第1页 / 共4页
人类基因组中的CpG岛上的所有甲基化区段的测定_第2页
第2页 / 共4页
人类基因组中的CpG岛上的所有甲基化区段的测定_第3页
第3页 / 共4页
人类基因组中的CpG岛上的所有甲基化区段的测定_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《人类基因组中的CpG岛上的所有甲基化区段的测定》由会员分享,可在线阅读,更多相关《人类基因组中的CpG岛上的所有甲基化区段的测定(4页珍藏版)》请在金锄头文库上搜索。

1、人类基因组中的CpG岛上的所有甲基化区段的测定摘要:CpG岛的甲基化在各种生物过程中发挥了重要作用。为了探讨人类基因组中CpG岛 上所有区段的甲基化,我们运用一个模型测定CpG岛上甲基化区段。从这个模型进行其他 现有的方法。我们在整个人类基因组运用该模型并且测定CpG岛上所有甲基化的区段的。 基于轮廓的甲基化,我们发现大约31%的CpG岛倾向于甲基化而且,位于启动区CpG岛很 少甲基化。在染色体G带和R带之间CpG岛的甲基化水平没有显著不同。在抵制甲基化的 启动子CpG岛上,RNA聚合酶II的含量有显著提高,这表明有这样的启动子CpG岛的基 因倾向于更加活跃。关键词:DNA甲基化区段;CpG岛

2、;测定模型;特征选择在哺乳动物中, DNA 甲基化是一个主要的表观遗传修饰。在各种各样的生物现象包括 胚胎发育、基因组印记和X-chromosome失活中都需要它。在哺乳动物中,DNA甲基化受限 于残留在CpG二核苷酸中的胞嘧啶。虽然在人类基因组中大多数CpG二核苷酸是被甲基化 的,但是CpG岛(CGIs)在正常的体细胞组织中是完全抗甲基化的。根据Gardiner-Garden序 列的标准,一个CGI是一个G和C含量高的区域,以及观察与预期的CpG的比率:G+C含 量超过50%,观察与预期的CpG的比率超过0.6并且长度高于200bp。近年来,有越来越多的证据表明一些 CGIs 在正常组织中事

3、实上是甲基化。作为启动子 CGIs 异常的甲基化与癌症的发生和发展是密切相关的,这非常有益于识别正常的组织中 CGIs 甲基化的状态。然而,由于当前生物检测技术的大量精力需求、高成本和报道限制, 因此在人类基因组中所有CGIs的甲基化依然没有前景。在这次研究中,我们构建了一个计算模型,采用支持向量机预测了 CGIs甲基化现状。 DNA序列特征和组蛋白修饰标志都明显差异地用于区分抗甲基化CGIs (U-CGIs)和甲基化 倾向CGIs (M-CGIs),该模型的表现比我们以前的工具和其他现有的方法更好。将该模型应 用于人类基因组所有CGIs,我们得到一个预期的人类基因组中CGIs甲基化景观,并发

4、现大 约31%的CGIs是有甲基化倾向的,这与Yamada et al.的有关大约三分之一的CGIs进行DNA 甲基化的研究是一致的。所有的染色体中的CGIs中,虽然只有大约6%的启动子CGIs很容 易被甲基化,但是位于性染色体中的CGIs超过三分之二的都有甲基化倾向。我们也发现有 更多的CGIs坐落在R带,但是CGIs在R带和G带之间甲基化的倾向无显著性差异。另外, 我们调查了在启动子CGIs上的RNA聚合酶II占用区域,并且发现这个占用区域明显高于 抗甲基化的启动子CGIs,说明基因的启动子CGIs抗甲基化更加活跃。1、材料和方法1.1、DNA甲基化数据为构建模型收集的数据来自于人类胞嘧啶

5、计划(HEP)。它发现了用硫酸氢盐DNA测 序方法发现了来自 12个组织,跨越6、 20、 22号染色体的大约190万胞嘧啶甲基化的强度。 这个显示甲基化强度范围从0到100。基于CD4 T细胞的数据,我们绘制了人类基因组中已 经发现的胞嘧啶图谱,并且专注于CGIs(Gardiner-Garden序列标准),他们的CpGs超过10% 是有甲基化强度的。一个CGI甲基化强度是指包含在CGI内检测到的CpG二核苷酸的强度。 将甲基化强度大于50的CGIs视为甲基化倾向的CGIs (M-CGIs),而那些低于10的为抗甲 基化CGIs (U-CGIs)。这个标准下,156 U-CGIs和100 M-

6、CGIs是可得到的。为了验证这个,从罗林斯等的工作中得到DNA甲基化的数据。他们用甲基化敏感的限制 性酶的方法发现了在人脑体内的DNA甲基化。我们根据Gardiner-Garden对CGI的定义, 提取 U-CGIs 192 和 M-CGIs 301。1.2、预测基于来源于HEP的CGI数据,我们通过选定预测模型的构建与支持向量机(SVM)的方法 来熟知其特点。我们使用的 DNA 序列特征和组蛋白标记作为候选特征修改列表。在 DNA 序列的特性中,主要有三种类型的特征,其中有重要作用的CGI甲基化状态预测:(l)CGI特点: 长度,G + C含量和观察与预计中央比;(2)来自于RepeatMa

7、sker的AluY重复元素的计数; 来自于MATCH的从TRANSFAC 11.2开始的非多余的214脊椎动物的转录因子结合位 点(TFBSs)的分布。据报道,DNA甲基化和组蛋白修饰组成了复杂的结构调整染色质调节网 络和基因功能,并且一定的组蛋白标记可以保护防止CGIs甲基化。因此,38号由王等人在 CD4 T细胞中发现的组蛋白修改标志也在候选特征列表。组蛋白的修饰标记代表CGI区域 中的修饰标记的数量。在这些246个特点中,分享测试被应用于选择那些在U -和M-CGIs (P 0.05)之间明显不同分布的功能o SVM应用于我们的模型结构。在这二叉分类问题中(+1对 U-CGIs 和 -1

8、 对 M-CGIs), SVM 将获得一个将预测的错误减小到最小和使训练数据上的 分离边缘最大化的决定。在 LibSVM 包装中被证实的线性 SVM 被应用于优化的实施。 LOOCV被用于评价不同模型错误率。在每个模型中,提取于特定长度的CGI侧面区域的特征被探讨。特征选择过程基于在每一轮的交叉验证中的训练数据是为了避免信息的泄漏。支 持向量机的性能进行了评价与四个指标:专用性(p)、灵敏度高、精度(ACC)和相关系数(CC)o 我们计算专用性(p)、灵敏度高、精度(ACC)和相关系数(CC)如下:IN+ETSE=I?.IP+FNACC =IP + FN+TN+FPTPxTN FPxFNTP+

9、TNCC =7(TP + FN)x(TP-FFP)x(TN + FP)x(TN + ESr)TN, TP, FN 和 FP 分别代表 true-negative, true-positive, false-negative and false-positive。 1.3其他数据整个基因组的CGI数据从UCSC基因组下载浏览器。(http:hgdownload.cas.ucsc.edu. /golden-Path/hg18/database/)从克隆中筛选CGIs之后,尚未完成或者不能被放置在某一的染 色体的确定特定区域,我们得到了 27639 CGIso管家基因信息来自于艾森柏格。基于来自 4

10、0 多个人体的正常组织研究,苏等人得到的芯片表达数据,他们使用独立的高性能的测试表 达的基因定义管家基因。发起人被定义为该区域位于1000bp和200 bp下游的上游出发地点 (TSSs转录)。TSS信息也得到UCSC基因组的浏览器。如果一个CGI和任何启动子重叠,CGI 叫做启动子CGI。如果一个CGI和任何一个已知基因区域重叠,则这个CGI被认为定位在在 内部基因区域。否则,则是 FAN ShiCai等在 Chinese Sci Bull August (2010) Vol.55 No.22 2355 定义的基因内区域。除此之外,当我们调查分布在R和G带的染色体时,可以从UCSC基 因组的

11、浏览器中提取R和G带信息。这个RNA聚合酶II绑定纹是来自Barski等通过ChIP-Seq 技术得到的基因组数据。结合度代表在这个有趣的区域中的标签数。2. 结果与讨论2.1 模式演示来自CD4 T细胞的U-CGIs与156 100 M-CGIs,我们用我们的模型预测CGI的甲基化状 态。LOOCV被用于评价模型的误差率。在每一轮的交叉验证中,分布在二进制培训资料里, 特征差异显著(P 0.05)被用于该模型中。尝试通过不同的特征提取CGI侧面区域的长度(从 100 bp到700bp,每步100 bp),我们有100多种模式的分类结果(图1)o当CGI侧面区域的长 度是400 bp(ACC

12、0.94 , CC 0.81),可以看到最好的LOOCV模式演示。因此,从400 bp侧面区域的基于特征的模型,是我们指定的模型。在这种模式下,76个特 征在分享测试中被筛选出来(P 0.05):32分之38的组蛋白标记,3个CGI特征和41分之 214的TFBSs. 32个组蛋白标记价值最低,表现出组蛋白标记在CGI甲基化的预测中起到的 关键作用。为了检验该模型的精确度,我们预测CGIs(375 CGIs)的甲基化状态,这些位于启动子区 域,并发现2.93%的CGIs更易于甲基化。如果抗甲基化状况需要在基因表达的前提下进行是 真的,也就是说,所有的管家基因的启动子CGIs应该会抗甲基化,那么

13、我们预测的抗甲基化假 阴性率在启动子CGIs区域可能在3%左右。我们也将这个模型在一个独立的数据里与我们以前的工具、校勘作了比较。这些数据 是由人类的大脑,包括301 U-CGIs和192 M-CGIs。对三种模型的性能都列在表1。你可以看 到,我们的更新方法能得到最好的性能。与试验结果进行了对比分析,这个更新方法揭示了在 评估CGIs的甲基化水平中组蛋白修饰标记的重要性。与先前工具的结果相比,这个更新方 法揭示了系统特征筛选过程在模型构建中的重要性。2.2CpG岛中的甲基化区域利用最新的模型与最好的表现,我们预计CGI全基因组的甲基化区域。有27639 CGIs 来自UCSC基因组浏览器。之

14、后,不能被精确定位的CGIs被过滤。在这些CGIs中,30.77% 易于被甲基化。这是符合Yamada et al等的观察大约有三分之一的CGIs进行DNA甲基化。当考虑到的各染色体上CGIs的甲基化轮廓,我们发现三号染色体上的CGIs甲基化水 平最低(13.37%)当Y染色体上的CGIs甲基化水平是最高的(87.85%) 各染色体上CGIs的 和易于甲基化的比例分配在表2中显示。我们也发现超过66%的定位于性染色体的CGIs易 于甲基化。符合多数性染色体上的基因受到抑制。接下来我们调查了 CGIs的甲基化轮廓定 位在与基因相关的不同区域。启动子、内部基因中CGIs易于甲基化的比例在表2中显示

15、。 人们可以看出,约有45%的CGIs位于启动子区域,然而,其中只有6.19%有甲基化倾向,这 表明了启动子CGIs很少的甲基化。2.3不同染色体条带中CpG岛的甲基化倾向类染色体可分为两种不同的领域,被称为基因组G带和R带。R带具有富含基因的染色 质和在S阶段一半的早期复制的特征,当G带具有缺乏基因的异染色质和在S阶段第二个一 半时复制的特征。因此,评估易于甲基化的CGIs在不同波段的染色体中的分布是十分有趣的 图3所示的是Chr20的剖面图(剖面上显示它与其他的染色体的分布是非常相似的,如图S1, )。你能看到CGI甲基化强度(冲曲线)在R带(白色区域)通常高于G带 (灰色和黑色的区域)。

16、同时,我们也发现有更多的CGIs分布在R带(固体曲线)上。我们估算 出易于甲基化的CGIs在R带和G带的第23对染色体上(图4)。你可以看到,CGIs易于甲基 化的比率上在两带之间没有显著的差异 (p = 0.4252)。因此,在之前的报告中,高浓度的 DNA甲基化水平倾向于更多地分布在R带(28)上,这仅因为它富含高密度的GC。2. 4绑定在不同的甲基化的CpG岛上的RNA聚合酶II的简介为了研究启动子 CGIs 的甲基化不同状态的转录活动,我们利用绑定在高分辨率的结合 强度很高的RNA聚合酶II,由Barski李玮提供。图5显示了框缝中紧密结合的M -和U - CGIs。你可以看到,聚合酶II在抗甲基化启动子CGIs中含量显著增高(p = 8.46X10 32), 说明抗甲基化的启动子CGIs趋于更加活跃。在许多抗甲基化启动子CGIs上的低含量德聚合 酶II意味着抗甲基化

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号