Scince人类基因组计划翻译

上传人:cn****1 文档编号:564576079 上传时间:2023-06-28 格式:DOCX 页数:19 大小:62.72KB
返回 下载 相关 举报
Scince人类基因组计划翻译_第1页
第1页 / 共19页
Scince人类基因组计划翻译_第2页
第2页 / 共19页
Scince人类基因组计划翻译_第3页
第3页 / 共19页
Scince人类基因组计划翻译_第4页
第4页 / 共19页
Scince人类基因组计划翻译_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《Scince人类基因组计划翻译》由会员分享,可在线阅读,更多相关《Scince人类基因组计划翻译(19页珍藏版)》请在金锄头文库上搜索。

1、全基因组霰弹枪测序法产生了 291亿碱基对(bp)人基因组的全基因组序列。在9个月的时间 里,通过从5个个体的DNA中提取的27271,853个高质量序列(5.11倍的基因组覆盖)产生了 148亿个bp DNA序列。两个装配策略一一一个全基因组组装和一个区域染色体组合一一都 被使用,每个都结合了 Celera 的序列数据和公共资助的基因组计划。这些公共数据被分解 成550个bp的片段,以创造一个2.9倍的覆盖范围排序,不包括由公共资助的小组所使用 的克隆和装配程序固有的偏见。这使大会的有效覆盖范围扩大到八倍,减少了最终大会上的 差距的数目和差距,以 5.11 倍的覆盖范围获得。这两种组装策略产

2、生了非常相似的结果, 基本上同意独立的映射数据。这些程序集有效地覆盖了人类染色体的全染色质区域。超过 90%的基因组在10万bp以上的支架组装中,25%的基因组在1000万bp或更大的支架内。 对基因组序列的分析显示,有 26588 个蛋白质编码转录本,有很强的确证证据和额外 的;12000个计算派生的基因与鼠标匹配或其他薄弱的支持证据。虽然基因密集的簇是明显的 但几乎一半的基因分散在低G1C序列中,由大量明显的非编码序列分隔。只有1.1%的基因 组是由外显子进行的,而24%的基因组是内含子,其中75%的基因组是基因间的DNA。基因 片段的复制,大小不等到染色体长度,在整个基因组中很丰富,揭示

3、了复杂的进化史。比较 基因组分析显示与神经元功能有关的脊椎动物扩张,与组织特异性发育调节,以及与止血和 免疫系统有关。序列和公共资助的基因组数据之间的DNA序列比较提供了 210万单核苷酸 多态性的位置。一个随机成对的人类单倍体基因组在平均每1250个基点上有差异,但在基 因组的多态性水平上有明显的异质性。不到1%的snp导致了蛋白质的变异,但是决定哪些 snp 具有功能性的任务仍然是一个公开的挑战。DNA测序的现代历史始于1977年,当时桑格报告了他的方法,用链终止核苷酸类似物来确 定DNA核苷酸的顺序。同年,第一个人类基因被分离并测序。1986年,Hood和同事们(5) 描述了 Sange

4、r 测序方法的改进,其中包括将荧光染料附加到核苷酸上,这使得它们可以被 计算机顺序读取。第一个自动化的DNA测序仪,于1987年在加州应用生物系统开发,当两 种基因的序列通过这项新技术获得时,被证明是成功的。完整的49 kbp噬菌体基因组序列是在1982年由猎枪限制消化法测定的。在考虑1991年对 天花病毒基因组测序的方法时,讨论了全基因组散弹的测序方法,并由于缺乏合适的基因组 组装软件工具而遭到拒绝。然而,1994年,在TIGR, 个全基因组计划中考虑了微生物基 因组测序项目用TIGR汇编算法考虑了散弹排序方法。1995年,由全基因组散弹测序法(13) 完成了 1.8 - mbp 流感嗜血杆

5、菌基因组。随后的几次基因组测序工作的经验确立了这种方法 的广泛适用性测序方法的一个关键特点是使用了带不同插入大小和克隆特性的子克隆库(也称为配对组), 它们使用的是paired - end序列(也称为mate对)。paired - end序列从双链DNA克隆的两端, 长度为500到600个bp。从长段的成功使用结束序列(18 - 20 kbp)的DNA克隆噬菌体久在领 导的微生物基因组组装的建议方法simultaneously地图和人类基因组序列的结束序列150 - kbp 细菌人工染色体()。已知距离的结束序列提供了基因组的长期连续性。成功地对拟南芥 基因组的染色体2进行了修饰。在1998年

6、初,PE生物系统(现在应用生物系统)开发了一种自动化的高通量毛细血管DNA测 序器,随后被称为ABI PRISM 3700 DNA分析仪。PE生物系统和TIGR科学家之间的讨论导致 了一个计划,用3700 DNA分析仪和在TIGR开发的全基因组猎枪测序技术对人类基因组进行 测序。在TIGR设施中建立了基因组测序设施的许多操作原则。然而,为Celera所设想的设 施的容量大约是TIGR的50倍,因此需要进行新开发,以进行样品制备和跟踪,并为who 传奇的组装工作。一些人认为,用复杂的重复序列将流感嗜血杆菌基因组的150倍扩大到人 类基因组是不可行的。因此,果蝇基因组被选为一个大而复杂的真核基因组

7、的全基因组组装 的测试用例。在与Gerald Rubin和Berkeley Drosophila基因组项目的合作中,果蝇基因组120 -mbp的eu染色部分的核苷酸序列在1年的时间内被确定。Drosophila基因组测序工作的结 果是两个关键的发现:(i)装配算法可以产生高度精确的染色体组件,其方向性和方向性都大 大低于10倍的覆盖范围,并且(ii)在一个综合的最终集合的位置上进行多个临时组装并不是 有价值的。虽然这一策略很早就给出了一个合理的结果,但与全基因组的猎枪组合一致,而且有8倍的 覆盖范围,但人类基因组序列并没有像果蝇基因组那样完成了13倍的有效覆盖。然而,很 明显的是,即使有了这一

8、减少的覆盖策略,Celera还可以在不到1年的时间内产生一个精确 的人类基因组序列和定向支架序列。人类基因组测序于1999年9月8日开始,于2000年6 月17日完成。第一次大会于2000年6月25日完成,大会在这里报告于2000年10月1日 完成。在这里,我们描述了应用于人类基因组的全基因组随机散弹序列。我们开发了两种不 同的装配方法来组装;30亿bp,组成了 23对染色体的智人基因组。任何genbank派生的数 据都被粉碎,以消除来自嵌合克隆、外国DNA污染或不组装的连续序列的最终序列的潜在 偏差。如果正确准确地组装基因组序列,以准确地分析人类遗传密码,就必须准确地分析人 类遗传密码,我们

9、将相当大一部分的手稿投入到基因组重建质量的文档中。我们也在计算方 法的基础上,描述了我们对人类遗传密码的初步分析。图1(与此问题相关的折叠图表);文件 为 每 个 染 色 体 Web 图 1 中 可 以 找 到 科 学 的 在 线 www.sciencemag.org/cgi/content/full/291/5507/1304/DC1 提供了一个图形概述基因组编码的 功能。对基因组的详细的人工处理和解释才刚刚开始。一、总结。这一节讨论了关于捐赠选择的基本原理和伦理规则,以确保种族和性别多样性, 以及DNA提取和图书馆建设的方法。等离子体库的构建是霰弹枪测序的第一步。如果DNA 文库大小不一致

10、,不嵌合,不能随机地代表基因组,那么后续的步骤不能准确地重建基因组 序列。我们使用自动化的高通量DNA测序和计算基础设施来实现对大量序列信息的有效跟 踪(273万次序列读取;149亿bp的序列。测序和跟踪从2 - 10- 50- kbp的质粒克隆的两端,对 基因组的计算重建至关重要。我们的证据表明,末端序列的准确配对率大于98%。美国和世界医学协会(特别是赫尔辛基宣言)的各项政策都提出了对人体实验进行实验的 建议。我们召集了一个机构审查委员会(IRB)(31),它帮助我们建立了获取和使用人类DNA的 协议,以及为在这里报告的 DNA 测序研究招募研究志愿者的知情同意过程。我们采取了一 些步骤和

11、程序来保护研究对象的隐私权和机密性。这些包括两阶段的同意过程,一个安全的 随机字母数字编码系统,用于标本和记录,与研究人员接触的对象,以及捐赠者的非现场接 触的选择。此外,Celera申请并获得了卫生和公共服务部的保密证书。本证书授权Celera保 护自愿成为捐赠人的个人的隐私,如公共卫生服务法第42条第241(d)条第301(d)条规 定的。Celera和IRB认为,一个完整的人类基因组的最初版本应该是由多个不同种族背景的捐助者 所衍生的复合材料,在自愿的基础上,他们被要求自我指定一个人种地理类别(例如:,非裔 美国人,华人,西班牙人,高加索人等。我们招收了21名捐赠者(32名)。每个捐赠者

12、的三种基本信息被记录在案,并将其与捐赠样本的保密代码联系在一起:年龄、 性别和自我指定的人种地理组。从女性中收集到 130 毫升的肝素血。从男性开始,收集了 130 毫升的肝素血液,以及 5 个精液标本,收集了 6 周的时间。永久淋巴母细胞线是由 epstein - barr 病毒永生创造的。从 5 个受试者的 DNA 中选择了基因组 DNA 测序:两个男性和三个女 性一个非裔美国人,一个亚洲人,一个西班牙裔墨西哥人,以及两个高加索人。其 DNA 序列的决定是基于一系列复杂的因素,包括实现多样性的目标和技术问题,如 DNA 库的质 量和可获得的不朽细胞系。1.1 Library constru

13、ction andsequencing全基因组霰弹枪测序过程的中心是制备高质量的质粒库,以各种不同的插入尺寸,这样就可 以获得一对序列读(配偶),一个从每个质粒插入的两端读取。高质量的图书馆对基因组的所 有部分都有相同的表示,少量的克隆没有插入,也没有来自线粒体基因组和大肠杆菌基因组 DNA 的污染。每个捐赠者的 DNA 都被用来在一个或多个三种等级的基础上构建质粒库 :2 kbp,10 kbp,50 kbp在设计dna测序过程中,我们将重点放在开发一个简单的系统,可以用健壮的、可复制的方 式来实现,并有效地监控(图 2)。目前的测序协议基于dideoxy测序方法,该方法的每次反应通常只产生5

14、00到750个bp。这 种对阅读长度的限制,在对大的真核基因组进行分析的前提下,取得了巨大的进展。我们在 Celera 工厂完成了这一工作,它占地约3 万平方英尺的实验室空间,并以每天17.5 万次的 速度连续不断地生产序列数据。dna测序设备由一个高性能计算设备支持。DNA测序的过程是由设计和自动化组成的。模块间的示例backlog允许四个主要模块独立运 行:(i)库转换、电镀和菌落选择;(2)DNA模板制备;(iii)双脱氧测序反应装置和纯化;并以ABI PRISM 3700 DNA分析仪进行序列测定。由于每个模块的输入和输出都经过了仔细的匹配, 并且不断地对样品积压进行管理,自1999年

15、5月Drosophila项目开始以来,测序工作一直 没有中断。 ABI 3700是一个完全自动化的毛细管阵列测序器,因为这样可以操作最少的操作 时间,目前估计每天大约15分钟。毛细管系统还通过消除与板状凝胶相关的手动样品加载 和lanetracking误差,促进了测序跟踪的正确关联。大约有65名生产人员被雇佣和培训,并 定期通过四个生产模块进行轮换。中央实验室信息管理系统(LIMS)通过独特的条形码标识符 跟踪所有的样本。该设施得到了质量控制小组的支持,该团队执行原材料和过程中测试,以 及质量保证小组,包括文件控制、验证和设备审核。对扩大规模的成功至关重要的是在实现 之前对所有软件和工具的验证

16、,以及对任何流程更改的生产规模测试。1.2 Trace processing开发了一个自动化的跟踪处理管道来处理每个序列文件。在质量和矢量微调后,平均修剪序列长 度为543 bp,测序精度呈指数级分布,均值为99.5%,小于1000的读数小于98%(26)。每个修 剪序列都被筛选到与污染物相匹配,包括单独的向量序列、大肠杆菌基因组 DNA 和人类线粒体 DNA。所有与污染物匹配的序列都被丢弃。共有713个读数与大肠杆菌基因组DNA相符,2114 个读数与人类线粒体基因组相符。1.3 Quality assessment and control序列数据的碱基对级精度的重要性随着基因组的大小和重复性的增加而增加。每个序列读取必须 在基因组中唯一的位置,即使是适度的错误率也会降低程序集的有效性。此外,维护 matepair 信息的有效性对于下面描述的算法非常重要。程序控制是为了维持序列配对的有效性而建立的, 因为测序反应在整个过程中进行,包括在 LIMS 中建立的严格的规则。在果蝇基因组计划(26)的 过程

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号