从人类基因组变异的地图1

上传人:工**** 文档编号:469227030 上传时间:2024-03-03 格式:DOC 页数:75 大小:201.50KB
返回 下载 相关 举报
从人类基因组变异的地图1_第1页
第1页 / 共75页
从人类基因组变异的地图1_第2页
第2页 / 共75页
从人类基因组变异的地图1_第3页
第3页 / 共75页
从人类基因组变异的地图1_第4页
第4页 / 共75页
从人类基因组变异的地图1_第5页
第5页 / 共75页
点击查看更多>>
资源描述

《从人类基因组变异的地图1》由会员分享,可在线阅读,更多相关《从人类基因组变异的地图1(75页珍藏版)》请在金锄头文库上搜索。

1、从人类基因组变异的地图人口大规模测序千人基因组计划联合体*千人基因组计划的目的是提供了深刻的表征人类基因组序列变异为基础调查,基因型和表型之间的关系。在这里,我们提出了试点阶段的结果项目,旨在开发和高通量全基因组测序,比较不同的策略平台。我们进行了三个项目:低覆盖度全基因组测序的179个人从四个人群;高覆盖测序两个母亲父子三人和外显子目标的697测序个人从七个人口。我们描述的位置,等位基因频率和当地的单体型结构约15万单核苷酸多态性, 100万短的插入和删除,以及20,000结构的变体,其中大部分是以前未描述。我们表明,因为我们已经编目茫茫大多数常见的变化,发现任何个体的当前访问的变体中,有9

2、5以上的是存在于该数据集。平均而言,每个人都被发现携带亏损约250至300的功能变种注明牵连的遗传紊乱的基因和50到100的变种。我们演示了如何使用这些结果可以通知协会和功能研究。我们从两个三人小组,直接估计的速率OFDE novogermline基地替换突变约1028每碱基对每一代。我们探索方面的数据自然选择的签名,并确定附近的基因的遗传变异显着减少,由于选择链接的网站。这些方法和公共数据将支持下一阶段的人类遗传研究。了解基因型和表型之间的关系是在生物学和医学的中心目标之一。参照人类基因组序列1人类研究提供了基础遗传学,但人类基因变异的系统调查需要满DNA序列变异在整个频谱中的知识等位基因频

3、率和类型的DNA之间的差异。取得实质性进展已经作出。到2008年公开目录变异位点( dbSNP数据库129 )包含约11万单核苷酸多态性(SNPs)和3万短吨插入和删除(插入缺失)2-4。数据库的结构变异(例如, dbVAR )索引的大型基因组变异的位置。国际HapMap计划的两个等位基因频率及相关编目附近的变种之间,这种现象称为联动模式不平衡(LD ) ,横跨几个人口为350万个SNPs3,4。这些资源带动疾病基因的发现,在第一新一代的全基因组关联研究( GWAS ) ,其中在几十万的变异位点的基因型,并结合LD的知识结构,让绝大多数的普通变种(这里,那些with.5 的次要等位基因频率(

4、MAF ) )测试协会4与疾病有关。在过去的5年中协会研究已经确定了一千多与疾病易感性和其他常见性状相关的基因组区域5。常见和罕见的结构变异的全基因组的集合同样进行了测试,与疾病相关6。尽管取得了这些成就,很多工作仍然需要实现深了解人类表型的遗传贡献7。一旦一个地区已确定为窝藏的风险轨迹,详细研究所有“遗传变异的轨迹是需要发现的因果变种(次) ,量化疾病易感性的贡献,阐明其角色功能的途径。低频和稀有变体(这里被定义为0.5 至5的MAF ,低于0.5 的MAF ,分别) ,大大超过了常见的变种,也有助于显著的遗传结构ofdisease的,但它尚未被系统研究7-9。同时,先进的DNA测序技术,使

5、个体的测序基因组10-13,照亮的差距,在数据库的第一代主要包含常见的变异位点。一个更完整人类DNA变异的目录是充分了解的前提条件常见和低频变体在人的表型的作用的变化。千人基因组计划的目的是要发现,基因型和提供准确的所有形式的人类DNA单倍型资料在多个人群中的多态性。具体而言,目标是表征的变种,基因组区域的95以上目前高通量测序技术,等位基因频率的1或更高(的经典定义的多态性)每5个主要的人口群体(群体或祖先来自欧洲,东亚,南亚,西非和美洲)。由于功能的等位基因,经常发现在编码地区和等位基因频率已经减少,低频率等位基因(下来,对0.1 )也将被编目等地区。在这里,我们报告的结果,该项目的试点阶

6、段,其目的这是发展和比较不同的策略全基因组测序高通量平台。为此,我们承诺三个项目: 179人的低覆盖度测序;深两个三人小组6个人测序和外显子测序8,140个外显子697人(见专栏1) 。结果给我们一个多更深,更均匀的画面比人类基因变异以前,提供了新的见解到景观功能变异,遗传协会在人类和自然选择。数据生成,对齐方式和变异的发现共4.9兆盐基的DNA序列中产生的9个从DNA测序中心用三个测序技术,*列出的参与者和他们的隶属关系将出现在底纸。2010年10月28日| VOL 467 |自然| 1061麦克米伦出版者有限公司。保留所有权利2010永生化淋巴母细胞系(表1,得到补充表1) 。所有测序的个

7、人提供的通知同意,并明确同意向公众传播他们的变化数据,作为人类基因组单体型图计划的一部分(见补充信息有关详细信息,知情同意和数据发布)。的异质性(读取长度从25到几百个碱基对序列数据( BP) ;单配对结束)反映的多样性和快速发展在项目过程中的相关技术。所有主要序列来自正确的个人数据被证实人类基因组单体型图SNP基因型数据比较。不同的分析检测和基因序列变异不同类型和三个项目,但所有的工作流程共享以下四个特点。 ( 1 )发现:排列顺序读取到参考基因组,并识别候选网站或一个或多个样品的不同区域在从参考序列; (2)过滤:使用的质量控制措施,消除候选场址,很可能是误报; (3)基因分型:估计等位基

8、因存在于每个个体的变异位点,或区域(4)验证:测定新发现的变体的一个子集采用独立的技术,使假的估计发现率( FDR ) 。独立的数据源被用来估计基因型推断的准确性。所有主要序列读取映射读取电话的变种,推断基因型,估计单倍型和新的独立验证数据是公开可通过该项目的网站上(http:/www 。变种,等位基因频率及基因型1000genomes.org ) ;过滤集也被存放在dbSNP数据库( http:/www.ncbi.nlm.nih.gov/snp ) 。对齐和访问基因组对齐NCBI36参考基因组测序结果(补充资料) ,可在BAM文件格式14早期创新项目的存储和高通量测序数据共享。准确识别的遗传

9、变异取决于序列数据对齐正确的基因组位置。我们限制打电话来的大多数变种“可访问的基因组,定义为参考序列中的那部分许多含糊放置后,剩下的地区除外读取或意外的高或低的数字对齐读取(补充资料) 。这种方法平衡需要减少不正确的路线和假阳性的检测变种对最大化的基因组的比例,可以进行讯问。访问基因组对于低覆盖率分析,包含参考序列的约85的和93的编码序列。超过99的基因在第二代网站单体型图( HapMap计划II )4都包括在内。无法访问网站,超过97 的标注为高拷贝重复或重复片段。然而,只有四分之一的以前发现的重复和重复片段是无法访问(补充表2 ) 。多三人项目的数据收集技术改进之前,我们有能力地图序列读

10、取强劲的一些重复的基因组区域(主要是较长的,成对的读取) 。为由于这些原因,严格的对准更加困难,和一个较小的部分基因组三人项目中访问: 80参考, 85的编码序列, HapMap项目II位点(表1)和97 。校准,局部调整和装配变种通话质量受许多因素,包括基站呼叫序列中的错误率的定量读取,本地读取对应的准确性和方法则是由各基因型的定义。该项目引进的关键创新,在每个这些地区(见补充信息)。首先,基本品质分数报告由图像处理软件经验,重新校准理货的比例是不匹配的参考序列(在非dbSNP数据库网站)的报告质量作为一个功能得分,位置在读等特点。其次,在潜在变异位点,进行局部调整的所有读取共同跨越所有样品

11、,允许替代的等位基因,其中包含插入缺失。这调整步骤,大幅减少错误,因为地方不对,特别是围绕插入缺失,可能是一个主要的误差来源BOX 1千人基因组试点项目要制定和评估多个策略检测和基因型不同类型和频率,使用高通量的变体测序,我们进行了三个项目,采用样本扩展人类基因组单体型图收集17。三重奏项目:高覆盖度全基因组鸟枪法测序(平均423)两个家庭(一个Yorubafrom的尼日利亚伊巴丹( YRI ) ;oneofEuropeanancestryinUtah ( CEU ) ) , eachincludingtwoparents和一个女儿。每一个的后代进行测序用三平台和多个中心。低覆盖工程:全基因组

12、鸟枪测序低59 YRI , 60无关无关的个人的覆盖率( 2-63 )CEU从个人, 30例中国汉族人在北京( CHB )和30例日本人在东京( JPT ) 。外显子:有针对性的项目8,140个外显子捕获随机从906选择的基因(共有1.4 MB ) ,其次在高测序697人从7种群覆盖( average.503 )非洲( YRI , Webuye Luhya ,肯尼亚( LWK ), ) ,欧洲(CEU ,托斯卡尼超过120,000多家( TSI ) ) andEastAsian ( CHB , JPT ,科罗拉多州ChineseinDenver( CHD ) )的祖先。无论是在其三个实验设计差

13、别很大能够获得的数据具有不同的类型和频率的变体,和我们在分析方法用于推断个体的基因型。专栏1图中显示项目的内容及不同的示意性表示从每个获得的信息。在左侧区域的颜色显示在个人基因组不同的单倍型,线宽表示深度报道(不按比例) 。阴影区域的右侧给出了一个例如,可产生相同的基因型数据样本下的三大战略(圆点表示丢失数据;破折号表示相位信息,也就是,无论是杂合的变体可以被分配到正确的单倍型) 。在很短的区域的基因组中,每个单独的两个单倍型,通常是共享的其他人口。在三人设计,高的序列覆盖率和多个平台的使用使能准确发现整个基因组的大部分,孟德尔的多个变种类型协助基因型估计,推断单倍型和传输质量控制。低,与此相

14、反,有效coverageproject识别常见的单体型共享变种49,50(红色或蓝色),但具有较低的功率检测罕见的单倍型(浅绿色)和相关变体(表示缺失的等位基因) ,将给出一些不准确的基因型(红色等位基因错误分配G) 。外显子的设计能准确的发现普通,稀有和低的频率变化的基因组中的对象的部分,但缺乏观察能力目标区域以外的变种或分配单倍体阶段。三重奏低覆盖外显子个人单倍体基因组A-C -T - G -C -A -CAG -G -A -A -T -C常见的单体型A- 。 -T -G -C -A -CA- 。 -G -G -A -T -C外显子变异。 。 T G 。 A。 。 G A 。吨分阶段传输统计调相矢志不渝研究文章变种通话。最后,通过初步分析的数据与多个基因型和变异调用算法,然后生成一个共识,这些成果,该项目减少了基因分型错误率那些目前达到的30-50相比,使用的任何一个方法(补充图1和补充表12 ) 。我们还使用了局部调整,以产生候选替代在这个过程中调用短( 1 -50- bp)的插入缺失的单倍型15,以及当地novoassembly解决断点删除更大超过50个基点。后者导致大的数量加倍( 0.1 KB)结构变异碱基对的分辨率划定16。充分基因组的从头组装(补充信息) ,导致3.7百万碱基的识别(MB )全新的序列不匹配的高门槛参

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号