国家自然基金标书-基于新一代测序的生物信息学理论与方法

资源描述

《国家自然基金标书-基于新一代测序的生物信息学理论与方法》由会员分享，可在线阅读，更多相关《国家自然基金标书-基于新一代测序的生物信息学理论与方法（34页珍藏版）》请在金锄头文库上搜索。

1、项目名称：基于新一代测序的生物信息学理论与方法首席科学家：张学工清华大学起止年限：2012.1-2016.8依托部门：教育部中国科学院一、关键科学问题及研究内容解读生物细胞复杂的信息调控系统是理解各种复杂生命现象机理的关键。新一代测序技术为我们提供了从多个角度观测这个复杂调控系统的可能，但要从数量巨大、类型复杂的测序数据中挖掘出规律性的知识、并通过整合这些知识形成对系统的整体认识，需要解决一系列生物信息学理论与方法问题。本项目拟结合基因组、表观基因组、转录组、调控组、宏基因组等各个生物层面上的应用，从数据产生的源头、数据处理的各个环节和对复杂生物机理的解析等方面入手，系统研究新一代测序相关

2、的一系列生物信息学问题。这些问题包括：怎样建立各种新一代测序数据产生和误差的数学模型？能否通过对数据模型和后续应用的研究指导测序的实验设计和技术改进？怎样通过算法、软件、硬件和系统的策略有效应对超海量测序数据带来的存储、传输与计算问题？如何通过信号处理、模式识别等手段准确有效地从ChIP-seq、bisulfite-seq、3C、RNA-seq、CLIP-seq等类型的测序数据中提取各种有效信号？怎样建立比较各种信号的统计模型？怎样通过高分辨率基因组和表观基因组数据识别各种调控元件、构建调控系统？如何通过对RNA测序数据的处理精细绘制转录组、精确构建编码和非编码基因的转录谱和剪接加工模式？如何

3、在没有参考序列的情况下非监督地组装和识别宏基因组和宏转录组中的有效功能单位、进而对微生物群落的功能进行刻画？如何对细胞分化和癌症发生发展等复杂生物过程动态地构建调控网络、解读这些过程中的调控程序？怎样将不同层次、不同尺度上的组学数据进行整合？如何定量描述复杂生物网络的功能、定量研究生物网络整体特性与疾病等表型的关联？在新一代测序数据下，怎样才能更有效地开展群体遗传学研究？采用混合样本测序策略进行全基因组关联研究的统计学性质是怎样的？怎样通过高分辨率的功能元件谱建立复杂疾病遗传学因素的功能通路？等等。这些问题是紧密联系的，概括起来，可以总结为两类科学问题，我们称之为新一代测序数据的计算问题和推理

4、问题。所谓计算问题，主要包括通过对数据模型的认识改进数据处理质量，通过对算法、软件、存储和计算机体系结构、服务模式等的研究提高数据处理效率和能力等；所谓推理问题，则是指通过对生物问题和测序数据特点两方面的深入研究，对于多种类型的新一代测序数据，提出和发展有效提取生物学信息的理论和方法，提出和发展整合多种组学数据的理论和方法，提出和发展定量描述复杂生物网络、系统及动态演化的理论与方法，并将这些理论与方法应用到细胞分化、癌症发生发展等复杂生物过程调控系统的解析和建模上，获得新的生物学认识。换句话说，这里的计算问题就是怎样改进和提高超大规模测序数据的处理方法和处理能力，推理问题就是怎样从复杂的测序数

5、据中获取知识和规律。对这两类问题的研究相辅相成，构成了我们拟研究的新一代生物信息学理论与方法。围绕这些关键科学问题，按照新一代测序数据产生、处理、解析、应用的主要环节，本项目拟开展的主要研究内容可归纳为10项，分别针对上述两方面的科学问题、按十个主意研究内容展开研究：（一）超大规模测序数据的处理方法与处理能力（1）对新一代测序数据产生模型和特点的数学描述，以及在此基础上的新一代测序实验设计理论与方法。深入理解数据产生过程中可能影响数据质量的各个因素，建立数据产生的数学模型，是更好地处理和应用新一代测序数据的基础。新一代测序的发展主要是由测序技术自身的发展推动的，尚缺乏从最终应用角度对不同测序

6、技术中各个影响因素的系统研究。我们将在本项目中对包括Illumina/Solexa、Roche/454、AB/SOLiD和国产AG-100/200测序系统在内的多种测序平台进行实验设计、误差分析、质量评估和平台比较的研究，也包括对将来第三代测序平台的相应研究，发展新一代测序技术的误差分析和质量控制理论，建立数据分布和测序误差的数学模型，设计具有容错和误差纠正能力的数据处理方法，为后续处理算法提供数据模型指导，也通过对测序误差和质量控制的研究为测序技术本身的发展提供反馈。另一方面，针对测序实验中可以采用的生物条码（barcoding）技术和SOLiD等技术采用的碱基组合编码测序策略，研究在测序技

7、术和实验设计中的编码理论，发展针对不同类型应用的优化实验设计策略和方法。（2）高效的新一代测序数据基本处理算法和工作流，以及跨平台测序数据的统合分析。不同类型测序技术的数据有各自的特点，但共同特点是数据量大、数据处理过程复杂、对计算资源要求高，这些特点，制约了生物学和医学实验室对测序数据的应用，也构成了将来个体化基因组发展的一个瓶颈。我们将对各种测序数据的典型处理算法进行优化，发展针对新一代测序数据处理的可视化交互工作流；研究发展利用GPU/FPGA加速器支持的快速算法，包括大量短序列比对、从头组装、变异位点检测等，大大提高常见测序数据处理流程的计算效率；研究对多种测序平台数据以及基因芯片数据

8、的统合分析（meta-analysis），比较不同平台的数据，有效利用平台间技术差异和互补性，并结合人类基因组和变异组数据资源，提升数据质量，消除测序噪声。（3）适应大规模基因组数据的数据压缩存储、传输方法和搜索方法，面向深度测序大数据量的计算模型与体系结构探索。新一代测序的发展和推广应用使生物序列数据增长速度远远超过了摩尔定律对计算机处理能力增长的预期。我们将深入分析各种基因组数据的特点，针对性地研究高效数据压缩和传输方法，研究新型的数据存储系统构架；研究在压缩空间上进行数据处理的方法，将存储、压缩和处理、应用结合起来考虑，发展适应超大规模基因组数据的搜索方法；深入分析测序数据的特点和测序数

9、据常见处理任务对计算资源的需求特点，探索新的软硬件模型和可能的新型体系结构，探索新的计算服务模型在测序数据存储、传输和处理上的应用，从计算技术上为迎接个体基因组时代的到来做好充分准备，同时推动我国相关信息技术和产业的创新发展。（二）从复杂的多种测序数据中获取知识和规律（4）基于高通量基因组、表观基因组数据进行基因调控信号的识别和调控元件功能注释。新一代测序技术发展了ChIP-seq、bisulfite-seq等高通量、高分辨率检测表观遗传学特征的实验技术，能够揭示基因组中很多原来被认为没有功能的区域或原有技术无法检测的调控因素。我们将对这些数据进行深入挖掘，研究从中高分辨率检测DNA甲基化、

10、组蛋白修饰等表观遗传学因素的方法，结合基因芯片等其他组学数据，开展表观基因组状态注释和功能预测、研究启动子注释及其使用偏好性，研究非编码RNA的注释及其对染色质沉默和启动子、增强子活性的影响，研究基因测序数据的染色质三维拓扑结构功能注释，建立不同类型细胞间染色质三维结构状态变化的比较和分析方法，研究基因转录系统与基因组序列、表观基因组状态间的联系。（5）基于多种组学数据研究细胞分化和重编程的数学模型及肿瘤细胞基因组演化模型。对细胞分化和肿瘤发生等重要生物过程内在分子调控机制的数学描述，是真正理解这些生物过程的关键。新一代测序提供的高分辨率基因组学、转录组学和表观基因组学数据为建立这种数学描述提

11、供了可能。本项目将比较和用数学模型刻画不同来源诱导多能干细胞与胚胎干细胞、体细胞在染色质状态与基因表达等方面的差异，分析染色质状态对细胞分化与重编程潜能的影响，建立描述细胞分化与重编程过程的动态演化模型，探索利用人工合成方法修改或扰动生物调控回路的关键环节。另一方面，将以在我国发病率高的肝癌等恶性肿瘤为例，以体细胞基因突变、染色体重排和表观遗传学修饰等数据为切入点，研究建立肿瘤多维度演化模型，对肿瘤发生和细胞分化过程进行比较，从演化和发育角度探索肿瘤发生发展的机制并进行数学建模。（6）基于RNA测序的基因表达和选择性剪接分析、转录组分析。系统研究RNA测序数据处理与分析的方法，重点研究基因选择

12、性剪接模式的定量推断方法和比较不同样本间基因剪接模式差异的方法，与基因表达芯片数据进行比较研究，从理论上探索特殊选择性剪接形式的不可分辨问题，综合考虑基因表达总量、选择性剪接模式和剪接等位体表达比例等因素，研究基因差异表达的概念和组间比较的统计检验方法，发掘不同形式的差异表达的功能影响，研究非编码RNA转录本的表达规律，研究不同样本间或发育过程中转录组变化的比较方法，结合CLIP-seq数据分析基因选择性剪接调控网络。（7）宏基因组与宏转录组数据的处理方法与功能分析方法研究。新一代测序的宏基因组、宏转录组数据的处理与单一基因组数据处理相比有很多独特之处，目前通过短序列测序进行宏基因组研究的方法

13、尚很少。我们将系统研究短序列宏基因组和转录组数据的拼接、组装和比较方法，重点研究宏转录组中的功能转录本识别和基于序列统计特征的宏基因组/转录组监督和非监督分类方法，研究人体微生物群落特征与人体表型特征之间可能的联系，探索微生物基因与宿主基因之间可能的相互作用。（8）多种组学数据的集成方法研究和生物网络的建模、数学描述和功能研究。多种测序技术和其他组学技术以不同的尺度向人们展示了复杂生物对象的不同侧面，本项目将研究如何将不同类型的组学数据联系起来、构建包含多种调控因素的分子调控网络。进一步，系统研究多种类型生物分子网络的数学描述方法，提出能够从整体上反映网络功能特点的数学指标，探索复杂生理病理现

14、象与基因调控网络或蛋白质相互作用网络之间整体特性的关联，探索定量研究复杂生物网络的新途径。（9）深度测序数据中遗传多态性信号的检测方法，混合样本测序关联研究的统计遗传学理论与方法。与SNP芯片相比，新一代测序技术能检测人群中发生频率更低的遗传多态性，为研究由多种罕见突变导致的复杂疾病开辟了道路，但开展大规模的基于深度测序的遗传学研究又提出了很多新的理论与方法问题。本项目将深入研究这些问题，发展从短测序片断中检测点突变、插入删除、基因组结构变异和拷贝数变化等遗传多态性的有效算法，研究在限定测序总量的条件下平衡样本量与测序深度的实验设计方法，发展采用混合样本策略进行基因组、外显子组和RNA测序的优

15、化实验设计理论，研究混合样本测序对统计检测功效的影响，为基于新一代测序的大规模关联研究奠定理论基础。（10）应用新一代测序数据和统计遗传学分析研究肿瘤演化过程和分子标记。综合运用本项目取得的理论与方法成果，用群体遗传学方法研究癌细胞群体演化规律，选择对我国人民健康影响极大的肺癌作为研究对象，针对非小细胞肺癌的侵袭和转移，采用混合样本策略进行新一代测序，从基因结构、拷贝数变异、剪接体变异及非编码RNA等水平上寻找各类型非小细胞肺癌的分子特征，为研究这一恶性肿瘤的早期诊断、预后分析和理解其分子机理提供有价值的线索。二、预期目标本项目的总体目标是，基于和围绕新一代测序技术相关的一系列科学问题，研究高

16、效处理、分析、挖掘和整合超大规模测序数据和其他组学数据的生物信息学模型、方法、算法和软件，发展新的生物信息学理论与方法，促进新一代测序数据的有效应用，促进从海量数据到科学知识的转化，推动对复杂生命现象内在信息调控系统的认识，推动相关信息技术的发展，使我国生物信息学研究进入世界前沿行列。五年的预期目标是：l 建立多种新一代测序数据的数学模型和质量控制方法，建立面向新一代测序的编码和实验设计理论。这些理论和方法，将对测序数据处理提供重要的指导，也为测序技术的改进提供借鉴。l 建立适应多种平台、针对多种应用的新一代测序数据处理方法、算法和软件体系，包括测序读段的回帖、拼接、纠错、多态性检测、蛋白质结合位点信号检测与比较、表观遗传学状态标定和功能元件注释、基因表达估计和剪接模式估计、基因表达比较、宏转录组组装与比较等。l 实现面向新一代大数据量序列数据处理的硬件加速方法，发展基于参考序列的海量测序数据压缩、存储和传输方法，发展面向海量基因

展开阅读全文