天河超级计算机上的生物医药大数据研究

上传人:飞*** 文档编号:56924726 上传时间:2018-10-17 格式:PPT 页数:73 大小:10.71MB
返回 下载 相关 举报
天河超级计算机上的生物医药大数据研究_第1页
第1页 / 共73页
天河超级计算机上的生物医药大数据研究_第2页
第2页 / 共73页
天河超级计算机上的生物医药大数据研究_第3页
第3页 / 共73页
天河超级计算机上的生物医药大数据研究_第4页
第4页 / 共73页
天河超级计算机上的生物医药大数据研究_第5页
第5页 / 共73页
点击查看更多>>
资源描述

《天河超级计算机上的生物医药大数据研究》由会员分享,可在线阅读,更多相关《天河超级计算机上的生物医药大数据研究(73页珍藏版)》请在金锄头文库上搜索。

1、About us,School of Computer Science of NUDT Computer Science and Technology ranked #1/#2 in recent years in China Founded in 1953, originally in Harbin; moved to Changsha in the 70s The largest School of Computer Science: 10 institutes, 400 +faculties, and 3,000+ students Hometown of Supercomputers:

2、 Tianhe No. 1 in TOP500 (2013.6, 2013.11, 2014.6, 2014.11, 2015.7 ) 33.86 PFLOPS, 32,000 CPUs+48,000 MICs,1,目录,天河超级计算机简介(天河1、天河2) 天河可有效解决的3类生物医药大数据问题 基于天河已经研发的相关软件和成果 华大基因研究院 中科院上海药物所 军事医学科学院 英国曼彻斯特大学 与华大基因、药物所等单位的合作模式,3,National University of Defense Technology (NUDT), Changsha (长沙),天河系列超级计算机(天河1,2

3、),“天河”系列超级计算机系统,天河2号一期应用:算天、算地、算人,基因工程 生物医学 药物设计 环境生态 宇宙科学 金融计算 地球物理 复杂电磁 高速列车 航空航天 基础算法 材料科学,天河上的资源利用和用户分布,NSCC-TJ TH-1 (Nov.2010 May. 2011),天河2: 生命科学 30%,TH-1 Supercomputer (Oct 2011),TH-1 Specification,Hybrid architecture: CPU & GPU Custom system software stack,TH-2 (No. 1 on Top 500, 2013, 2014,

4、 2015),Scene between two rows of cabinets,Overview of TH-2,List of Top 500 Supercomputers 2013,天河2目前配置,系统技术指标,硬件组成图,软件构成图,新型异构多态体系结构,一套系统,高效支持三种应用形态 科学与工程计算 以MPP体系结构为基础,通过基于MIC的计算加速模块,以及自主定制的高速互连网络,支持CPU与MIC相融合的高效能科学工程计算 大数据处理 基于SDD高速存储的I/O加速模块,以及独立的存储网络,高效支持大数据处理和高吞吐率信息服务 高安全信息服务 基于自主FT-1500 CPU构建的

5、服务阵列,支持高安全的信息服务类应用,计算阵列 计算刀片:2个计算结点 计算插框:16个计算刀片 计算机柜: 4 个计算插框 全系统:125 个计算机柜,计算刀片,计算插框,系统,计算机柜,新型微异构计算阵列,“微异构”提升了应用的兼容性、适用性和易用性 CPU端的程序只需重新编译,便可在MIC上运行 MIC上可以运行操作系统,CPU、MIC均可以启动主函数,CPU与MIC也可以同时启动主函数 丰富的编程模式 Offload模式,Symmetric模式,MIC Native模式,新型微异构计算阵列,目前主要3类生命科学大数据,组学大数据基因组学蛋白质组学转录组学代谢组学 生物医药大数据药物分子

6、和结构、分子动力学、蛋白质、靶标、通路、互作网络、超高通量药物虚拟筛选 科学文献文献数据、临床数据等 特点4V:数据量大(Volume)、数据多样化(Variety)、有价值(Value)、高速(Velocity),20,基于天河可有效解决的3类生物大数据问题,计算密集型(Computation-Intensive):大规模基因比对、基因组装、虚拟药物筛选等 数据密集型(Data-Intensive):大内存:二三代混合测序数据的序列拼接大IO:NGS基因大数据的读写、海量文本挖掘 通信密集型(Network-Intensive):生物网络(基因调控网络、蛋白质互作网络)、大规模生物分子动力学

7、模拟等天河2号具备的特质:超强的计算、存储、通信能力 计算:32000 CPUs + 48000 MIC 存储:1.4 PB MEM+ 20 PB Storage 通信:Proprietary high-speed interconnection network 效果:更准、更快、更大,21,机器学习,统计分析,基于天河-II号计算平台,以大数据分析技术为手段,提供高效率、高质量、可定制的生物大数据分析服务,大数据分析工具,天河-II号计算平台,预处理,生物大数据分析系统,快速组学数据分析,海量数据知识发现,海量数据标注,快速组学数据检索,生物大数据分析服务,数据挖掘,数学规划,矩阵分解,稀疏

8、编码,成分分析,深度学习,大数据分析基本数学方法库,序列比对,基于天河与华大基因等联合研发的软件,SOAP denovo2 SOAP3-dp mBWA mSOAPsnp MICA GAMA SGA ,23,SOAP denovo2: an empirically improved memory-efficient short-read de novo assembler,Goodness:more precise and low cost Reduce memory consumption in graph construction Increase coverage and length i

9、n scaffold construction Optimize for large genome VS. SOAP denovo (on TianHe) Contig and scaffold length: 3-fold and 50-fold Genome coverage: from 81.16% 93.91% Memory consumption: 2/3 lower基于该软件,依托“天河2号” 在几个小时内完成对盲目鼢鼠基因组进行了全基因组组装和注释。 2014年发表在Nature Communication。,2018/10/17,TH-1,24,SOAP3-dp,2018/10

10、/17,25,SOAP3-dp:大规模基因比对,特点:Faster alignment sensitivity 95% SOAP3-dp比世界第二快三倍的速度,却依旧保持着最高的准确度。现在有了天河二号,通过充分利用3块MIC卡协同工作,我们将获得4倍于天河一号的速度(单GPU),将之前需要一天完成的分析缩短至几个小时,甚至更短。,首次使用Intel新型众核加速卡Xeon Phi MIC进行高通量短序列比对,算法可扩展性较强,通过任务分割达到线性加速比。在天河2号上进行了实验,使用932个节点在一小时内完成17T人短序列数据的比对(以往需要数周)。,MICA:天河二号上一种基于MIC的 高通量

11、短序列比对方法,发表BMC Bioinformatics杂志。,Available: MICA is under BSD and freely available at http:/ MIC协同CPU进行大规模并行序列比对计算,运算规模达到万核以上。在天河二号上进行了实验,核心算法并性效率超过60%,将之前需要几天完成的大规模序列比对缩短至几小时,mBWA: 天河二号上一种基于CPU/MIC协同的大规模并行序列比对方法-自主研发,在2048个计算节点下序列比对核心并行算法的性能,项目成果发表在:International Conference on Practical Applications

12、 of Computational Biology & Bioinformatics 2014 (PACBB2014), Spain. (ISCLS期刊收录),Available: mBWA is under BSD and freely available at http:/ scale parallel with CPU/MIC。 The parallel efficiency of algorithm core is more than 80% . It takes several hours to complete the work that costs a month before.

13、,SOAPsnp: SNP detection with CPU-MIC on Tianhe-2 (已经在天河2上完成8192节点的测试),Performance on 512 nodes,Effectiveness of MICs VPU,mSNP presents promising scalability on up to 8,192 nodes (196,608 CPU cores and 1,376,256 MIC cores). The parallel efficiency is more than 60.7%. Published in ISC 2015: Large-scal

14、e Nero-heterogeneous Programming and Optimization of SNP Detection on Tianhe-2.,Large-scale SNP Detection on Tianhe-2,新的软件流水线速度提升1,200倍,将之前需要8个月的过程缩短至4小时,相关研究成果发表在Nature Communication、BMC Bioinformatics、ISC 2015。 相关成果获2014全国并行应用挑战赛”,全国总决赛,第一名“金奖”(1/85)。 The Eighth IEEE International Scalable Computi

15、ng Challenge-SCALE 2015: Finalist Awards,人类全基因组重测序软件流水线深度并行优化,在“天河2号”上4小时内完成2000人(300TB)的全基因组重测序分析,于2014年11月参加最佳应用全国总决赛,获得第一名“金奖”(1/85)。 The Eighth IEEE International Scalable Computing Challenge-SCALE 2015: Finalist Awards,人类全基因组测序软件流水线深度并行优化,在“天河二号”上使用2,000个人的基因大数据,获得1200倍加速比,SOAPfuse,An algorithm

16、 for identifying fusion transcripts from paired-end RNA-Seq data SOAPfuse achieves higher detection efficiency and consumed less computing resources. Applied to RNA-Seq data from two bladder cancer cell lines, and confirmed 15 fusion transcripts, including several novel events common to both cell lines.,2018/10/17,33,群体基因型高分辨率分析软件GAMA(TH1A),GAMA软件在不同节点数下分析512株水稻数据时的性能数据,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号