InfiniBand高速网络互连技术

资源描述

《InfiniBand高速网络互连技术》由会员分享，可在线阅读，更多相关《InfiniBand高速网络互连技术（159页珍藏版）》请在金锄头文库上搜索。

1、InfiniBand高速网络互连技术,清风明月 2012年5月,内容提要,超级计算机系统及其互连结构 Infiniband互连网络的体系结构在HPC中的典型互连架构及应用 IB网络优化技术未来展望,Lecture 1,Lecture 2,内容提要,超级计算机系统及其互连结构 Infiniband互连网络的体系结构在HPC中的典型互连架构及应用 IB网络优化技术未来展望,国际超级计算机500强排名(TOP500),是美国田纳西大学、伯克利NERSC实验室和德国曼海姆大学一些专家为评价世界超级计算机性能而搞的民间学术活动，每年2次排出世界上实际运行速度最快的前500台计算机。(6月、11月)

2、排名的依据是线性代数软件包Linpack的实际测试数据，而峰值浮点运算速度作为参考值列出。 Linpack基准测试程序是一个可以分解和解答线性方程和线性最小平方问题的Fortran子程序集. 于20世纪70年代到80年代初为超级计算机而设计测试出的最高性能指标作为衡量机器性能的标准,4,TOP500分析,中国TOP100总Linpack性能达到11.85 Pflops (2010年6.3PFlops)，是2010年的1.88倍; 跟全球TOP500相比，2011年6月全球TOP500排行榜第一名被日本的K-Computer夺得，2010年11月TOP500第一名的天河1A降为世界第二，但

3、中国的机器份额首次取得第二名,仅次于美国; 国家超级计算天津中心以国防科大天河1A再次蝉联中国TOP100第一名，Linpack性能2.57PFlops，峰值4.7PFlops; 国家超级计算济南中心以国家并行计算机工程技术研究中心全国产神威蓝光力夺得中国TOP100第二名，Linpack性能795.9TFlops，峰值1.07PFlops，神威蓝光是我国历史上首台全国产的千万亿次超级计算机; 国家超级计算长沙中心以国防科大天河1A-HN力夺中国TOP100第三名，Linpack性能771.7TFlops，峰值1.34PFlops。全部机器的Linpack性能超过22.1Tflops是201

4、0年9.6TFlops的2.3倍,比去年的1.41倍大幅提升。全部系统的峰值超过25.6TFlops，是2010年11TFlops的2.33倍，比去年的1.36倍大幅提升; 排名前三的机器两套是CPU+GPU异构MPP; 97个(2010年98个)系统都是机群架构，机群继续占据主导地位，在前10名里4台是CPU+GPU体系架构，在TOP100中共有13套CPU+GPU异构机群。,近3年来的TOP5超级计算机系统,No1: K Computer,日本理化研究所(RIKEN)高级计算科学研究院(AICS)和富士通共同研制每秒运算速度超越1亿亿次大关。Linpack测试的最大计算性能达到了10.

5、51PFlops，也就是每秒钟1.051亿亿次浮点计算，这也是人类首次跨越1亿亿次计算大关。采用的处理器是富士通制造的SPARC64 VIIIfx，八核心，主频2.0GHz，二级缓存6MB，热设计功耗58W，峰值浮点性能128GFlops。为了获得更高性能，富士通还在其中加入了一系列高性能集群计算扩展，可以有效管理其共享二级缓存，并支持SIMD、每核心256位浮点寄存器、高级核心间硬件同步等等。处理器数量是88128颗，核心数量为705024个，占据864个机柜。这些处理器通过名为“豆腐”(Tofu)的特殊6-D mesh/torus网络连接在一起，带宽5GB/s。同时，“京”的峰值计算性

6、能也达到了11.28PFlops，执行效率为惊人的93.2%,ASCI Springschool 2012,Henk Corporaal,(8),K Computer: 10.51 Petaflop/s on Linpack 705024 SPARC64 cores (8 per die; 45 nm) (Fujitsu design) Tofu interconnect (6-D torus) 12.7 MegaWatt,K Computer的互连架构,6D-mesh/Tours,No 2：天河-1A，国防科技大学,这是超过美国橡树岭国家实验室产品高达40的系统。达到每秒万亿次的峰值性能和每

7、秒万亿次的实测性能。 14336颗英特尔六核至强X5670 2.93GHz CPU、7168颗Nvidia Tesla M2050 GPU，以及2048颗自主研发的八核飞腾FT-1000处理器天河一号A将大规模并行GPU与多核CPU相结合，在性能、尺寸以及功耗等方面均取得了巨大进步，是当代异构计算的典型代表。该系统采用了7168颗英伟达（NVIDIA）Tesla M2050 GPU以及14,336颗CPU。如果单纯只使用CPU的话，要实现同等性能则需要50,000颗以上的CPU以及两倍的占地面积。更重要的是，如果完全采用CPU打造，可实现2.507 Petaflops（千万亿次）性能的系

8、统将消耗1200万瓦特的电力。多亏在异构计算环境中运用了GPU，天河一号A仅消耗404万瓦特的电力，节能效果高达3倍。二者之间的功耗之差足够满足5000多户居民一年的电力所需。,三大突破,“天河一号”除了使用了英特尔处理器，还首次在超级计算机中使用了2048个我国自主设计的处理器。这款名为“飞腾-1000”的64位CPU。它利用65纳米技术设计生产，共有8个核心。中国首创了CPU和GPU融合并行的体系结构。制造了先进的通信芯片，设计了先进的互联结构。160Gb/s，是国际上的商用IB的两倍。,13,TH-1A互连架构,超级胖树结构,NO.3 Jaguar美洲虎,2.331Pflops C

9、ray XT5-HE Opteron Six Core 2.6 GHz,近25万个内核,美洲虎的3D-Torus,CRAY 超级计算机的Roadmap,Cray XT5: 1+ PF Leadership-class system for science,DARPA HPCS: 20 PF Leadership-class system,FY 2009,FY 2011,FY 2015,FY 2018,Future system: 1 EF,100250 PF,美洲虎,NO.4 曙光“星云”, 2.9843Pflops,Infiniband互连,No14: 神威蓝光：全国产化的超级计算机问世,该

10、机器获得科技部863计划支持，由国家并行计算机工程技术研究中心制造，于2011年9月安装于国家超算济南中心，全部采用自主设计生产的CPU(ShenWei processor SW1600)，系统共8704个CPU，峰值1.07016PFlops，持续性能795.9TFlops， Linpack效率74.37%，总功耗1074KW。国家超级计算济南中心是科技部批准成立的全国3个千万亿次超级计算中心之一，由山东省科学院计算中心负责建设、管理和运营。是国内首台全部采用国产中央处理器（CPU）和系统软件构建的千万亿次计算机系统，标志着我国成为继美国、日本之后第三个能够采用自主CPU构建千万亿次计算

11、机的国家。,神威蓝光拥有四大特点：,全部采用国产的CPU Linpack效率高达74.4%，而一般的千万亿次机都在50%左右采用液冷技术，节能高密度，在一个机仓（机柜）里可以装入1024颗CPU，千万亿次规模仅需要9个这样的机仓。,计算机节点，在1U高的机箱中可以放入4个CPU板，每个板上可以装两颗16核的CPU。,这就是神威蓝光的“心脏”：申威1600实物照,在计算节点中采用液冷（据说是使用500元1吨的纯净水）设计也是神威蓝光的一大技术特色，中间是铝制液冷散热板。,国内三大系统比较,Opteron socket,Roadrunner（走鹃） Part 1: Opteron Blades

12、,Opteron core,Opteron core,1.8 GHz 3.6 Gflop/s 64+64 KB L1 cache 2 MB L2 cache,LS21 Blade,Roadrunner（走鹃） Part 1: Opteron Blades,8 GB DDR2 memory,8 GB DDR2 memory,Roadrunner（走鹃） Part 1: Opteron Blades,Roadrunner Architecture Part 2: Cell Blades,Roadrunner Architecture Part 2: Cell Blades,Roadrunner A

13、rchitecture Part 3: Nodes（Triblade= 1*Opteron +2*cell）,Roadrunner Architecture Part 4: Scaling Out,BladeCenter,BladeCenter,BladeCenter,BladeCenter,Compute Unit (CU),Roadrunner Architecture Part 4: Scaling Out,Roadrunner Architecture Part 4: Scaling Out,Roadrunner Architecture,IBM计划10万万亿次HPC 12倍于世界最快

14、！,今年预计BlueGene/Q “Sequoia”其峰值性能可达到20petaflops，而其升级版将是首个超过10万万亿次浮点计算的超级计算机，达到107petaflops，是目前世界最快K Computer的12倍。,Sequoia（红杉）,Sequoia超级计算机是IBM正在为Lawrence Livermore国家实验室研制的一种超级计算机，而这种计算机中使用的Blue Gene/Q处理器就将采用IBM在Hot Chips大会上发表的论文中披露的这种新部件。Sequoia将在2012年完工，有望提供20petaFLOPs（peta1015）的强大性能。当Sequoia完工时，这台

15、超级计算机可能成为世界上功能最强大的系统之一。,计算机技术的发展,自1946年以来，计算机近70年有了惊人的发展性能：（加法）速度提高了5个数量级计算机性能以大约每年35%的速度提高价格：今天$1000的机器相当于60年代中$106的机器，这里同性能计算机的价格比，改善了个数量级。,处理器速度持续提高（广度）,从1971年第一颗微处理器Intel 4004问世以来，40年间处理器芯片集成的晶体管数目从2300个发展到今天的数十亿个，处理器频率从不到1MHz发展到今天最高接近5GHz，与英特尔4004相比，如今下一代英特尔酷睿处理器的性能是其35万倍，每个晶体管的能耗却降低了5千倍。同期，

16、晶体管的价格下降了约5万倍。,在30年间计算机系统的速度提高了6个数量级,对计算能力的需求持续增长,超级计算机的性能趋势,CAGR = 1.9,1st Pasadena Petaflops Workshop,GFlops,ExaFlops,PetaFlops,TeraFlops,Figure courtesy of Peter Kogge,超级计算机发展路线图,2010,2020,2030,2050,TOP500中的互连网络统计,TOP500 Nov 2011，IB占42% TOP10中有5家采用IB(4/5/7/9/10) TOP20中有8家 TOP100中有55%采用IB 基于GPU混合系统中有92%采用IB,TOP100中的IO互连架构统计,在TOP100机器的IO互连中55%采用IB,Top500中各种互连的趋势图,典型商业互连网络的性价比,Top500中IB互连的趋势图,内容提要,超级计算机系统及其互连结构 Infiniband互连网络的体系结构在HPC中的典型互连架构及应用 IB网络优化技术未来展望,

展开阅读全文

InfiniBand高速网络互连技术

最新文档