InfiniBand高速网络互连技术.ppt

上传人:飞****9 文档编号:135746537 上传时间:2020-06-18 格式:PPT 页数:159 大小:14.60MB
返回 下载 相关 举报
InfiniBand高速网络互连技术.ppt_第1页
第1页 / 共159页
InfiniBand高速网络互连技术.ppt_第2页
第2页 / 共159页
InfiniBand高速网络互连技术.ppt_第3页
第3页 / 共159页
InfiniBand高速网络互连技术.ppt_第4页
第4页 / 共159页
InfiniBand高速网络互连技术.ppt_第5页
第5页 / 共159页
点击查看更多>>
资源描述

《InfiniBand高速网络互连技术.ppt》由会员分享,可在线阅读,更多相关《InfiniBand高速网络互连技术.ppt(159页珍藏版)》请在金锄头文库上搜索。

1、InfiniBand高速网络互连技术 清风明月2012年5月 内容提要 超级计算机系统及其互连结构Infiniband互连网络的体系结构在HPC中的典型互连架构及应用IB网络优化技术未来展望 Lecture1 Lecture2 内容提要 超级计算机系统及其互连结构Infiniband互连网络的体系结构在HPC中的典型互连架构及应用IB网络优化技术未来展望 4 国际超级计算机500强排名 TOP500 是美国田纳西大学 伯克利NERSC实验室和德国曼海姆大学一些专家为评价世界超级计算机性能而搞的民间学术活动 每年2次排出世界上实际运行速度最快的前500台计算机 6月 11月 排名的依据是线性代数

2、软件包Linpack的实际测试数据 而峰值浮点运算速度作为参考值列出 Linpack基准测试程序是一个可以分解和解答线性方程和线性最小平方问题的Fortran子程序集 于20世纪70年代到80年代初为超级计算机而设计测试出的最高性能指标作为衡量机器性能的标准 TOP500分析 中国TOP100总Linpack性能达到11 85Pflops 2010年6 3PFlops 是2010年的1 88倍 跟全球TOP500相比 2011年6月全球TOP500排行榜第一名被日本的K Computer夺得 2010年11月TOP500第一名的天河1A降为世界第二 但中国的机器份额首次取得第二名 仅次于美国

3、国家超级计算天津中心以国防科大天河1A再次蝉联中国TOP100第一名 Linpack性能2 57PFlops 峰值4 7PFlops 国家超级计算济南中心以国家并行计算机工程技术研究中心全国产神威蓝光力夺得中国TOP100第二名 Linpack性能795 9TFlops 峰值1 07PFlops 神威蓝光是我国历史上首台全国产的千万亿次超级计算机 国家超级计算长沙中心以国防科大天河1A HN力夺中国TOP100第三名 Linpack性能771 7TFlops 峰值1 34PFlops 全部机器的Linpack性能超过22 1Tflops是2010年9 6TFlops的2 3倍 比去年的1 41

4、倍大幅提升 全部系统的峰值超过25 6TFlops 是2010年11TFlops的2 33倍 比去年的1 36倍大幅提升 排名前三的机器两套是CPU GPU异构MPP 97个 2010年98个 系统都是机群架构 机群继续占据主导地位 在前10名里4台是CPU GPU体系架构 在TOP100中共有13套CPU GPU异构机群 近3年来的TOP5超级计算机系统 No1 KComputer 日本理化研究所 RIKEN 高级计算科学研究院 AICS 和富士通共同研制每秒运算速度超越1亿亿次大关 Linpack测试的最大计算性能达到了10 51PFlops 也就是每秒钟1 051亿亿次浮点计算 这也是人

5、类首次跨越1亿亿次计算大关 采用的处理器是富士通制造的SPARC64VIIIfx 八核心 主频2 0GHz 二级缓存6MB 热设计功耗58W 峰值浮点性能128GFlops 为了获得更高性能 富士通还在其中加入了一系列高性能集群计算扩展 可以有效管理其共享二级缓存 并支持SIMD 每核心256位浮点寄存器 高级核心间硬件同步等等 处理器数量是88128颗 核心数量为705024个 占据864个机柜 这些处理器通过名为 豆腐 Tofu 的特殊6 Dmesh torus网络连接在一起 带宽5GB s 同时 京 的峰值计算性能也达到了11 28PFlops 执行效率为惊人的93 2 ASCISpri

6、ngschool2012 8 KComputer 10 51Petaflop sonLinpack705024SPARC64cores 8perdie 45nm Fujitsudesign Tofuinterconnect 6 Dtorus 12 7MegaWatt KComputer的互连架构 6D mesh Tours No2 天河 1A 国防科技大学 这是超过美国橡树岭国家实验室产品高达40 的系统 达到每秒 万亿次的峰值性能和每秒 万亿次的实测性能 14336颗英特尔六核至强X56702 93GHzCPU 7168颗NvidiaTeslaM2050GPU 以及2048颗自主研发的八核飞

7、腾FT 1000处理器天河一号A将大规模并行GPU与多核CPU相结合 在性能 尺寸以及功耗等方面均取得了巨大进步 是当代异构计算的典型代表 该系统采用了7168颗英伟达 NVIDIA Tesla M2050GPU以及14 336颗CPU 如果单纯只使用CPU的话 要实现同等性能则需要50 000颗以上的CPU以及两倍的占地面积 更重要的是 如果完全采用CPU打造 可实现2 507Petaflops 千万亿次 性能的系统将消耗1200万瓦特的电力 多亏在异构计算环境中运用了GPU 天河一号A仅消耗404万瓦特的电力 节能效果高达3倍 二者之间的功耗之差足够满足5000多户居民一年的电力所需 13

8、 三大突破 天河一号 除了使用了英特尔处理器 还首次在超级计算机中使用了2048个我国自主设计的处理器 这款名为 飞腾 1000 的64位CPU 它利用65纳米技术设计生产 共有8个核心 中国首创了CPU和GPU融合并行的体系结构 制造了先进的通信芯片 设计了先进的互联结构 160Gb s 是国际上的商用IB的两倍 TH 1A互连架构 超级胖树结构 NO 3Jaguar美洲虎 2 331PflopsCrayXT5 HEOpteronSixCore2 6GHz 近25万个内核 美洲虎的3D Torus CRAY超级计算机的Roadmap CrayXT5 1 PFLeadership classs

9、ystemforscience DARPAHPCS 20PFLeadership classsystem FY2009 FY2011 FY2015 FY2018 Futuresystem 1EF 100 250PF 美洲虎 NO 4曙光 星云 2 9843Pflops Infiniband互连 No14 神威蓝光 全国产化的超级计算机问世 该机器获得科技部863计划支持 由国家并行计算机工程技术研究中心制造 于2011年9月安装于国家超算济南中心 全部采用自主设计生产的CPU ShenWeiprocessorSW1600 系统共8704个CPU 峰值1 07016PFlops 持续性能795

10、9TFlops Linpack效率74 37 总功耗1074KW 国家超级计算济南中心是科技部批准成立的全国3个千万亿次超级计算中心之一 由山东省科学院计算中心负责建设 管理和运营 是国内首台全部采用国产中央处理器 CPU 和系统软件构建的千万亿次计算机系统 标志着我国成为继美国 日本之后第三个能够采用自主CPU构建千万亿次计算机的国家 神威蓝光拥有四大特点 全部采用国产的CPULinpack效率高达74 4 而一般的千万亿次机都在50 左右采用液冷技术 节能高密度 在一个机仓 机柜 里可以装入1024颗CPU 千万亿次规模仅需要9个这样的机仓 计算机节点 在1U高的机箱中可以放入4个CPU板

11、 每个板上可以装两颗16核的CPU 这就是神威蓝光的 心脏 申威1600实物照 在计算节点中采用液冷 据说是使用500元1吨的纯净水 设计也是神威蓝光的一大技术特色 中间是铝制液冷散热板 国内三大系统比较 Opteronsocket Roadrunner 走鹃 Part1 OpteronBlades Opteroncore Opteroncore 1 8GHz3 6Gflop s64 64KBL1cache2MBL2cache LS21Blade Roadrunner 走鹃 Part1 OpteronBlades 8GBDDR2memory 8GBDDR2memory Roadrunner 走

12、鹃 Part1 OpteronBlades RoadrunnerArchitecturePart2 CellBlades RoadrunnerArchitecturePart2 CellBlades RoadrunnerArchitecturePart3 Nodes Triblade 1 Opteron 2 cell RoadrunnerArchitecturePart4 ScalingOut BladeCenter BladeCenter BladeCenter BladeCenter ComputeUnit CU RoadrunnerArchitecturePart4 ScalingOut

13、 RoadrunnerArchitecturePart4 ScalingOut RoadrunnerArchitecture IBM计划10万万亿次HPC12倍于世界最快 今年预计BlueGene Q Sequoia 其峰值性能可达到20petaflops 而其升级版将是首个超过10万万亿次浮点计算的超级计算机 达到107petaflops 是目前世界最快KComputer的12倍 Sequoia 红杉 Sequoia超级计算机是IBM正在为LawrenceLivermore国家实验室研制的一种超级计算机 而这种计算机中使用的BlueGene Q处理器就将采用IBM在HotChips大会上发表

14、的论文中披露的这种新部件 Sequoia将在2012年完工 有望提供20petaFLOPs peta 1015 的强大性能 当Sequoia完工时 这台超级计算机可能成为世界上功能最强大的系统之一 计算机技术的发展 自1946年以来 计算机近70年有了惊人的发展性能 加法 速度提高了5个数量级计算机性能以大约每年35 的速度提高价格 今天 1000的机器相当于60年代中 106的机器 这里同性能计算机的价格比 改善了 个数量级 处理器速度持续提高 广度 从1971年第一颗微处理器Intel4004问世以来 40年间处理器芯片集成的晶体管数目从2300个发展到今天的数十亿个 处理器频率从不到1M

15、Hz发展到今天最高接近5GHz 与英特尔4004相比 如今下一代英特尔酷睿处理器的性能是其35万倍 每个晶体管的能耗却降低了5千倍 同期 晶体管的价格下降了约5万倍 在30年间计算机系统的速度提高了6个数量级 对计算能力的需求持续增长 超级计算机的性能趋势 CAGR 1 9 1stPasadenaPetaflopsWorkshop GFlops ExaFlops PetaFlops TeraFlops FigurecourtesyofPeterKogge 超级计算机发展路线图 2010 2020 2030 2050 TOP500中的互连网络统计 TOP500Nov2011 IB占42 TOP1

16、0中有5家采用IB 4 5 7 9 10 TOP20中有8家TOP100中有55 采用IB基于GPU混合系统中有92 采用IB TOP100中的IO互连架构统计 在TOP100机器的IO互连中55 采用IB Top500中各种互连的趋势图 典型商业互连网络的性价比 Top500中IB互连的趋势图 内容提要 超级计算机系统及其互连结构Infiniband互连网络的体系结构在HPC中的典型互连架构及应用IB网络优化技术未来展望 为什么TOP500中有42 机器采用IB互连 高带宽目前主流的单链路传输能力40Gbps 10GB以太网不可比拟超低延时应用程序之间通信延时小于1us高可靠性 低误码率 自管理的网络链路级流控拥塞控制 IB网络组成 HostChannelAdapters HCA TargetChannelAdapters TCA SwitchesRouters IB网络组成 多个子网 每个子网是一个独立的路由域子网之间通过交换机互连 一般的HPC只使用一个子网 IB网络 硬件实体 IB网络 硬件实体 Blade RackServers Storage Switch SWITCH 基

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号