高性能并行计算机简介PPT课件

上传人:M****1 文档编号:593467189 上传时间:2024-09-25 格式:PPT 页数:57 大小:3.10MB
返回 下载 相关 举报
高性能并行计算机简介PPT课件_第1页
第1页 / 共57页
高性能并行计算机简介PPT课件_第2页
第2页 / 共57页
高性能并行计算机简介PPT课件_第3页
第3页 / 共57页
高性能并行计算机简介PPT课件_第4页
第4页 / 共57页
高性能并行计算机简介PPT课件_第5页
第5页 / 共57页
点击查看更多>>
资源描述

《高性能并行计算机简介PPT课件》由会员分享,可在线阅读,更多相关《高性能并行计算机简介PPT课件(57页珍藏版)》请在金锄头文库上搜索。

1、高性能并行计算机简介2010-061.1并行计算机基础知识1.2并行计算机系统架构1.3机群系统1.4高性能计算发展趋势目录什么是高性能并行计算机什么是高性能并行计算机由多个计算单元组成,运算速度快、存储容量大、可靠性高的计算机系统。也称为:巨型计算机、超级计算机目前任何高性能计算和超级计算都离不开使用并行技术,所以高性能计算机肯定是并行计算机。其发展历程可以简单的分为两个时代其发展历程可以简单的分为两个时代专用时代包括向量机,MPP系统,SGINUMA系统,SUN大型SMP系统,也包括我国的神威,银河,曙光1000等。之所以称为“专用”,并不是说它们只能运行某种应用,是指它们的组成部件是专门

2、设计的,它们的CPU板,内存板,I/O板,甚至操作系统,都是不能在其它系统中使用的。由于技术上桌面系统与高端系统的巨大差异,和用户群窄小。普及时代高性能计算机价格下降,应用门槛降低,应用开始普及。两个技术趋势起到重要作用。商品化趋势使得大量生产的商品部件接近了高性能计算机专有部件标准化趋势使得这些部件之间能够集成一个系统中,其中X86处理器、以太网、内存部件、Linux都起到决定性作用。机群系统是高性能计算机的一种,它的技术基础和工业基础都是商品化和标准化。曙光曙光1000曙光1000有36个结点机;峰值计算速度为浮点25.6亿次/秒,实际达到15.8亿次/秒;内存容量为1024兆字节;基于W

3、ormhole机制的二维Mesh通讯网,结点与网络通讯总带宽为2.88GB/秒;采用基于UNIX的并行操作系统和并行文件系统;并行计算机并行计算机-CRAYSystem Name Jaguar 1059000 GFlopsSystem Family Cray XT Operating System CNLInterconnect XT4 Internal Interconnect Processor AMD Opteron Quad Core 2300 MHz (9.2 GFlops) 并行计算机并行计算机-IBMSystem Name Roadrunner 1105000 GFlopsSys

4、tem Family IBM Cluster Operating System Linux Interconnect Infiniband Processor PowerXCell 8i 3200 MHz (12.8 GFlops)并行计算机并行计算机-DAWNINGSystem Name Dawning 5000A 180600 GFlopsSystem Family Dawning Cluster Operating System Windows HPC server 2008 and SUSEInterconnect Infiniband DDR Processor AMD Optero

5、n Quad Core 1900 MHz (7.6 GFlops)并行计算机所用的处理器并行计算机所用的处理器AMDOpteronXeonNoconaIntelItaniumCompaqAlphaHPPA-RISCSunUltraSPARCIBMPOWER5+,POWER6IBMBlueGeneprocessorMIPSR10000龙芯最新TOP500cpu分布并行机处理器并行机处理器-AMDPERFORMANCE 1-WAYPERFORMANCE 2-WAYPERFORMANCE 4-WAY AND 8-WAYAMD Opteron 200 Series & 2000 Series Proc

6、essorsDesigned for 2-way Server / Workstation solutionsFirst native x86 dual-core solution for 2-way computingAMD Opteron 100 Series & 1000 Series ProcessorsDesigned for 1-way Server / Workstation solutionsFirst native x86 dual-core solution for 1-way computingAMD Opteron 800 Series & 8000 Series Pr

7、ocessorsDesigned for 4-way and 8-way Server solutionsFirst native x86 dual-core solution for 4-way / 8-way computingAMD Opteron Processors for Servers and Workstations并行机处理器并行机处理器-Intel数据要求苛刻双核英特尔 至强 7000 系列处理器最大限度提高性能、可靠性和可扩展性双核英特尔 安腾 处理器9000 大型机级服务器,具有顶级的灵活性和可靠性RISC 与大型机现代化基本计算四核英特尔 至强 3000 系列处理器经

8、济、可靠的单路服务器高密度基础设施四核英特尔 至强 5000 系列处理器利用四核处理最大限度提高性能密度RISC 与大型机现代化并行机处理器并行机处理器-龙芯龙芯Godson意思为“教子”,相对于此的另一个词叫教父(Godfather)并行计算机专用连接网络并行计算机专用连接网络NumaLink (SGI)SP Switch,SP Switch2 (IBM)Cray Interconnect (Cray)并行计算机商品化网络并行计算机商品化网络互联方式的选择千兆以太网,带宽小(理论值125MB/s),延迟大35-45s;Infiniband;MPI乒乓测试带宽:850MB/s,MPI短消息延迟

9、:7s;Myrinet:MPI乒乓测试带宽:230MB/s,MPI短消息延迟:7s;Qsnet:MPI乒乓测试带宽:300MB/s,MPI短消息延迟:5s;SCI:MPI乒乓测试带宽:320MB/s;MPI短消息延迟:1-2s;最新TOP500网络分布商品化网络商品化网络-Infiniband趋势InfiniBand代表的就是性能和互操作性。如果你看一看超级计算机500强的话就会发现,InfiniBand技术已经从2005年的30席增长到了今天的142席,增长率超过了25%。而且,采用专有互连技术的超级计算机正在不断减少。商品化网络商品化网络-以太网络以太网络I/O性能瓶颈性能瓶颈高性能网络如

10、InfiniBand的性能进步,使得PCI总线成为限制性能的瓶颈,PCI-X过渡为PCI-E,基本解决了这一问题;基于共享总线结构的PCI架构具有局限性,需要面向高端的I/O方案:InfiniBand,Infiniband可能会彻底取代PCI局部总线结构,要实现这个取代,其前提是InfiniBand逻辑电路集成到芯片一级,也就是将南桥换成带有HCA (Host Channel Adapters)的I/O桥接器件; 分布式存储多处理器系统,程序和数据一般都是集中存放,各进程执行时需要传输程序和应用数据到处理器本地内存;NFS文件系统在数据传输上,类似于C/S结构,各个计算节点都从I/O节点传输数

11、据,链路单一,性能瓶颈;存储系统存储系统-共享存储共享存储1、FC4GB光纤链路2、4Gb磁盘FC接口3、并行I/O文件系统4、最大支持224块物理磁盘5、支持1024LUN6、IOPS=280000LinpackuLinpack现在在国际上已经成为最流行的用于测试高性能计算机系统浮点性能的benchmark。通过利用高性能计算机,用高斯消元法求解一元N次稠密线性代数方程组的测试,评价高性能计算机的浮点性能。uLinpack测试包括三类,Linpack100、Linpack1000和HPL。uLinpack100求解规模为100阶的稠密线性代数方程组,它只允许采用编译优化选项进行优化,不得更改

12、代码,甚至代码中的注释也不得修改。uLinpack1000要求求解规模为1000阶的线性代数方程组,达到指定的精度要求,可以在不改变计算量的前提下做算法和代码上做优化。uHPL即HighPerformanceLinpack,也叫高度并行计算基准测试,它对数组大小N没有限制,求解问题的规模可以改变,除基本算法(计算量)不可改变外,可以采用其它任何优化方法。u理论浮点峰值CPU主频CPU每个时钟周期执行浮点运算的次数系统中CPU数目,实测浮点峰值是指Linpack测试值,也就是说在这台机器上运行Linpack测试程序,通过各种调优方法得到的最优的测试结果。HPL测试中的主要参数测试中的主要参数Rp

13、eak:系统的理论峰值性能,按GFLOPS表示Nmax:给出达到最高GFLOPS值时的问题规模(矩阵规模)Rmax:在Nmax问题规模下,达到的最大峰值NB:矩阵分块大小,与高速缓存大小相关。一般在32到256之间中国高性能计算机中国高性能计算机TOP100排行榜排行榜u刀片产品占据绝对优势,渐成主流u采用开放系统已成为高性能计算的发展趋势1.1并行计算机基础知识1.2并行计算机系统架构1.3机群系统1.4高性能计算发展趋势目录1.2.1 实现并行的手段实现并行的手段指令级并行指令级并行从CPU内部挖掘并行性提高主频,增加核心数量提高IPC(每个时钟周期完成的指令数目)提高CPU主频和增加核心

14、双核、多核处理器指令级并行导致处理器内的功能部件增多,系统复杂,导致晶体管数目增加,功耗和发热带来问题,且会受到物理极限的天花板作用多处理器(多计算机)并行多处理器(多计算机)并行多处理器并行主要得益于微处理器的发展;多处理器并行是构造强大系统的必由之路;多处理器指在同一块主板上通过主板总线实现并行。多计算机并行,指在多台计算节点上通过网络实现并行。向量计算向量计算 向量处理器,采用向量流水部件,特别适合向量运算;曾经风靡一时;设计困难,成本高,应用领域狭窄,向量技术被其他新兴的技术所掩盖;地球模拟器的影响给向量处理技术带来了新的一丝希望。1.2.2 并行计算机系统架构并行计算机系统架构对称多

15、处理机系统对称多处理机系统(SMP)SMP对称式共享存储:任意处理器可直接访问任意内存地址,且访问延迟、带宽、机率都是等价的;系统是对称的;微处理器:一般少于64个;处理器不能太多,总线和交叉开关的一旦作成难于扩展;例子:IBMR50,SGIPowerChallenge,SUNEnterprise,分布式共享存储系统分布式共享存储系统(DSM)DSM分布共享存储:内存模块物理上局部于各个处理器内部,但逻辑上(用户)是共享存储的;这种结构也称为基于Cache目录的非一致内存访问(CC-NUMA)结构;局部与远程内存访问的延迟和带宽不一致,3-10倍高性能并行程序设计注意;与SMP的主要区别:DS

16、M在物理上有分布在各个节点的局部内存从而形成一个共享的存储器;微处理器:16-128个;代表:SGIOrigin2000,CrayT3D;大规模并行计算机系统大规模并行计算机系统(MPP)MPP物理和逻辑上均是分布内存能扩展至成百上千个处理器(微处理器或向量处理器)采用高通信带宽和低延迟的互联网络(专门设计和定制的)一种异步的MIMD机器;程序系由多个进程组成,每个都有其私有地址空间,进程间采用传递消息相互作用;代表:CRAYT3E(2048),ASCIRed(3072),IBMSP2机群系统机群系统(Cluster)Cluster每个节点都是一个完整的计算机各个节点通过高性能网络相互连接网络

17、接口和I/O总线松耦合连接每个节点有完整的操作系统曙光2000、3000、4000,ASCIBlueMountain1.1并行计算机基础知识1.2并行计算机系统架构1.3机群系统1.4高性能计算发展趋势目录什么是机群系统什么是机群系统机群系统(Cluster)利用标准网络将一台台普通服务器或者PC机连接起来,为使用者提供更高的计算能力和存储能力并为使用者提供单一系统映象的系统。单一系统映象使用者在使用机群系统的时候感觉上就象使用一个单独的计算机系统一样。单一系统映象实现方法:硬件层、操作系统层、软件层机群系统的优势机群系统的优势极高的性价比大型机的主流良好的可扩展性更高的可管理性更低的使用维护

18、成本更好的可使用性更好的系统鲁棒性更多的应用支持机群使用越来越广泛应用领域越来越多机群系统的应用领域机群系统的应用领域数学基因信息气象预报生物物理石油勘探信息服务汽车制造船舶制造2010高性能计算机架构分布高性能计算机架构分布机群系统的应用分类机群系统的应用分类高性能计算机群高性能计算机群应用于高性能计算领域;整合多个计算单元的并行计算性能;注重整体性能的发挥;目前成为高性能计算机的主体架构;高性能计算机群系统架构高性能计算机群系统架构节点机采用曙光天阔系列机架式服务器节点机采用曙光天阔系列机架式服务器I系列和系列和A系统系统I系统采用Intel Xeon处理器A系列采用AMD Opteron

19、处理器2路、路、4路、路、8路、路、16路产品路产品1U、2U、5U、12U . 计算节点计算节点IO节点节点管理节点管理节点登入节点登入节点 . 如何选择节点机如何选择节点机?网络和存储网络和存储网络网络计算网管理网数据传输网百兆以太网千兆以太网MyrinetInfiniband存储存储存储产品存储结构文件系统SCSISATAFCSASDASNASSANIPSANNFSDCFS2Lustre如如何何选选择择?高性能机群层次架构高性能机群层次架构应用层机群操作系统层(DCOS)系统软件层(OS,编译器)硬件层(节点,网络等)高性能机群的硬件构成高性能机群的硬件构成l机柜(含供电电源);l节点机

20、(计算节点,登陆节点,I/O节点,监控节点);l互连网络,每种网络连接机群的全部或部分节点:管理网(百兆以太网);数据网(千兆以太网);计算网(Infiniband等);监控网(监控系统网络);KVM网(SKVM系统);存储网(SAN存储网络);l存储系统:盘阵或SAN存储;高性能机群软件系统高性能机群软件系统石油领域:Geoeast、paradigm、cgg、omega、VSS物理化学:VASP、Gaussian材料化学:MaterialsStudio环保领域:MM5、Grapes、WRF结构力学:ABAQUS、NASTRAN性能评估:LINPACK、HPCC、NPB等等流体力学:fluen

21、t、CFX、Star_CD分子动力学:NAMD、GROWMACS、AMBER生物计算:BLAST、FASTA、MEME并行文件系统和数据库:DCFS2、PVFS2、Lustre、OracleRAC机群管理和监控系统:DCOS、DCMMII、Rocks、OSCAR曙光机群操作系统曙光机群操作系统(DCOS)曙光机群管理系统曙光机群管理系统(DCMS)曙光机群监控系统曙光机群监控系统(DCMM)曙光机群部署系统曙光机群部署系统(DCIS)曙光并行命令系统曙光并行命令系统(MTerm)曙光机群并行文件系统曙光机群并行文件系统DCFS2DCFS2(Dawning Cluster File Servin

22、g/SystemDawning Cluster File Serving/System)是曙光公司自主研发的第二)是曙光公司自主研发的第二代并行文件系统代并行文件系统 全局文件系统,提供单一系统映象与节点上的本地文件系统完全兼容支持大规模机群系统能够提供很高的元数据处理性能可靠性好,具有快速故障恢复功能并行环境、开发环境、高性能数学库并行环境、开发环境、高性能数学库并行环境并行环境消息传递:MPI、PVM共享存储:OpenMP开放环境开放环境编译器调试器性能分析器高性能数学库高性能数学库ACMLAPLMKLIPP其他专业数学库1.1并行计算机基础知识1.2并行计算机系统架构1.3机群系统1.4

23、高性能计算发展趋势目录低功耗设计和管理技术越来越重要基于Linpack对Top500和典型高性能计算机的发展趋势进行外推,在2015-2018年左右,高性能计算机的功耗将高达50-80MW;为减少系统功耗,降低系统运行能耗,提高系统在单位能耗下的性能,高性能计算机必须在器件级低功耗设计技术、软件低功耗管理技术、低功耗供电技术和高效冷却技术等方面综合考虑和优化;CPU节能能耗管理软件水冷方案如何保证大规模并行计算结果的可靠性?如何保证算法的正确性算法校验要求算法本身具有可校验性,即算法输出与输入存在确定的关系如何保证硬件和软件(支撑环境)的正确性硬件校验TMR投票、CRC、ECC等校验手段与校错

24、措施存储器清洗技术和存储器冗余(RAID)技术网络部分的链路自愈技术和自适应路由技术等系统级主动容错(基于虚拟机技术)消息重传机制系统级检查点机制用户级容错模型及容错语言用户检查点checkpoint软件复制N-version编程精细资源管理是未来高性能计算机的必然选择u精细资源管理提高资源利用率重要技术之一:虚拟机技术,采用虚拟化技术可以将数据中心的利用率提高至60-75%,约是粗粒度资源管理的4x资源利用率与应用程序性能之间的折中如何保证?u精细资源管理提高可用性通过虚拟机技术实现对高性能计算机精细调度,减小了故障发生时的隔离区间的大小,有利于提升系统的可用性u需要更为深入研究其他精细资源管理技术高密度计算成为主要发展趋势,处理器是高性能计算机体系结构的研究重点,非平衡体系结构出现u处理器性能迅速增长随着半导体工艺的进步,单位面积上可以集成的晶体管数目迅速增加,相对于2010年45nm工艺,2018年的18nm工艺下,处理器核的面积将以6到8的因子缩减,从而支持在同一个硅片上集成6到8倍同等复杂的核众核3D集成光互连专用加速器等技术DARPA, ExaScale Computing Report,Sep. 28,2008 谢谢各位!

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号