第1讲-并行计算概述1分解

上传人:pu****.1 文档编号:587184688 上传时间:2024-09-05 格式:PPT 页数:88 大小:2.53MB
返回 下载 相关 举报
第1讲-并行计算概述1分解_第1页
第1页 / 共88页
第1讲-并行计算概述1分解_第2页
第2页 / 共88页
第1讲-并行计算概述1分解_第3页
第3页 / 共88页
第1讲-并行计算概述1分解_第4页
第4页 / 共88页
第1讲-并行计算概述1分解_第5页
第5页 / 共88页
点击查看更多>>
资源描述

《第1讲-并行计算概述1分解》由会员分享,可在线阅读,更多相关《第1讲-并行计算概述1分解(88页珍藏版)》请在金锄头文库上搜索。

1、2024/9/5并行计算概述1并行计算概述并行计算概述安俊秀安俊秀软件工程学院软件工程学院并行计算实验室并行计算实验室6412云计算云搜索中心(成都云计算云搜索中心(成都)并行计算的产生并行计算的产生人类对计算及性能的需求是无止境的人类对计算及性能的需求是无止境的从系统的角度从系统的角度:集成系统资源,以满足不断增长的对:集成系统资源,以满足不断增长的对性能和功能的要求性能和功能的要求从应用的角度从应用的角度:适当分解应用,以实现:适当分解应用,以实现更大规模更大规模或或更更细致细致的计算的计算2如何满足不断增长的计算力需求?如何满足不断增长的计算力需求?n用速度更快的硬件,也就是减少每一条指

2、令所需用速度更快的硬件,也就是减少每一条指令所需时间时间n优化算法(或者优化编译)优化算法(或者优化编译)n用多个处理机用多个处理机(器器)同时解决一个问题同时解决一个问题n并行计算并行计算3并行计算概述并行计算的概念并行计算的概念4并行计算概述5并行计算是相对于串行计算来说的并行计算是相对于串行计算来说的并行计算并行计算n所谓并行计算分为所谓并行计算分为时间上的并行时间上的并行和空间上的并行和空间上的并行。时间上的并行时间上的并行就是指流水线技术就是指流水线技术,而,而空间上的空间上的并行则是指用多个处理器并发的并行则是指用多个处理器并发的执行计算执行计算。计算换通信并行计算基础知识6/66

3、并行计算机的分类并行计算机的分类并行计算科学中主要研究的是空间上的并行问题。并行计算科学中主要研究的是空间上的并行问题。 空间上空间上的并行导致了两类并行机的产生,按照的并行导致了两类并行机的产生,按照Flynn的说法分为:的说法分为:单指令流多数据流(单指令流多数据流(SIMD)和多指令流多数据流)和多指令流多数据流(MIMD)。我们常用的串行机也叫做单指令流单数据流)。我们常用的串行机也叫做单指令流单数据流(SISD)。)。SISDSIMDMIMD并行计算并行计算-高性能计算高性能计算并行计算并行计算(Parallel Computing) 高端计算高端计算(High-end Parall

4、el Computing) 高性能计算高性能计算(High Performance Computing) 超级计算超级计算(Super Computing)任何高性能计算和超级计算都离不开使用并行技术任何高性能计算和超级计算都离不开使用并行技术nThesimultaneoususeofmorethanonecomputertosolveaproblem.n由由由运行在多个部件上的小任务合作来求解一个规模很大由运行在多个部件上的小任务合作来求解一个规模很大的计算问题的一种方法的计算问题的一种方法89并行计算并行计算q 并行计算并行计算(高性能计算、超级计算)(高性能计算、超级计算)大任务大任务分

5、解分解多个子任务多个子任务不同处理单元不同处理单元分分给给快速求解快速求解协同合作协同合作q 基本条件基本条件: 硬件(并行机)、并行算法设计、并行编程环境硬件(并行机)、并行算法设计、并行编程环境q 主要目标主要目标: 提高求解提高求解速度速度,扩大问题,扩大问题规模规模并行计算的应用需求并行计算的应用需求101112计算科学计算科学与传统的两种科学,即与传统的两种科学,即理论科学理论科学和和实验实验科学科学,并列被认为是人类认识自然的三大支柱,他,并列被认为是人类认识自然的三大支柱,他们彼此相辅相成地推动科学发展与社会进步。在许们彼此相辅相成地推动科学发展与社会进步。在许多情况下,或者是理

6、论模型复杂甚至理论尚未建立,多情况下,或者是理论模型复杂甚至理论尚未建立,或者实验费用昂贵甚至无法进行时,计算就成了求或者实验费用昂贵甚至无法进行时,计算就成了求解问题的唯一或主要的手段。解问题的唯一或主要的手段。并行计算的应用需求并行计算的应用需求13并行的层次并行的层次n程序级并行程序级并行n子程序级并行子程序级并行n语句级并行语句级并行n操作级并行操作级并行n微操作级并行微操作级并行并并行行粒粒度度粗粗细细后三层大都由硬件和编译器负责处后三层大都由硬件和编译器负责处理,程序员通常处理前两层的并行理,程序员通常处理前两层的并行 15并行计算机的发展并行计算机的发展q 始于始于70 年代年代

7、l 1972年第一台并行计算机年第一台并行计算机 ILLIAC IV(伊利诺依大学)(伊利诺依大学)l 60 年代末开始建造年代末开始建造l 72 年建成年建成, 74 年运行年运行 第一个完整程序第一个完整程序, 76年年 运行第一个应用程序运行第一个应用程序l 64 个处理器,是当时个处理器,是当时 性能最高的性能最高的CDC7600 机器的机器的 2-6倍倍l 公认的公认的1981年前最快年前最快l 1982年退役年退役l 可扩展性好,可扩展性好, 但可编程性差但可编程性差16并行计算机的发展并行计算机的发展q 始于始于70 年代年代l 向量机向量机 Cray-1l 一般将一般将 Cra

8、y-1 投入投入 运行的运行的 1976 年称为年称为 “ 超级计算元年超级计算元年”l 编程方便,编程方便, 但可扩展性差但可扩展性差l 以以 Cray 为代表的为代表的 向量机称雄超级向量机称雄超级 计算机界十几载计算机界十几载收藏于收藏于 Deutsches Museum 德意志德意志博物馆的博物馆的 Cray-1原型原型17并行计算机的发展并行计算机的发展q 80 年代百家争鸣年代百家争鸣l 早期:以早期:以 MIMD 并行计算机的研制为主并行计算机的研制为主l Denelcor HEP (1982年)第一台商用年)第一台商用 MIMD 并行计算机并行计算机l Cray X-MP Cr

9、ay 研究公司第一台研究公司第一台 MIMD 并行计算机并行计算机l IBM 3090 80 年代普遍为银行所采用年代普遍为银行所采用西摩西摩 克雷克雷 Seymour Cray (1925-1996) ,电子工程学学士,应用数学硕士,电子工程学学士,应用数学硕士,超级计算机之父,超级计算机之父, Cray研究公司的创始人,研究公司的创始人,亲手设计了亲手设计了Cray机型的全部硬件与操作系统,机型的全部硬件与操作系统,作业系统由他用机器码编写完成。作业系统由他用机器码编写完成。1984年时,年时,公司占据了超级计算机市场公司占据了超级计算机市场 70%的份额。的份额。1996年年Cray研究

10、公司被研究公司被SGI收购,收购,2000年被年被出售给出售给Tera计算机公司,成立计算机公司,成立Cray公司。公司。18并行计算机的发展并行计算机的发展q 80 年代百家争鸣年代百家争鸣l 中期:共享存储多处理机中期:共享存储多处理机 Shared-Memory MultiProcessorl SMP (Symmetrical Multi-Processing):在一个计算机上汇集:在一个计算机上汇集一组处理器,一组处理器,各处理器各处理器对称共享内存及计算机的其他资源,由对称共享内存及计算机的其他资源,由单一操作系统管理单一操作系统管理,极大提高整个系统的数据处理能力。,极大提高整个系

11、统的数据处理能力。l 扩展性较差扩展性较差l 可靠性较差可靠性较差l 内存访问瓶颈内存访问瓶颈19并行计算机的发展并行计算机的发展q 80 年代百家争鸣年代百家争鸣l 后期:具有强大计算能力的并行机后期:具有强大计算能力的并行机l 通过二维通过二维Mesh连接的连接的Meiko(Sun)系统)系统l 超立方体连接的超立方体连接的 MIMD 并行机:并行机:nCUBE-2、iPSC/80l 共享存储向量多处理机共享存储向量多处理机 Cray Y-MPl 20并行计算机的发展并行计算机的发展q 90 年代:体系结构框架趋于统一年代:体系结构框架趋于统一 (DSM、MPP、NOW)l DSM (Di

12、stributed Shared Memory)分布分布式式共享存储共享存储l 以结点为单位,每个结点有一个或多个以结点为单位,每个结点有一个或多个CPUl 专用的高性能互联网络连接(专用的高性能互联网络连接(Myrinet, Infiniband, )l 分布式存储:内存模块局部在每个结点中分布式存储:内存模块局部在每个结点中l 单一的操作系统单一的操作系统l 单一的内存地址空间:所有内存模块都由硬件进行了统一的单一的内存地址空间:所有内存模块都由硬件进行了统一的编址,各个结点既可以直接访问局部内存单元,又可以直接访编址,各个结点既可以直接访问局部内存单元,又可以直接访问其他结点的局部内存单

13、元问其他结点的局部内存单元l 可扩展到上百个结点可扩展到上百个结点l 支持消息传递、共享存储并行程序设计支持消息传递、共享存储并行程序设计21并行计算机的发展并行计算机的发展q 90 年代:体系结构框架趋于统一年代:体系结构框架趋于统一l DSM (Distributed Shared Memory)分布分布式式共享存储共享存储22并行计算机的发展并行计算机的发展q 90 年代:体系结构框架趋于统一年代:体系结构框架趋于统一l MPP(Massively Parallel Processing)大规模并行处理结构)大规模并行处理结构l 每个结点相对独立,有一个或多个微处理器每个结点相对独立,有

14、一个或多个微处理器l 每个结点均有自己的操作系统每个结点均有自己的操作系统l 各个结点自己独立的内存,避免内存访问瓶颈各个结点自己独立的内存,避免内存访问瓶颈l 各个结点只能访问自己的内存模块各个结点只能访问自己的内存模块l 扩展性较好扩展性较好l DM-MPP 分布式存储分布式存储 MPP:每个结点仅包含一个微处理器:每个结点仅包含一个微处理器l SMP-MPP:每个结点是一台:每个结点是一台 SMP 并行机并行机l DSM-MPP:每个结点是一台:每个结点是一台 DSM 并行机并行机23并行计算机的发展并行计算机的发展l MPP体系结构示意图q 90 年代:体系结构框架趋于统一年代:体系结

15、构框架趋于统一24并行计算机的发展并行计算机的发展q 90 年代:体系结构框架趋于统一年代:体系结构框架趋于统一l NOW(Network of Workstations)工作站机群)工作站机群l 投资风险小、结构灵活、可扩展性强、通用性好、异构能力投资风险小、结构灵活、可扩展性强、通用性好、异构能力强,被大量中小型计算用户和科研院校所采用强,被大量中小型计算用户和科研院校所采用l 每个结点安装消息传递并行程序设计软件,实现通信、负载平每个结点安装消息传递并行程序设计软件,实现通信、负载平衡等衡等l 每个结点都是一个完整的工作站,有独立的硬盘与每个结点都是一个完整的工作站,有独立的硬盘与UNI

16、X系统系统l 结点间通过低成本的网络(如千兆以太网)连接结点间通过低成本的网络(如千兆以太网)连接l 也称为也称为 COW(Cluster of Workstations)l NOW(COW)与)与 MPP 之间的界线越来越模糊之间的界线越来越模糊25并行计算机的发展并行计算机的发展l NOW的典型代表:的典型代表:Beowulf cluster 微机机群微机机群l 性能价格比极高性能价格比极高q 90 年代:体系结构框架趋于统一年代:体系结构框架趋于统一26并行计算机的发展并行计算机的发展 第一台第一台 Beowulf 机群机群27并行计算机的发展并行计算机的发展q 2000 年至今:前所未

17、有大踏步发展年至今:前所未有大踏步发展l Cluster 机群机群l Constellation 星群星群l 每个结点含多个商用处理器,结点内部共享存储每个结点含多个商用处理器,结点内部共享存储l 采用商用机群交换机通过前端总线连接结点,结点分布存储采用商用机群交换机通过前端总线连接结点,结点分布存储l 各个结点采用各个结点采用 Linux 操作系统、操作系统、GNU编译系统和作业管理系统编译系统和作业管理系统l 每个结点是一台子并行机每个结点是一台子并行机l 采用商用机群交换机通过前端总线连接结点,结点分布存储采用商用机群交换机通过前端总线连接结点,结点分布存储l 各个结点运行专用的结点操作

18、系统、编译系统和作业管理系统各个结点运行专用的结点操作系统、编译系统和作业管理系统l MPPl 专用高性能网络,大多为政府直接支持专用高性能网络,大多为政府直接支持28并行计算机的发展并行计算机的发展q 并行计算机发展趋势并行计算机发展趋势l 由于由于向量机向量机和和 MPP 受研制费用高、售价高等因素的受研制费用高、售价高等因素的影响,其市场受到一定的限制影响,其市场受到一定的限制l SMP 由于共享结构的限制,系统的规模不可能很大由于共享结构的限制,系统的规模不可能很大l 由于由于机群机群系统具有投资风险小、可扩展性好、可继承系统具有投资风险小、可扩展性好、可继承现有软硬件资源和开发周期短

19、、可编程性好等特点,目现有软硬件资源和开发周期短、可编程性好等特点,目前已成为并行处理的热点和主流前已成为并行处理的热点和主流2011年4月动物食物链动物食物链29/192011年4月1984年的计算机食物链年的计算机食物链MainframeVector SupercomputerMini ComputerWorkstationPC30/192011年4月1994年的计算机食物链年的计算机食物链MainframeVector SupercomputerMPPWorkstationPCMini Computer(hitting wall soon)(future is bleak)31/1920

20、11年4月现在和未来的计算机食物链现在和未来的计算机食物链32/19并行计算的研究现状并行计算的研究现状n并行计算的硬件平台并行计算的硬件平台(即并行计算机即并行计算机)n并行计算的软件支撑并行计算的软件支撑(即并行程序设计即并行程序设计)n并行计算的理论基础并行计算的理论基础(即并行算法即并行算法)以及并行以及并行计算的具体应用计算的具体应用Digital Medical Technologies,Ltd. 并行计算的研究现状并行计算的研究现状n并行计算的结构部分包含了高端的高性能计并行计算的结构部分包含了高端的高性能计算机和低端的普及型计算机;算机和低端的普及型计算机;n并行计算的算法部分

21、包含了并行算法的设计并行计算的算法部分包含了并行算法的设计与分析以及算法库和测试库;与分析以及算法库和测试库;n并行计算的编程部分包含了并行编程模型以并行计算的编程部分包含了并行编程模型以及并行编程的环境工具;及并行编程的环境工具;n并行计算的应用部分包含了科学工程应用和并行计算的应用部分包含了科学工程应用和各种新型的应用各种新型的应用.Digital Medical Technologies,Ltd. 并行计算的研究现状并行计算的研究现状Digital Medical Technologies,Ltd. 36并行计算研究内容并行计算研究内容q 研究内容研究内容 l 并行计算机的体系结构并行计

22、算机的体系结构l 并行算法设计与分析并行算法设计与分析l 并行实现技术:编程实现,优化性能并行实现技术:编程实现,优化性能l 并行应用:开发并行应用软件并行应用:开发并行应用软件Digital Medical Technologies,Ltd. 并行计算需要解决的关键问题并行计算需要解决的关键问题n近年来并行算法本身的研究呈现低调的局面。近年来并行算法本身的研究呈现低调的局面。n大部分的并行应用的效率依然较低,无法高效大部分的并行应用的效率依然较低,无法高效的使用并行计算机的资源。的使用并行计算机的资源。n并行编程语言对于一般的编程人员还不够简单并行编程语言对于一般的编程人员还不够简单易行,也

23、缺乏高效的并行编程环境工具。易行,也缺乏高效的并行编程环境工具。n并行计算机本身的构建也存在着能耗过大、管并行计算机本身的构建也存在着能耗过大、管理困难、可扩展性差等方面的问题。理困难、可扩展性差等方面的问题。并行计算的性能分析并行计算的性能分析1、加速比(、加速比(speedup)是同一个任务在单处理器系统和并行处理器系统中运行是同一个任务在单处理器系统和并行处理器系统中运行消耗的时间的比率,用来衡量并行系统或程序并行化的消耗的时间的比率,用来衡量并行系统或程序并行化的性能和效果。性能和效果。speedup是加速比,是加速比,T1是单处理器下的运行时间,是单处理器下的运行时间,Tn是是在有在

24、有n个处理器并行系统中的运行时间。个处理器并行系统中的运行时间。并行计算的性能分析并行计算的性能分析2、并行效率、并行效率云计算云计算n云计算就是通过网络将庞大的计算处理程序云计算就是通过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经搜寻、计算分析之服务器所组成的庞大系统经搜寻、计算分析之后将处理结果回传给用户。后将处理结果回传给用户。计算换通信并行计算基础知识40/66云计算是互联网赐予的礼物云计算是互联网赐予的礼物n云的维度云的维度n云的规模(目录服务、搜索服务、机器学习)云的规模(目录服务、搜索服务、机器学

25、习)n云强化人的社交与专业互动云强化人的社交与专业互动n云云需要更智能的设备需要更智能的设备n云推动服务器的进步云推动服务器的进步反之亦然反之亦然计算换通信并行计算基础知识41/66云计算时代的来临nGoogle的云计算由分布式文件系统的云计算由分布式文件系统GoogleFileSystem(GFS)、大规模分布式数据库、大规模分布式数据库BigTable、程序设计模式程序设计模式MapReduce、分布式锁机制、分布式锁机制Chubby等几个相互独立又紧密结合的系统组成,等几个相互独立又紧密结合的系统组成,如图所示如图所示Google云计算架构。云计算架构。43/20Google 的云计算基

26、础设施的云计算基础设施44/20Google的云计算基础设施的云计算基础设施计算换通信并行计算基础知识45/66MapReduce处理流程处理流程47/202024/9/5reducereduce (out_key, intermediate_value list) -out_value list50例子:词频统计例子:词频统计中国中国人民人民美国美国人民人民中国中国人民人民银行银行美国美国银行银行中国,中国,1人民,人民,1美国,美国,1人民,人民,1中国,中国,1人民,人民,1银行,银行,1美国,美国,1银行,银行,1中国,中国,1中国,中国,1银行,银行,1银行,银行,1美国,美国,1美

27、国,美国,1人民,人民,1人民,人民,1人民,人民,1中国,中国,2银行,银行,2美国,美国,2人民,人民,3mapshufflereduce51MapReduce运行流程运行流程并行计算的应用需求并行计算的应用需求问题问题:科学和工程问题的数值模拟与仿真科学和工程问题的数值模拟与仿真计算密集计算密集数据密集数据密集网络密集网络密集三种混合三种混合要求要求:在合理的时限内完成计算任务在合理的时限内完成计算任务秒级秒级制造业制造业分钟级分钟级短时天气预报短时天气预报(当天当天)小时级小时级中期天气预报中期天气预报(310日日)尽可能快尽可能快长期天气预报长期天气预报(气候气候)可计算可计算湍流模

28、拟湍流模拟52什么是高性能并行计算机什么是高性能并行计算机由由多个计算单元多个计算单元组成,组成,运算速度快运算速度快、存储容量存储容量大大、可靠性高可靠性高的计算机系统。的计算机系统。也称为:巨型计算机、超级计算机目前任何高性能计算和超级计算都离不开使用并行技术,所以高性能计算机肯定是并行计算机。5354我国高性能计算机的发展我国高性能计算机的发展l 1958年第一台国产计算机年第一台国产计算机 103型计算机型计算机l 运行速度每秒运行速度每秒 1500次次q 第一台计算机第一台计算机55我国高性能计算机的发展我国高性能计算机的发展l 1983年年12月,我国第一台每秒钟运算月,我国第一台

29、每秒钟运算达达1亿次以上的计算机亿次以上的计算机 “银河银河 I” 问世问世l 1992年年 “银河银河-II” 问世,每秒运算达问世,每秒运算达10亿次亿次l 1997年成功研制百亿次并行机年成功研制百亿次并行机 “银银河河-III” ,由,由130多个处理结点组成多个处理结点组成q 超级计算机超级计算机l 曙光(曙光(曙光信息产业有限公司曙光信息产业有限公司 )l 深腾(深腾(联想集团联想集团)l 银河银河l 神威神威军事部门军事部门56我国高性能计算机的发展我国高性能计算机的发展l 1999年年9月,由国家并行计算机工程技术研究中心牵头研月,由国家并行计算机工程技术研究中心牵头研制成功的

30、制成功的 “神威神威” 计算机系统投入运行。计算机系统投入运行。l 2000年,年,“神威神威I”面向社会开放使用。面向社会开放使用。l “神威神威I” 的峰值速度为每秒的峰值速度为每秒3840亿次浮点运算亿次浮点运算神威神威 I57我国高性能计算机的发展我国高性能计算机的发展l 1993年年10月研制成功月研制成功 “曙光一号曙光一号” SMP多处理机多处理机l 2000年推出每秒年推出每秒 3000 亿次的曙光亿次的曙光3000超级服务器超级服务器l 2004年年6月,月,推出推出 11万亿次的曙光万亿次的曙光4000A超级计算机,落超级计算机,落户上海超算中心,进入全球前十名户上海超算中

31、心,进入全球前十名,从而使中国成为继美国,从而使中国成为继美国和日本之后,第三个能研制和日本之后,第三个能研制10万亿次高性能计算机的国家万亿次高性能计算机的国家l 2008年年6月,曙光月,曙光5000A发布,实际运算速度超过每秒发布,实际运算速度超过每秒160万亿次,排名世界第十万亿次,排名世界第十曙光曙光5000A58我国高性能计算机的发展我国高性能计算机的发展l 2002年,联想发布深腾年,联想发布深腾1800计算机,排名全球第计算机,排名全球第43位,成位,成为首家正式进入排行榜前为首家正式进入排行榜前100的中国企业的中国企业l 2003年,深腾年,深腾6800计算机计算机发布,列

32、全世界发布,列全世界TOP500第第14位,位,其其78.5%的整机效率列世界通用高端计算机第一名的整机效率列世界通用高端计算机第一名l 2008年年12月,联想发布月,联想发布百万亿次百万亿次超级计算机深腾超级计算机深腾7000深腾深腾700059当前高性能计算机当前高性能计算机q Top 500:l 2007 年年 11 月排名第一的月排名第一的 IBM BlueGene/Ll 由由 212992 个处理器构成,内存为个处理器构成,内存为73728 Gl 理论峰值为理论峰值为 596378 GFlops 测试峰值测试峰值 478200 GFlopsl 2008 年年 06 月排名第二月排名

33、第二60当前高性能计算机当前高性能计算机l 2008 年年 06 月排名第一的月排名第一的 Roadrunner 走鹃走鹃l IBM Cluster / BladeCenter l 122400 Cores / 98 T / RedHat Linux / 每天耗电每天耗电5.6万度万度l 理论峰值理论峰值 1375780 GFlops, 测试峰值测试峰值 1026000 GFlops世界上首台世界上首台千万亿次千万亿次计算机计算机在在2009年年6月的最新排行榜上仍然名列第一月的最新排行榜上仍然名列第一(129600 Cores, 1105000 GFlops)61当前高性能计算机当前高性能计

34、算机q 2009年年6月最新统计结果月最新统计结果l 美国占美国占 58.2 %(前(前10占占8个)个)l 中国大陆有中国大陆有 21 台台l 最高排名第最高排名第 15 l 香港、台湾各一台香港、台湾各一台l 曙光曙光5000A排在排在 15 位位 30720个个CPU(AMD) 122T内存内存 理论计算峰值理论计算峰值233万亿次万亿次/秒秒 实测实测180万亿次万亿次/秒秒l 深腾深腾7000排在排在 31 位位 13600个个CPU(Intel),),66T内存内存 理论计算峰值理论计算峰值145万亿次万亿次/秒,实测秒,实测102万亿次万亿次/秒秒62当前高性能计算机当前高性能计

35、算机q 并行机类型并行机类型Architecture share for 06/200963当前高性能计算机当前高性能计算机q 并行机采用的操作系统并行机采用的操作系统Operating system Family share for 06/200964当前高性能计算机当前高性能计算机q 并行机采用的网络链接并行机采用的网络链接65q 并行计算机发展趋势并行计算机发展趋势66国内高性能计算机国内高性能计算机q Top 100 in China:l 曙光公司曙光公司l 中国科学院计算技术研究所中国科学院计算技术研究所l 国家智能计算机研究开发中心国家智能计算机研究开发中心l 国家高性能计算中心国

36、家高性能计算中心l 合作伙伴:合作伙伴:AMD、上海超级计算中心、上海超级计算中心l 最新产品:曙光最新产品:曙光 5000A (百万亿次)(百万亿次)l 联想公司联想公司l 合作伙伴:合作伙伴:Intel、中科院计算机网络中心(超级计算中心)、中科院计算机网络中心(超级计算中心)l 最新产品:深腾最新产品:深腾 7000 (百万亿次)(百万亿次)67国内超级计算中心国内超级计算中心q 国家高性能计算中心国家高性能计算中心l 国家高性能计算中心国家高性能计算中心(北京)(北京) 1995年年5月成立,第一个高性能计算中心月成立,第一个高性能计算中心l 国家高性能计算中心国家高性能计算中心(合肥

37、):(合肥):1995年年9月,中科大月,中科大l 国家高性能计算中心国家高性能计算中心(成都):(成都):1997年年11月,西南交大月,西南交大l 国家高性能计算中心国家高性能计算中心(武汉):(武汉):1997年年12月,华中科技月,华中科技l 国家高性能计算中心国家高性能计算中心(上海):(上海):1998年年4月,复旦大学月,复旦大学l 国家高性能计算中心国家高性能计算中心(杭州):(杭州):2001年年4月,浙江大学月,浙江大学l 国家高性能计算中心国家高性能计算中心(西安):(西安):2002年年4月,西安交大月,西安交大68国内超级计算中心国内超级计算中心q 上海超级计算中心上

38、海超级计算中心 2000年成立,曙光年成立,曙光4000A/5000A,浦东张江,浦东张江q 中科院超级计算中心:中科院超级计算中心:1996年年q 北京九所高性能计算中心北京九所高性能计算中心q 山东大学高性能计算中心:山东大学高性能计算中心:2004年年q 天津高性能计算中心:天津高性能计算中心:2004年年8月,南开大学月,南开大学l 复旦大学分中心复旦大学分中心l 上海交通大学分中心上海交通大学分中心l 同济大学分中心同济大学分中心l 云南大学分中心云南大学分中心l 宝钢分中心宝钢分中心l 技术物理所分中心技术物理所分中心l 兰州分中心兰州分中心69微处理器的多级存储结构微处理器的多级

39、存储结构l 微机机群的微机机群的一次消息传递延迟相当于一次消息传递延迟相当于 50000 次次峰值浮点运算峰值浮点运算70微处理器的多级存储结构微处理器的多级存储结构l 微处理器主频越来越高,内存容量越来越大,微处理器主频越来越高,内存容量越来越大, 但内存访问速度的增长较慢但内存访问速度的增长较慢l 缓解缓解内存墙内存墙性能瓶颈:性能瓶颈:Cache 高速缓存高速缓存l Cache 工作原理:略工作原理:略 (参见(参见并行计算导论并行计算导论)71进程与线程进程与线程n 进程(进程(process)l 运行中的程序运行中的程序l 各个进程拥有独立的执行环境各个进程拥有独立的执行环境n 进程

40、间通信进程间通信l 同一台处理机或不同处理机的多个进程之间交流信息同一台处理机或不同处理机的多个进程之间交流信息l 通信(消息传递)、同步、聚集通信(消息传递)、同步、聚集n 线程(线程(threads)l 降低系统管理开销降低系统管理开销l 一个进程可以含一个或多个线程一个进程可以含一个或多个线程72并行算法设计并行算法设计l 以以 MIMD 为主为主 (Multiple Instruction Stream Multiple Data Stream)l 可扩展、可移植可扩展、可移植l 大粒度任务级并行大粒度任务级并行l 每个进程发挥单机性能每个进程发挥单机性能 (数据结构、程序设计、通信方

41、式)(数据结构、程序设计、通信方式)n 并行算法设计并行算法设计其发展历程可以简单的分为两个时代其发展历程可以简单的分为两个时代专用时代包括向量机,MPP系统,SGINUMA系统,SUN大型SMP系统,也包括我国的神威,银河,曙光1000等。之所以称为“专用”,并不是说它们只能运行某种应用,是指它们的组成部件是专门设计的,它们的CPU板,内存板,I/O板,甚至操作系统,都是不能在其它系统中使用的。由于技术上桌面系统与高端系统的巨大差异,和用户群窄小。普及时代高性能计算机价格下降,应用门槛降低,应用开始普及。两个技术趋势起到重要作用。商品化趋势使得大量生产的商品部件接近了高性能计算机专有部件标准

42、化趋势使得这些部件之间能够集成一个系统中,其中X86处理器、以太网、内存部件、Linux都起到决定性作用。机群系统是高性能计算机的一种,它的技术基础和工业基础都是商品化和标准化。73Top500中的超级计算机中的超级计算机n地球模拟器地球模拟器nASCIQnASCIWhite74EarthSimulatorEarth simulator centerNecRmax:35.86Tflops8*8*640EarthSimulatorEarthSimulatorASCIQ1024 nodes8cpu/node10240Gflops7727GflopsASCIwhiteLLNL IBM SP powe

43、r3 Rmax 7.22Tflops曙光曙光1000曙光1000有36个结点机;峰值计算速度为浮点25.6亿次/秒,实际达到15.8亿次/秒;内存容量为1024兆字节;基于Wormhole机制的二维Mesh通讯网,结点与网络通讯总带宽为2.88GB/秒;采用基于UNIX的并行操作系统和并行文件系统;并行计算机并行计算机-CRAYSystem Name Jaguar 1059000 GFlopsSystem Family Cray XT Operating System CNLInterconnect XT4 Internal Interconnect Processor AMD Opteron

44、 Quad Core 2300 MHz (9.2 GFlops) 并行计算机并行计算机-IBMSystem Name Roadrunner 1105000 GFlopsSystem Family IBM Cluster Operating System Linux Interconnect Infiniband Processor PowerXCell 8i 3200 MHz (12.8 GFlops)并行计算机并行计算机-DAWNINGSystem Name Dawning 5000A 180600 GFlopsSystem Family Dawning Cluster Operating

45、System Windows HPC server 2008 and SUSEInterconnect Infiniband DDR Processor AMD Opteron Quad Core 1900 MHz (7.6 GFlops)并行计算机所用的处理器并行计算机所用的处理器nAMDOpteronnXeonNoconanIntelItaniumnCompaqAlphanHPPA-RISCnSunUltraSPARCnIBMPOWER5+,POWER6nIBMBlueGeneprocessornMIPSR10000n龙芯最新最新TOP500cpu分布分布并行机处理器并行机处理器-AMDP

46、ERFORMANCE 1-WAYPERFORMANCE 2-WAYPERFORMANCE 4-WAY AND 8-WAYAMD Opteron 200 Series & 2000 Series ProcessorsDesigned for 2-way Server / Workstation solutionsFirst native x86 dual-core solution for 2-way computingAMD Opteron 100 Series & 1000 Series ProcessorsDesigned for 1-way Server / Workstation so

47、lutionsFirst native x86 dual-core solution for 1-way computingAMD Opteron 800 Series & 8000 Series ProcessorsDesigned for 4-way and 8-way Server solutionsFirst native x86 dual-core solution for 4-way / 8-way computingAMD Opteron Processors for Servers and Workstations并行机处理器并行机处理器-Intel数据要求苛刻数据要求苛刻 双

48、核英特双核英特尔 至至强 7000 系列系列处理器理器 最大限度提高性能、可靠性和可最大限度提高性能、可靠性和可扩展性展性双核英特双核英特尔 安安腾 处理器理器 9000 大型机大型机级服服务器器,具有具有顶级的灵活性和可靠性的灵活性和可靠性 RISC 与大型机与大型机现代化代化基本基本 计算算四核英特四核英特尔 至至强 3000 系列系列处理器理器经济、可靠的、可靠的单路服路服务器器高密度高密度 基基础设施施四核英特四核英特尔 至至强 5000 系列系列处理器理器利用四核利用四核处理最大限度提高性能密度理最大限度提高性能密度RISC 与大型机与大型机现代化代化并行机处理器并行机处理器-龙芯龙芯Godson意思为“教子”,相对于此的另一个词叫教父(Godfather)

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号