高性能计算集群

上传人:ji****72 文档编号:35944162 上传时间:2018-03-22 格式:DOC 页数:12 大小:179KB
返回 下载 相关 举报
高性能计算集群_第1页
第1页 / 共12页
高性能计算集群_第2页
第2页 / 共12页
高性能计算集群_第3页
第3页 / 共12页
高性能计算集群_第4页
第4页 / 共12页
高性能计算集群_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《高性能计算集群》由会员分享,可在线阅读,更多相关《高性能计算集群(12页珍藏版)》请在金锄头文库上搜索。

1、高性能计算集群高性能计算集群1.1 什么是高性能计算集群简单的说,高性能计算(High-Performance Computing)是计算机科学的一个分支,它致力于开发超级计算机,研究并行算法和开发相关软件。高性能集群主要用于处理复杂的计算问题,应用在需要大规模科学计算的环境中,如天气预报、石油勘探与油藏模拟、分子模拟、基因测序等。高性能集群上运行的应用程序一般使用并行算法,把一个大的普通问题根据一定的规则分为许多小的子问题,在集群内的不同节点上进行计算,而这些小问题的处理结果,经过处理可合并为原问题的最终结果。由于这些小问题的计算一般是可以并行完成的,从而可以缩短问题的处理时间。 1.2 分

2、类高性能计算的分类方法很多。这里从并行任务间的关系角度来对高性能计算分类。1.2.1 高吞吐计算有一类高性能计算,可以把它分成若干可以并行的子任务,而且各个子任务彼此间没有什么关联。因为这种类型应用的一个共同特征是在海量数据上搜索某些特定模式,所以把这类计算称为高吞吐计算。所谓的 Internet 计算都属于这一类。按照 Flynn 的分类,高吞吐计算属于 SIMD(Single Instruction/Multiple Data,单指令流-多数据流)的范畴。1.2.2 分布计算另一类计算刚好和高吞吐计算相反,它们虽然可以给分成若干并行的子任务,但是子任务间联系很紧密,需要大量的数据交换。按照

3、 Flynn 的分类,分布式的高性能计算属于 MIMD(Multiple Instruction/Multiple Data,多指令流-多数据流)的范畴。1.3 高性能计算集群系统的特点 可以采用现成的通用硬件设备或特殊应用的硬件设备,研制周期短;可实现单一系统映像,即操作控制、IP 登录点、文件结构、存储空间、I/O空间、作业管理系统等等的单一化;高性能(因为 CPU 处理能力与磁盘均衡分布,用高速网络连接后具有并行吞吐能力);高可用性,本身互为冗余节点,能够为用户提供不间断的服务,由于系统中包括了多个结点,当一个结点出现故障的时候,整个系统仍然能够继续为用户提供服务;高可扩展性,在集群系统

4、中可以动态地加入新的服务器和删除需要淘汰的服务器,从而能够最大限度地扩展系统以满足不断增长的应用的需要; 安全性,天然的防火墙;资源可充分利用,集群系统的每个结点都是相对独立的机器,当这些机器不提供服务或者不需要使用的时候,仍然能够被充分利用。而大型主机上更新下来的配件就难以被重新利用了。具有极高的性能价格比,和传统的大型主机相比,具有很大的价格优势;1.4 Linux 高性能集群系统当论及 Linux 高性能集群时,许多人的第一反映就是 Beowulf。起初,Beowulf只是一个著名的科学计算集群系统。以后的很多集群都采用 Beowulf 类似的架构,所以,实际上,现在 Beowulf 已

5、经成为一类广为接受的高性能集群的类型。尽管名称各异,很多集群系统都是 Beowulf 集群的衍生物。当然也存在有别于Beowulf 的集群系统,COW 和 Mosix 就是另两类著名的集群系统。1.4.1 Beowulf 集群简单的说,Beowulf 是一种能够将多台计算机用于并行计算的体系结构。通常Beowulf 系统由通过以太网或其他网络连接的多个计算节点和管理节点构成。管理节点控制整个集群系统,同时为计算节点提供文件服务和对外的网络连接。它使用的是常见的硬件设备,象普通 PC、以太网卡和集线器。它很少使用特别定制的硬件和特殊的设备。Beowulf 集群的软件也是随处可见的,象Linux、

6、PVM 和 MPI。 1.4.2 COW 集群象 Beowulf 一样,COW(Cluster Of Workstation)也是由最常见的硬件设备和软件系统搭建而成。通常也是由一个控制节点和多个计算节点构成。COW 和 Beowulf 的主要区别在于:COW 中的计算节点主要都是闲置的计算资源,如办公室中的桌面工作站,它们就是普通的 PC,采用普通的局域网进行连接。因为这些计算节点白天会作为工作站使用,所以主要的集群计算发生在晚上和周末等空闲时间。而 Beowulf 中的计算节点都是专职于并行计算,并且进行了性能优化。Beowulf 采用高速网(InfiniBand, SCI, Myrine

7、t)上的消息传递(PVM 或 MPI)进行进程间通信(IPC)。 因为 COW 中的计算节点主要的目的是桌面应用,所以它们都具有显示器、键盘和鼠标等外设。而 Beowulf 的计算节点通常没有这些外设,对这些计算节点的访问通常是在管理节点上通过网络或串口线实现的。 1.4.3 Mosix 集群实际上把 Mosix 集群放在高性能集群这一节是相当牵强的,但是和 Beowulf 等其他集群相比,Mosix 集群确实是种非常特别的集群, 它致力于在 Linux 系统上实现集群系统的单一系统映象 SSI(Single System Image)。Mosix 集群将网络上运行 Linux 的计算机连接成

8、一个集群系统。系统自动均衡节点间的负载。因为 Mosix 是在 Linux 系统内核中实现的集群,所以用户态的应用程序不需要任何修改就可以在 Mosix 集群上运行。通常用户很少会注意到 Linux 和 Mosix 的差别。对于他来说,Mosix 集群就是运行 Linux 的一台 PC。尽管现在存在着不少的问题,Mosix 始终是引人注目的集群系统2 如何架构高性能计算集群在搭建高性能计算集群(HPC CLUSTER)之前,我们首先要根据具体的应用需求,在节点的部署、高速互连网络的选择、以及集群管理和通讯软件,三个方面作出配置。2. 1 节点的部署根据功能,我们可以把集群中的节点划分为 6 种

9、类型: 用户节点(User Node)控制节点(Control Node)管理节点(Management Node)存储节点(Storage Node)安装节点(Installation Node)计算节点(Compute Node)虽然由多种类型的节点,但并不是说一台计算机只能是一种类型的节点。一台计算机所扮演的节点类型要由集群的实际需求和计算机的配置决定。在小型集群系统中,用户节点、控制节点、管理节点、存储节点和安装节点往往就是同一台计算机。下面我们分别解释这些类型节点的作用。2.1. 1 用户节点(User Node)用户节点是外部世界访问集群系统的网关。用户通常登录到这个节点上编译并运

10、行作业。用户节点是外部访问集群系统强大计算或存储能力的唯一入口,是整个系统的关键点。为了保证用户节点的高可用性,应该采用硬件冗余的容错方法,如采用双机热备份。至少应该采用 RAID(Redundant Array of Independent Disks)技术保证用户节点的数据安全性。2.1.2 控制节点(Control Node)控制节点主要承担两种任务: 为计算节点提供基本的网络服务,如DHCP、DNS 和 NFS; 调度计算节点上的作业,通常集群的作业调度程序(如PBS)应该运行在这个节点上。通常控制节点是计算网络中的关键点,如果它失效,所有的计算节点都会失效。所以控制节点也应该有硬件冗

11、余保护。2.1.3 管理节点(Management Node)管理节点是集群系统各种管理措施的控制节点。管理网络的控制点,监控集群中各个节点和网络的运行状况。通常的集群的管理软件也运行在这个节点上。2.1.4 存储节点(Storage Node)如果集群系统的应用运行需要大量的数据,还需要一个存储节点。顾名思义,存储节点就是集群系统的数据存储器和数据服务器。如果需要存储 TB 级的数据,一个存储节点是不够的。这时候你需要一个存储网络。通常存储节点需要如下配置:ServerRAID 保护数据的安全性; 高速网保证足够的数据传输速度。2.1.5 安装节点(Installation Node)安装节

12、点提供安装集群系统的各种软件,包括操作系统、各种运行库、管理软件和应用。它还必须开放文件服务,如 FTP 或 NFS。2.1.6 计算节点(Computing Node)计算节点是整个集群系统的计算核心。它的功能就是执行计算。你需要根据你的需要和预算来决定采用什么样的配置。理想的说,最好一个计算节点一个CPU。但是如果考虑到预算限制,也可以采用 SMP。从性价比角度说,两个CPU 的 SMP 优于 3 或 4 个 CPU 的 SMP 机器。因为一个计算节点的失效通常不会影响其他节点,所以计算节点不需要冗余的硬件保护。2.1.7 集群中节点的部署虽然由多种类型的节点,但并不是说一台计算机只能是一

13、种类型的节点。一台计算机所扮演的节点类型要由集群的实际需求和计算机的配置决定。在小型集群系统中,用户节点、控制节点、管理节点、存储节点和安装节点往往就是同一台计算机,这台计算机通常成为主节点(Master Node)。在这种情况下,集群就是由多个计算节点和一个主节点构成。在大型的集群系统中如何部署这些节点是个比较复杂的问题,通常要综合应用需求,拓扑结构和预算等因素决定。 2.2 高速互连网络网络是集群最关键的部分.它的容量和性能直接影响了整个系统对高性能计算(HPC)的适用性。根据我们的调查,大多数高性能科学计算任务都是通信密集型的,因此如何尽可能的缩短节点间的通信延迟和提高吞吐量是一个核心问

14、题。221 快速以太网快速以太网是运行于 UTP 或光缆上的 100Mb/S 的高速局域网的总称。由于TCP/IP 运行时对 CPU 的占用较多,并且理论上的传输速度和延迟都比较差,现在我们在 HPC 集群中计算网络的选择上基本不考虑这个方案了。222 千兆以太网(Giganet)Giganet 是用于 Linux 平台的虚拟接口 (VI) 体系结构卡的第一家供应商,提供 cLAN 卡和交换机。VI 体系结构是独立于平台的软件和硬件系统,它由 Intel 开发,用于创建群集。它使用自己的网络通信协议在服务器之间直接交换数据,而不是使用 IP,并且它并不打算成为 WAN 可路由的系统。Gigan

15、et 产品当前可以在节点之间提供 1 Gbps 单向通信,理论最小延迟为 7 微秒,实测延迟为 50-60 微秒左右,并且运行时对 CPU 的占用也比较大。223 IEEE SCIIEEE 标准 SCI 的延迟更少(理论值 1.46 微秒, 实测值 3-4 微秒),并且其单向速度可达到 10Gb秒, 与 InfiniBand 4X 的理论值一样。SCI 是基于环拓扑的网络系统,不像以太网是星形拓扑。这将使在较大规模的节点之间通信速度更快。更有用的是环面拓扑网络,它在节点之间有许多环形结构。两维环面可以用 n 乘 m 的网格表示,其中在每一行和每一列都有一个环形网络。三维环面也类似,可以用三维立

16、体节点网格表示,每一层上有一个环形网络。密集超级计算并行系统使用环面拓扑网络,为成百上千个节点之间的通信提供相对最快的路径。什么是 SCI 互连技术?符合 ANSI/IEEE 1596-1992 的 SCI 技术定义了点到点高速通信端口和数据包协议集;SCI 作为一种开放总线技术,实现了高带宽(10Gbit/s)、低延迟(1.46 微秒)的网络通讯;SCI 端口是双向连接的,保证了数据读、写操作可以同步进行;支持多种 CPU 类型(Intel、AMD、Sun、Alpha);支持多种流行操作系统(Windows2000、NT、RedHat Linux、SuSE Linux、 Solaris、Lynx、Tru64 Unix、VxWorks);SCI 协议支持共享存储器系统,并包含 Cache 一致性协议集;网络拓扑灵活,可支持星型网,一维环形网(Ring)及二维,三维环形网格拓扑;为执行关键任务应用而设计,支持热插拔和多冗余结构。224 Myrinet 互连技术Myrinet 提供网卡和交换机,其单向互连速度最高可达到 1.28 Gbps。网卡有两种形式,铜线型和光纤型

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号