HPC 网络设计指南 v1－金锄头文库

资源描述

《HPC 网络设计指南 v1》由会员分享，可在线阅读，更多相关《HPC 网络设计指南 v1（48页珍藏版）》请在金锄头文库上搜索。

1、HPC网络解决方案,服务器的讨论会耦合在网络部分,文档目标,技术目标阐述HPC网络的架构各个功能区的分析应用需求分析可选的网络优化措施 Cisco产品选择以及原因计算节点子系统存储以及并行文件子系统管理节点子系统高频交易类系统 ,听众目标了解HPC网络的应用需求了解Cisco抛弃infiniband的原因了解Cisco在HPC网络中的创新技术和解决方案 Solution应用模板示范,感谢！多位同事、专家的鼎力相助,Shengli HouXu LuJun Xie,Steve YangWang JinGuoLing Zhang,Starry Wu,以及其它HPC单位人员的

2、帮助如 RedHat / 气象局的专家,HPC网络架构简述,HPC网络架构综述,计算节点计算网络,存储网文件系统,管理网,计算节点特性,计算网特性,存储网特性,并行文件系统,存储节点特性,管理网特性,管理节点特性,传统HPC网络设计Brief,计算节点,I/O 节点,存储：磁盘,前言.传统HPC 网络架构综述,传统的HPC网络设计示意图：多个网络 for 不同的流量 !,前言.传统HPC网络逻辑示意,用户终端接入连接,User 接入连接的主要任务: Job initiation 典型情况下是 SSH / Telnet / Bproc 等控制方式观测实时的任务结果可能是图形化的结

3、果图形化的结果：一般情况下会从一台若干台特定的服务器上获取。图形的传送一般GE带宽就够了。有时会被用作 Inter-Cluster (GRID) 的通讯这种情况下需要参考IPC网络的设计；需要考虑：安全和 QOS 一般情况下User只会和Master Node通讯由Master Node 来管理其它节点通常用户接入用GE & TCP/IP 足够.,User,Master Node,HPC网络架构简述：计算系统,HPC网络架构综述,计算节点计算网络,存储网文件系统,管理网,计算节点特性,计算网特性,存储网特性,并行文件系统,存储节点特性,管理网特性,管理节点特性,传统HP

4、C网络设计Brief,1.1计算网络特性简析-A,HPC 计算网络：主要负责Process之间的通讯松耦合 & 紧耦合 = 指Process之间的交互频度某些特别的松耦合应用甚至在Process之间没有交互流量，这些用户是对网络不敏感的我们关心的是瓶颈在I/O上的HPC应用场景包括带宽&Latency 如果HPC应用是绝对的本地计算那么重点在CPU/Core/GPU/Memory速度&大小首要考虑如何提高I/O传输时延 = Latency I/O Latency Process 就能越快地摆脱等待的状态，CPU 利用率最直接的证明就是多CPU inter-connect 的超级

5、计算机系统某些HPC应用甚至会用Multicast 来同步数据 L2 Multicast Latency Latency 会从/协议栈 /网卡-IO /线路 /设备转发 /拓扑 /拥塞的Queue 等多处引入低延迟网络方案有 Infiniband 或 10GE w Low Latency 或者 RDMA over Converged Ethernet (RoCE) 可选必须是DCB 的网络，才能支持 RoCE,1.1计算网络特性简析-B,HPC 计算网络，其它：安全控制对故障Server的隔离，防止干扰整个L2域 : 广播抑制、Loop防止、Flapping 网络要求HA 对”实时H

6、PC”应用非常重要流量统计和分析 QoS: 在多个网络复用情况下的QoS (管理网复用; 个人不建议和I/O网复用，除非是松耦合) 对关键流量的QoS 优化如果采用Socket Ethernet 应用流量模型是否允许采用不丢包的Ethernet技术 ToE 网卡的重要性个人认为必备组播技术的用法目前只在某些特定的HPC应用系统中作为重点使用。,10Gb Ethernet vs IB HPC 领域,比较的情况 MPI编程接口以太网卡用10G w RDMA 时效果相当编程用Sockets or MPI (各占50%, I/O敏感会选MPI) IPoIB 和10GE 比较无明显优势TC

7、P Offload Engine (ToE) 必备降低网络时延降低CPU利用率解放PCI-E总线（小突发效率低）注: TOE 有很多 Sub-Feature SDP-IB vs 10GE w ToE 无任何优势交换机的低延迟 = DCE(DCB) Switch TCP 协议栈的普适和灵活结论: 10GE w ToE 在非MPI 编程的环境中有明显优势；10GE w RDMA 在MPI 环境中和IB 接近,IB (2.5Gbps为单位, x1 x4, x12 倍速; 8B/10B编码) 一般用x4, 所以SDR/DDR等价以太网带宽是 8G/16G,Server 背靠背,要表达为消耗

8、了多少HZ 的CPU才有意义最差的情况是1bit耗用1HZ/Core的CPU,RoCE (RDMA Over Converged Ethernet),Source: Mellanox Corp.,OFA Verbs Interface,IB Transport Protocol,Network Layer,InfiniBand Link Layer,InfiniBand,OFA* Stack,InfinBand Management,RDMA Application / ULP,RDMAP,DDP,IP,SCTP,MPA,TCP,Ethernet Link Layer,iWARP,Ether

9、net Management,RoCE,Ethernet Link Layer,Ethernet Management,IB Transport Protocol,Network Layer,I/O Stack 比较,Source: Mellanox Corp.,Single Chip 10 watts Available from major vendors Emulex RoCE NIC Qlogic iWARP NIC Intel iWARP Chelsio iWARP Cisco DCE/DCB switch Broadcom RoCE NIC Mellanox RoCE NIC Br

10、ocade DCB Switch,2nd CNAs,MPI (MVAPICH2) Performance RoCE vs IB,http:/mvapich.cse.ohio-state.edu/performance/interNode.shtml,在这个性能评测的结构中，我们可以发现10GE RoCE 和Infiniband HCA 在“延迟” 这个技术指标上已经非常接近了。所以除非是有很大的带宽需求，否则RoCE完全可以替代Infiniband了。,RoCE : RDMA over Ethernet. 最新的Ethernet HPC 技术，有取代 iWARP 的趋势。明确表示RoCE 需

11、要网络支持DCB & lossless Ethernet http:/ = Utilize advances in lossless Ethernet (DCB) for an efficient RDMA over Ethernet Lowest latency of 1.3 microseconds on lossless Ethernet RDMA Transport offload with zero copy for low CPU utilization ,Ethernet vs IB HPC 领域市场份额,45.6%,42.8%,Top 500 统计情况,推论：相信在Top 5

12、00以外，GE/10GE 份额数远大于IB！,1.2计算节点-A,HPC 计算节点主要考虑节点内的计算能力将尽可能多的Process/Core放在一个Server内 Core之间的交互可以走更高速的share L2 cache，最差也是FSBMemory CPU之间的交互可以通过Memory(DRAM) 有硬件Arbitor 4*CPU 的一般都是SMP，更复杂的还有NUMA/MPP方式. 延迟更低、带宽更高、不占外部I/O；明显Core数量多，会有多个优势目前来看CPU-Memory 的带宽不是瓶颈单一Server 能支持的Core/CPU 数量一般一个PC Server， 4个CPU

13、是SMP 架构下性能较好的数量单一Server内，需考虑操作系统对Core/CPU数量的支持能力；一般Core & Process 是一个量级的；出于性能考虑甚至可以per Process per Core.,1.2计算节点-B,HPC 计算节点的其它考虑内存的I/O速度某些应用也会需要计算节点支持大内存；应用算法会有明确的需求; 个人接触到的: 最大16G/Process; 最小1G/Process; 本地存储: SSD 是趋势吗 = 除非采用本地预读取的方案；网卡 Infiniband HCA: SDR、DDR、QDR = 一般用DDR (x4) GE - 管理接口 10GE

14、w/o RCoE (RDMA over Ethernet: 在MPI环境中，降低延迟、实现基于Ethernet的RDMA; 网络支持DCB非常关键. 可以认为是Ethernet Infiniband.) 10GE w/o ToE (TCP offload Engine: 在IP环境中，对降低延迟、减少CPU开销、提高PCI-E总线吞吐量非常关键. 在和I/O 节点的通讯时，尤其重要. ) 可靠性: 由于主控节点会把故障机的任务Re-Schedule，所有有一定的容忍度但实际上非常不希望出问题 (影响时效性),HPC网络架构简述: 文件系统,HPC网络架构综述,计算节点计算网络,存储网文

15、件系统,管理网,计算节点特性,计算网特性,存储网特性,并行文件系统,I/O节点特性,管理网特性,管理节点特性,传统HPC网络设计Brief,2.1 并行文件系统 I/O节点简析-A,HPC 是一种并行计算的方式，所以会有多个节点对同一个文件进行操作，具备这种能力的文件系统并行文件系统 GFS 就是一种设计架构非常高效的分布式并行文件系统鉴于目前的HPC中不常用GFS，所以我们在此不以GFS 为分析对象并行文件系统有很多，我们以比较典型的Linux开源的Lustre文件系统来说明甚至部署 NFS 文件系统时的技术需求也可以参照Lustre 的要求来设计HPC并行文件系统的思路由多台I/

16、O 节点机来并发地对外提供存储的读写单个文件可以进行“条纹化”处理，分散到不同的I/O节点上由主控机(一台或者多台)来控制多个对象对同一个文件的操作 “锁” 所以客户端访问文件时，首先要从主控机那里拿到权限&Index I/O 节点机可互相提供LUN 的A/S备份 ,2.1 并行文件系统 I/O节点简析-B,并行文件系统 Lustre 各个功能节点需求分析 Meta Data Server(MDS) 相当于Index服务器 = 快速存储读写= 12% file-system; 强劲的CPU 能力(最少4 core) 典型的I/O读写速度敏感，而非流量。需要有大内存做Cache 给Cli

17、ent 提供Index; MDS 目前支持双机主备(将来甚至更多A/A)，所以要求有SAN连接；读写的特点是大量小数据块的随机读写 Object Storage Server(OSS) 相当于文件的存储点，它的任务是把RAW-Disk变成Client能读写的文件。所以它一方面要求高速的外部磁盘读写大数据块的读写为主，另一方面需要给文件系统的Client大吞吐量回应。一般性能要求较高的场合会用 HBA(SAN)后端 & 10GE/IB前端；简单地说就是大带宽的系统总线通道最少要2倍理论/3.5倍实际于NIC/HBA/HCA OSS节点也需要部分Memory，用来做CacheRead-Only File-不同的HPC应用的读写比例不一样读2写8 或者读8写2，需根据实际情况配置。 CPU 在NIC/HCA-RDMA &HBA 做Offload 的情况下不会高，反之则会有相当消耗尤其是用CPU来处理TCP时。,

展开阅读全文

HPC 网络设计 指南 v1

最新文档

HPC 网络设计指南 v1