国产cpu平台中高阶矩量法10万核并行性能

上传人:小** 文档编号:34139637 上传时间:2018-02-21 格式:DOC 页数:6 大小:100.50KB
返回 下载 相关 举报
国产cpu平台中高阶矩量法10万核并行性能_第1页
第1页 / 共6页
国产cpu平台中高阶矩量法10万核并行性能_第2页
第2页 / 共6页
国产cpu平台中高阶矩量法10万核并行性能_第3页
第3页 / 共6页
国产cpu平台中高阶矩量法10万核并行性能_第4页
第4页 / 共6页
国产cpu平台中高阶矩量法10万核并行性能_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《国产cpu平台中高阶矩量法10万核并行性能》由会员分享,可在线阅读,更多相关《国产cpu平台中高阶矩量法10万核并行性能(6页珍藏版)》请在金锄头文库上搜索。

1、国产 CPU 平台中高阶矩量法 10 万核并行性能 左胜 林中朝 陈岩 张玉 赵勋旺 西安电子科技大学天线与微波技术重点实验室 摘 要: 针对国产超级计算机平台上大规模电磁仿真软件相对匮乏, 本文将并行高阶矩量法程序移植到国产超级计算机平台上, 并以机载线天线阵列的辐射特性计算为例对其并行性能进行了测试和评估。实现了并行高阶矩量法单一任务突破 10万 CPU 核规模, 这是目前在国产超级计算机平台上实现的最大规模并行矩量法计算。以 1440 核为基准, 使用 CPU 核数达到 102400, 并行规模扩大约 70 倍时, 并行矩量法矩阵方程求解并行效率仍在 50%以上。这一研究工作, 使利用纯

2、国产超级计算机对复杂电大电磁系统进行精确高效仿真成为可能。关键词: 矩量法; 高阶基函数; 并行效率; 超级计算机; 10 万核; 作者简介:左胜 1992 年生, 博士研究生。主要研究方向:并行高阶矩量法、并行有限元边界积分方程法。E-mail:收稿日期:2016-10-31基金:国家重点研发计划政府间国际科技创新合作重点专项 (2016YFE0121600) The Hundred Thousand Cores Parallel Performance of High Order Mo M in Domestically-Made CPU PlatformZUO Sheng LIN Zho

3、ng-chao CHEN Yan ZHANG Yu ZHAO Xun-wang Key Lab. of Antennas and Microwave Technology, Xidian Univ.; Abstract: To solve the deprivation of large-scale electromagnetic simulation software in domestically-made CPU platform, the paper translates the parallel higher-order Mo M program into domestically-

4、made CPU platform and programs parallel performance is tested and evaluated by the calculation of the radiation characteristic of the airborne wire antenna array. The maximum number of CPU cores breaks through 100 k cores, which is the largest scale of parallel Mo M computation in domestically-made

5、CPU platform at present. The results show that the parallel efficiency is higher than 50% when the parallel scale is expanded about 70 times from 1440 CPU cores to 102400 CPU cores. This study makes it possible that make use of the pure domestic super computer to complete the accurate and efficient

6、simulation of complex electrically large electromagnetic system.Keyword: method of moments; high order basic function; parallel efficiency; super computer; 100k CPU cores; Received: 2016-10-31引言随着科学技术的迅速发展, 我国电磁相关领域取得一系列重大进展, 例如, 载人航天工程、预警指挥飞机工程, 等。这些系统工程, 都离不开对电磁场与电磁波的研究。这些系统均为复杂电大电磁系统, 对电磁场数值仿真能力提

7、出了巨大挑战。矩量法1是电磁场数值分析方法中具有最高理论精度的方法, 笔者课题组长期研究高阶基函数矩量法的大规模并行计算, 一方面通过选取高效的基函数降低矩量法矩阵维数, 另一方面通过并行计算技术充分利用当前分布式集群的计算能力和存储能力加速矩量法求解过程;目前, 在通用中央处理器 (CPU) 平台中已经完成了一大批挑战性的数值仿真问题2-4。但是, 随着美国对我国超级计算机禁运 CPU, 在纯国产超级计算机上实现高阶矩量法的超大规模并行计算是一种迫切的战略需求。国家超级计算济南中心的“神威蓝光”超级计算机, 是首台全部采用国产 CPU 构建的千万亿次计算机系统, 在此平台上我们前期已经做了大

8、量的程序移植和优化工作5-6, 本文在此基础上对并行高阶矩量法在超大规模并行时的并行性能进行测试分析, 最大使用核数达到102400CPU 核。1 并行高阶基函数矩量法1.1 高阶基函数基函数的选取是矩量法的一个重要环节, 为了降低矩量法未知量, 本文选取高阶多项式基函数。高阶多项式基函数定义在如图 1 所示的双线性曲面上, 图中r11、r 12、r 21、r 22是双线性曲面四个顶点的位置矢量。以 s 方向为例, 双线性曲面上的电流密度 Js和磁流密度 Ms可以分别展开为其中, p 和 s 表示双线性曲面的两个方向, i 和 j 分别是 p 和 s 方向的展开阶数, Np和 Ns分别是 p

9、和 s 方向的最大展开阶数, a ij和 bij是未知系数, F ij (p, s) 是多项式基函数, 其定义为其中, p和 s分别表示 p 和 s 参数曲线的切线方向。图 1 双线性曲面示意图 下载原图1.2 并行矩阵方程求解矩量法将电磁场问题最终转化为矩阵方程, 矩阵方程求解是矩量法计算过程中最耗时的部分。为了提高程序性能, 本文采用并行分块 Right-Looking LU7分解算法求解矩量法矩阵方程, 以充分利用当前计算机的多级缓存机制。同时为了保证进程间负载均衡, 避免 LU 分解过程中出现进程空载, 采用 Sca LAPACK (Scalable Linear Algebra PA

10、CKage) 中的二维循环分块分布方式8将矩阵分配到各个进程中去。假设并行分块 LU 分解递推到第 k 步, 图 2 (a) 至 (d) 给出此时并行分块 LU分解的示意图, 主要包括 panel 列分解、行交换、panel 行更新及 trailing 更新7过程。图中矩阵左侧和上侧的数字分别表示进程行坐标和进程列坐标;无填充色的分块矩阵已经分解完, 填充深灰色的分块矩阵正在分解, 浅灰色的分块矩阵还未分解;箭头表示通信方向, 公式表示计算过程。由于矩阵分布在多个进程上, 因此图中每个公式所示的计算过程都是由多个进程并行执行。图 2 并行分块 LU 分解递推到第 k 步 (彩色图片参见本刊电子

11、版) 下载原图1.3 并行矩阵填充在典型的并行矩量法计算过程中, 矩阵构建耗时一般明显少于矩阵方程求解。前文已指出矩阵分配方案采用块循环分配方案, 为了提高并行效率, 减少进程内及进程间的冗余计算, 本文通过循环几何单元计算对应的矩阵元素。为消除冗余积分计算, 对进程中完成了积分计算的几何单元施加一个标记, 以免该进程再次计算。在阻抗矩阵填充过程中, 将阶数较低的多项式所对应的矩阵元素的计算结果用于阶数较高的多项式所对应的矩阵元素的计算, 以提高矩阵填充效率。2 计算平台简介本文所用的计算平台为国家超级计算济南中心的“神威蓝光”超级计算机, 共包含 8704 个申威 SW1600 处理器, 每

12、个处理器配置 16 核, 主频 1.01.1 GHz, 峰值性能 128 Gflops, 内存 16 GB, 访存带宽达到 102.4 GB/s, 高速计算网络接口带宽 40 Gbps, 以太网接口带宽 1 Gbps;网络系统为 Infini Band QDR, 链路速率 40 Gbps, 聚合带宽 69.6 TB/s;操作系统为国产“神威睿思”并行操作系统, 文件系统为高性能并行文件系统 SWGFS。3 并行性能测试本文以机载线天线阵列的辐射特性计算为例, 对并行高阶基函数矩量法在国产CPU 平台上的并行性能进行评估。机载线天线阵列的电磁仿真模型如图 3 所示。飞机的尺寸为 36 m40 m

13、11.5 m, 线天线阵列的尺寸为 10.8 m2.9 m, 天线阵列的单元数为 7214=1008, 通过泰勒综合设计的阵列副瓣电平为-35d B。阵列的工作频率为 1.0 GHz, 阵列的未知量为 12166, 阵列与飞机一体化仿真模型的未知量为 259128。图 3 机载电磁仿真模型 下载原图使用不同 CPU 核数计算该机载线天线阵列的增益方向图, 计算结果如图 4 所示, 同时图中给出了天线架设到飞机平台前的增益方向图用于对比。测试所需的计算资源以及计算时间如表 1 所示, 测试所得的并行性能如图 5 所示。图 4 机载线天线阵列的增益方向图 (彩色图参见本刊电子版) 下载原图表 1

14、计算资源及所需的计算时间 下载原表 图 5 机载线天线阵列测试所得的并行性能 下载原图由图 4 (b) 和 (c) 可知, 将线天线阵列架设到飞机平台上后, 天线阵列增益方向图受飞机平台影响较大。主要体现在 xoy 面内副瓣电平大幅度抬升, xoz面内 (-80, -50) 角度范围内电平大幅度降低。前者主要是飞机机身和尾翼的反射效应造成, 后者主要是飞机机身的遮挡效应造成。由图 5 可以看出, 随着并行规模的增大, 高阶基函数矩量法矩阵填充的并行效率和矩阵方程求解的并行效率均逐渐下降。这主要是由于单一进程分配到的任务变小, 通信时间所占比例增大导致的。以 1440CPU 核为基准, 当内存使

15、用率在 5%以上时, 程序并行效率在 80%以上;在使用 CPU 核数达到 102400 核时, 矩阵方程求解效率仍能达到 50%以上。这表明并行高阶矩量法程序在国产 CPU 平台中具有良好的并行性能。102400CPU 核规模是目前在国产超级计算机平台中实现的最大规模并行矩量法计算。由上述测试和分析可知, 采用并行高阶矩量法在国产超级计算机平台上进行具体的工程应用仿真时, 应根据问题的规模合理选择 CPU 核数, 保证内存利用率在 5%以上, 从而高效地进行数值仿真。4 结论本文将并行高阶矩量法程序运行于国产超级计算机平台上, 最大使用 CPU 核数突破 10 万核, 程序并行性能表现良好。

16、这一工作为后期在国产超级计算机平台上开展大规模电磁数值仿真奠定了基础, 实现了复杂电大电磁系统数值仿真软硬件能力的自主保障。参考文献1Zhang Y, Tapan K Sarkar.Parallel Solution of Integral Equation-Based EM Problems in the Frequency DomainM.Hoboken, NJ:Wiley-IEEE Press, 2009 2Zhang Y, Van d G R A, Taylor M C, et al.Parallel Mo M using higher-order basis functions and PLAPACKin-core and out-of-core solvers for challenging EM simulationsJ.IEEE Antennas&Propagation Magazine

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号