高性能集群性能评测课件

资源描述

《高性能集群性能评测课件》由会员分享，可在线阅读，更多相关《高性能集群性能评测课件（89页珍藏版）》请在金锄头文库上搜索。

1、高性能集群性能评价,曙光信息产业股份有限公司解决方案中心,1高性能集群性能评价概述 2集群性能评价 2.1计算性能测试linpack 2.2 NPB（NASA Parallel Benchmarks）测试 2.3 SPEC测试套件 2.64可靠性测试HPCC包 3集群网络性能评价 4IO性能测试 5内存带宽性能测试 6其它测试,1高性能集群性能评价概述,高性能计算架构变化,数据来源：2010 TOP 500 排行榜,高性能计算网络发展,数据来源：2010 TOP 500 排行榜,高性能集群操作系统份额,数据来源：2010 TOP 500 排行榜,千兆交换机,局域网,Internet,路由器,

2、防火墙,远程控制,内网,外网,以太网交换机,控制台,本地KVM,以太网,光纤网,Infiniband网,KVM管理网,登陆/管理节点,机房环境,并行存储系统,高速Inifiniband交换机,刀片集群,GPGPU节点,计算系统,存储系统,SMP胖节点,2,算例上传作业提交,10110001101010010001001001001001100011010100100010010011000110101001000100100110001101010010001001000010010011000110101000010010011000110101000010010011000110101

3、0000100100110001101010,高性能计算作业的工作流程,高性能计算机系统架构,高性能计算机中的关键技术,高性能集群三要素,无密码访问配通,统一的系统印象,统一的文件印象,对于普通用户来说，所有节点看到的某一个文件都是相同的文件。通过nfs或者并行文件系统实现。,通过NIS或同步用户信息来实现。,网络全通 rsh或ssh无密码访问配通,CAE （CFD）,石油勘探,气象环境海洋,图像渲染,物质的物理化学材料属性的科研工作中,基因科学、蛋白质科学的研究以及新药的研发,地震资料处理，用于油气勘探,气象环境海洋的数值预报,动画、电影、图像的高逼真效果制作,物理化学材料,生命科学,六大应

4、用领域,高性能计算在国内的六大应用领域,计算机辅助工程，广泛应用于工业生产中,其它：卫星图像处理、金融计算等,物理化学材料：计算物理材料：vasp，cpmd，Material Studio。计算化学：gaussian、gamess，ADF。 CAE领域：结构计算：ansys、abaques,nastran 流体计算：fluent，CFX 电磁仿真：Fecko 生命科学：生物信息学：MPIBLAST，BWA等分子动力学：Namd，gromacs，lammps。药物设计：dock，autodock，DiscoveryStudio。,主流高性能应用介绍,气象海洋环境科学气象预报：WRF

5、，MM5，Graphes 海洋科学：roms 石油勘探 Omega，cgg等动漫渲染 3dmax，Maya等,主流高性能应用介绍,高性能应用典型特征,高性能应用软件的编程模型,衡量高性能系统性能的评价指标 -理论峰值（FLOPS）,FLOPS（浮点运算每秒） 1、如何计算理论峰值：峰值主频(GHz)*总核心数*4 (4代表每个时钟周期做4次浮点运算) 例如：10个AMD双路12核刀片（CPU6174，主频2.2）总核心数10212240 峰值2.224042112GFLOPS2.1TFLOPS=2.1万亿次。 GPU峰值：每C2050卡双精度峰值0.515TFLOPS 单精度峰值1.

6、03TFOPS 双精度峰值0.515* GPGPU卡数目（TFLOPS）单精度峰值1.03* GPGPU卡数目（TFLOPS）,衡量高性能系统性能的评价指标 -实测峰值（FLOPS）,HPL(Linpach)测试 -对系统进行整体计算能力的评价 Linapck测试：采用主元高斯消去法求解双精度稠密线性代数方程组，结果按每秒浮点运算次数（flops）表示。 HPL：针对大规模并行计算系统的测试，其名称为High Performance Linpack (HPL)，是第一个标准的公开版本并行Linpack测试软件包。用于TOP500与国内TOP100排名依据。使用者可以改变问题规模。有相

7、当大的优化空间。,衡量高性能系统性能的评价指标 -系统效率,系统效率=实测峰值/理论峰值如何提高效率：（1）通过优化网络（2）通过优化测试程序的编译与设置（3）通过优化内存的配置与容量（4）通过优化运行参数及系统参数！目前:一套通过Infiniband网络互连的集群，效率一般在70%以上。,加速比定律,在并行计算系统，并行算法（并行程序）的执行速度相对于串行算法（串行程序）加快的倍数，就是该并行算法（并行程序）的加速比；加速比是衡量“并行收益”的重要指标； Amdahl定律适用于固定计算规模的加速比性能描述，Gustafson定律适用于可扩展问题。,Amdahl定律,S = (W

8、S+WP)/(WS+WP/p) = 1/(1/p+f(1-1/p) 显然，当p时，S=1/f，即对于固定规模的问题，并行系统所能达到的加速上限为1/f 一度引发了并行界部分人士的悲观情绪,Gustafson定律,S=（WS+pwp）/（WS+WP） =p-f（p-1）=f+p（1-f）并行计算是为了解决大规模并行问题，可并行部分的比例是可扩大的加速比与处理器数成斜率为（1-f）的线性关系这样串行比例f就不再是程序扩展性的瓶颈，当然，f越低，斜率会越大，加速性能越好。,高性能集群性能评测的目的,高性能集群综合性能测评,综合性能测评指标,HPL(Linpach)测试 -对系统进行整体计算能

9、力的评价 Linapck测试：采用主元高斯消去法求解双精度稠密线性代数方程组，结果按每秒浮点运算次数（flops）表示。 HPL：针对大规模并行计算系统的测试，其名称为High Performance Linpack (HPL)，是第一个标准的公开版本并行Linpack测试软件包，用于TOP500与国内TOP100排名依据。使用者可以改变问题规模。有相当大的优化空间。,Linpack测试,1 依赖环境：编译安装标准MPI程序，openmpi、intelmpi、mvapich2或mpich2均可编译安装优化的blas库，一般建议对于Intel平台，使用MKL，对于AMD平台，使用Go

10、toblas。 2 下载hpl-2.0.tar.gz源码包。 3 编译linpack程序。 a) tar -zxf hpl-2.0.tar.gz b) cd hpl-2.0 c) cp setup/Make.Linux_ATHLON_FBLASMake.gcc_openmpi (gcc_openmpi只是一个名字，可以随便取),基于CPU的Linpack测试步骤,d) 编辑Make.gcc_openmpi 修改第64行为ARCH = gcc_openmpi (和Make.icc_openmpi保持一致) 修改第70行为TOPdir = /public/sourcecode/hpl-2.0 （此

11、处目录为hpl-2.0所在的目录，根据具体情况修改）修改第84行为MPdir = （或者注释此行）修改第85行为MPinc = （或者注释此行）修改第86行为MPlib = （或者注释此行）修改第95行为LAdir = （或者注释此行）如果blas选用MKL库，可以参考http:/ = -Wl,-start-group $(MKLROOT)/lib/intel64/libmkl_intel_lp64.a $(MKLROOT)/lib/intel64/libmkl_sequential.a $(MKLROOT)/lib/intel64/libmkl_core.a -Wl,-end-gr

12、oup -lpthread 如果选用gotoblas库修改第97行为LAlib = /public/software/mathlib/goto2/libgoto2.a 修改第169行为CC = mpicc（如果选用intelmpi,此处需要更改为mpiicc）,基于CPU的Linpack测试步骤,intel编译器修改第171行为CCFLAGS = -O3 -xHost -ip -funroll-loops gnu 编译器修改第171行为CCFLAGS = -pipe -O3 -fomit-frame-pointer -march=native -funroll-loops -ffast-ma

13、th pgi编译器修改第171行为CCFLAGS = -Bstatic -V -fastsse -Munroll=n:4 -Mipa=fast,inline 修改第174行为LINKER = mpicc，intelmpi修改为mpiicc e) 载入环境变量，确认自己使用的编译器环境以及MPI source /public/software/mpi/openmpi-1.4.3-gnu.sh f) make arch=gcc_openmpi g) cd bin/gcc_openmpi 此目录中的xhpl为编译成功的可执行程序,HPL.dat为数据文件,基于CPU的Linpack测试步骤,修改HP

14、L.dat，一般需要修改3处 1.问题规模的组数及大小，一般为1组： 1 # of problems sizes (N) 40000 Ns 占用内存=N*N*8字节，一般占用所有测试节点物理内存总和的75%左右性能较优比如N=40000，占用物理内存=40000*40000*8 Byte=12800000000 Byte=11.92GB 2.NB值，即矩阵分块大小，这个是经验值，一般设置为128、192、232 2 # of NBs 128 192 NBs 这里表示运行2组，NB值分别为128和192,运行linpack,3、P和Q的设置（进程数目的设置），P和Q设置一般为1组 1 # of

15、 process grids (P x Q) 4 Ps 4 Qs 要求： PQ进程数 P=Q，P和Q尽量接近性能较好，如12进程，P=3/Q=4，若36进程，P=Q=6,运行linpack,HPL.dat 中其它值得修改 1 # of panel fact 0 1 2 PFACTs (0=left, 1=Crout, 2=Right) 1 # of recursive stopping criterium 4 2 8 NBMINs (= 1) 1 # of panels in recursion 2 NDIVs 1 # of recursive panel fact. 0 1 RFACTs (0=left, 1=Crout, 2=Right) 这些值对最终的结果影响较小，但是也有少量的影响，但是这些结果对测试的时间（数据组）有较大的影响。,运行linpack,载入环境变量，确认你要用的mpi source /public/software/mpi/openmpi1.4.3-gnu.sh 考虑到可能测试时间比较长，使用nohup

展开阅读全文