高性能集群性能评测课件

上传人:F****n 文档编号:88253117 上传时间:2019-04-22 格式:PPTX 页数:89 大小:1.11MB
返回 下载 相关 举报
高性能集群性能评测课件_第1页
第1页 / 共89页
高性能集群性能评测课件_第2页
第2页 / 共89页
高性能集群性能评测课件_第3页
第3页 / 共89页
高性能集群性能评测课件_第4页
第4页 / 共89页
高性能集群性能评测课件_第5页
第5页 / 共89页
点击查看更多>>
资源描述

《高性能集群性能评测课件》由会员分享,可在线阅读,更多相关《高性能集群性能评测课件(89页珍藏版)》请在金锄头文库上搜索。

1、高性能集群性能评价,曙光信息产业股份有限公司 解决方案中心,1高性能集群性能评价概述 2集群性能评价 2.1计算性能测试linpack 2.2 NPB(NASA Parallel Benchmarks)测试 2.3 SPEC测试套件 2.64可靠性测试HPCC包 3集群网络性能评价 4IO性能测试 5内存带宽性能测试 6其它测试,1高性能集群性能评价概述,高性能计算架构变化,数据来源:2010 TOP 500 排行榜,高性能计算网络发展,数据来源:2010 TOP 500 排行榜,高性能集群操作系统份额,数据来源:2010 TOP 500 排行榜,千兆交换机,局域网,Internet,路由器,

2、防火墙,远程控制,内网,外网,以太网 交换机,控制台,本地KVM,以太网,光纤网,Infiniband网,KVM管理网,登陆/管理节点,机房环境,并行存储系统,高速Inifiniband交换机,刀片集群,GPGPU节点,计算系统,存储系统,SMP胖节点,2,算例上传 作业提交,10110001101010010001001001001001100011010100100010010011000110101001000100100110001101010010001001000010010011000110101000010010011000110101000010010011000110101

3、0000100100110001101010,高性能计算作业的工作流程,高性能计算机系统架构,高性能计算机中的关键技术,高性能集群三要素,无密码访问配通,统一的系统印象,统一的文件印象,对于普通用户来说,所有节点看到的某一个文件都是相同的文件。通过nfs或者并行文件系统实现。,通过NIS或同步用户信息来实现。,网络全通 rsh或ssh无密码访问配通,CAE (CFD),石油勘探,气象环境海洋,图像渲染,物质的物理化学材料属性的科研工作中,基因科学、蛋白质科学的研究以及新药的研发,地震资料处理,用于油气勘探,气象环境海洋的数值预报,动画、电影、图像的高逼真效果制作,物理化学材料,生命科学,六大应

4、用领域,高性能计算在国内的六大应用领域,计算机辅助工程,广泛应用于工业生产中,其它:卫星图像处理、金融计算等,物理化学材料: 计算物理材料:vasp,cpmd,Material Studio。 计算化学:gaussian、gamess,ADF。 CAE领域: 结构计算:ansys、abaques,nastran 流体计算:fluent,CFX 电磁仿真:Fecko 生命科学: 生物信息学:MPIBLAST,BWA等 分子动力学:Namd,gromacs,lammps。 药物设计:dock,autodock,DiscoveryStudio。,主流高性能应用介绍,气象海洋环境科学 气象预报:WRF

5、,MM5,Graphes 海洋科学:roms 石油勘探 Omega,cgg等 动漫渲染 3dmax,Maya等,主流高性能应用介绍,高性能应用典型特征,高性能应用软件的编程模型,衡量高性能系统性能的评价指标 -理论峰值(FLOPS),FLOPS(浮点运算每秒) 1、如何计算理论峰值: 峰值主频(GHz)*总核心数*4 (4代表每个时钟周期做4次浮点运算) 例如:10个AMD双路12核刀片(CPU6174,主频2.2) 总核心数10212240 峰值2.224042112GFLOPS2.1TFLOPS=2.1万亿次。 GPU峰值: 每C2050卡 双精度峰值0.515TFLOPS 单精度峰值1.

6、03TFOPS 双精度峰值0.515* GPGPU卡数目(TFLOPS) 单精度峰值1.03* GPGPU卡数目(TFLOPS),衡量高性能系统性能的评价指标 -实测峰值(FLOPS),HPL(Linpach)测试 -对系统进行整体计算能力的评价 Linapck测试:采用主元高斯消去法求解双精度稠密线性代数方 程组,结果按每秒浮点运算次数(flops)表示。 HPL:针对大规模并行计算系统的测试,其名称为High Performance Linpack (HPL),是第一个标准的公开版本并行Linpack测试软件包。 用于TOP500与国内TOP100排名依据。 使用者可以改变问题规模。 有相

7、当大的优化空间。,衡量高性能系统性能的评价指标 -系统效率,系统效率=实测峰值/理论峰值 如何提高效率: (1)通过优化网络 (2)通过优化测试程序的编译与设置 (3)通过优化内存的配置与容量 (4)通过优化运行参数及系统参数! 目前:一套通过Infiniband网络互连的集群,效率一般在70%以上。,加速比定律,在并行计算系统,并行算法(并行程序)的执行速度相对于串行算法(串行程序)加快的倍数,就是该并行算法(并行程序)的加速比; 加速比是衡量“并行收益”的重要指标; Amdahl定律适用于固定计算规模的加速比性能描述,Gustafson定律适用于可扩展问题。,Amdahl定律,S = (W

8、S+WP)/(WS+WP/p) = 1/(1/p+f(1-1/p) 显然,当p时,S=1/f,即对于固定规模的问题,并行系统所能达到的加速上限为1/f 一度引发了并行界部分人士的悲观情绪,Gustafson定律,S=(WS+pwp)/(WS+WP) =p-f(p-1)=f+p(1-f) 并行计算是为了解决大规模并行问题,可并行部分的比例是可扩大的 加速比与处理器数成斜率为(1-f)的线性关系 这样串行比例f就不再是程序扩展性的瓶颈, 当然,f越低,斜率会越大,加速性能越好。,高性能集群性能评测的目的,高性能集群综合性能测评,综合性能测评指标,HPL(Linpach)测试 -对系统进行整体计算能

9、力的评价 Linapck测试:采用主元高斯消去法求解双精度稠密线性代数方 程组,结果按每秒浮点运算次数(flops)表示。 HPL:针对大规模并行计算系统的测试,其名称为High Performance Linpack (HPL),是第一个标准的公开版本并行Linpack测试软件包, 用于TOP500与国内TOP100排名依据。 使用者可以改变问题规模。 有相当大的优化空间。,Linpack测试,1 依赖环境: 编译安装标准MPI程序,openmpi、intelmpi、mvapich2或mpich2均可 编译安装优化的blas库,一般建议对于Intel平台,使用MKL,对于AMD平台,使用Go

10、toblas。 2 下载hpl-2.0.tar.gz源码包。 3 编译linpack程序。 a) tar -zxf hpl-2.0.tar.gz b) cd hpl-2.0 c) cp setup/Make.Linux_ATHLON_FBLASMake.gcc_openmpi (gcc_openmpi只是一个名字,可以随便取),基于CPU的Linpack测试步骤,d) 编辑Make.gcc_openmpi 修改第64行为ARCH = gcc_openmpi (和Make.icc_openmpi保持一致) 修改第70行为TOPdir = /public/sourcecode/hpl-2.0 (此

11、处目录为hpl-2.0所在的目录,根据具体情况修改) 修改第84行为MPdir = (或者注释此行) 修改第85行为MPinc = (或者注释此行) 修改第86行为MPlib = (或者注释此行) 修改第95行为LAdir = (或者注释此行) 如果blas选用MKL库,可以参考http:/ = -Wl,-start-group $(MKLROOT)/lib/intel64/libmkl_intel_lp64.a $(MKLROOT)/lib/intel64/libmkl_sequential.a $(MKLROOT)/lib/intel64/libmkl_core.a -Wl,-end-gr

12、oup -lpthread 如果选用gotoblas库 修改第97行为LAlib = /public/software/mathlib/goto2/libgoto2.a 修改第169行为CC = mpicc(如果选用intelmpi,此处需要更改为mpiicc),基于CPU的Linpack测试步骤,intel编译器修改第171行为CCFLAGS = -O3 -xHost -ip -funroll-loops gnu 编译器修改第171行为CCFLAGS = -pipe -O3 -fomit-frame-pointer -march=native -funroll-loops -ffast-ma

13、th pgi编译器修改第171行为CCFLAGS = -Bstatic -V -fastsse -Munroll=n:4 -Mipa=fast,inline 修改第174行为LINKER = mpicc,intelmpi修改为mpiicc e) 载入环境变量,确认自己使用的编译器环境以及MPI source /public/software/mpi/openmpi-1.4.3-gnu.sh f) make arch=gcc_openmpi g) cd bin/gcc_openmpi 此目录中的xhpl为编译成功的可执行程序,HPL.dat为数据文件,基于CPU的Linpack测试步骤,修改HP

14、L.dat,一般需要修改3处 1.问题规模的组数及大小,一般为1组: 1 # of problems sizes (N) 40000 Ns 占用内存=N*N*8字节,一般占用所有测试节点物理内存总和的75%左右性能较优 比如N=40000,占用物理内存=40000*40000*8 Byte=12800000000 Byte=11.92GB 2.NB值,即矩阵分块大小,这个是经验值,一般设置为128、192、232 2 # of NBs 128 192 NBs 这里表示运行2组,NB值分别为128和192,运行linpack,3、P和Q的设置(进程数目的设置),P和Q设置一般为1组 1 # of

15、 process grids (P x Q) 4 Ps 4 Qs 要求: PQ进程数 P=Q,P和Q尽量接近性能较好,如12进程,P=3/Q=4,若36进程,P=Q=6,运行linpack,HPL.dat 中其它值得修改 1 # of panel fact 0 1 2 PFACTs (0=left, 1=Crout, 2=Right) 1 # of recursive stopping criterium 4 2 8 NBMINs (= 1) 1 # of panels in recursion 2 NDIVs 1 # of recursive panel fact. 0 1 RFACTs (0=left, 1=Crout, 2=Right) 这些值对最终的结果影响较小,但是也有少量的影响,但是这些结果对测试的时间(数据组)有较大的影响。,运行linpack,载入环境变量,确认你要用的mpi source /public/software/mpi/openmpi1.4.3-gnu.sh 考虑到可能测试时间比较长,使用nohup

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号