高性能计算优化技术_it168文库

上传人:wt****50 文档编号:45791941 上传时间:2018-06-19 格式:PDF 页数:106 大小:4.37MB
返回 下载 相关 举报
高性能计算优化技术_it168文库_第1页
第1页 / 共106页
高性能计算优化技术_it168文库_第2页
第2页 / 共106页
高性能计算优化技术_it168文库_第3页
第3页 / 共106页
高性能计算优化技术_it168文库_第4页
第4页 / 共106页
高性能计算优化技术_it168文库_第5页
第5页 / 共106页
点击查看更多>>
资源描述

《高性能计算优化技术_it168文库》由会员分享,可在线阅读,更多相关《高性能计算优化技术_it168文库(106页珍藏版)》请在金锄头文库上搜索。

1、高性能计算优化技术曙光信息产业股份有限公司目录1、高性能集群优化概述 2、硬件级优化 3、编译级优化 3.1编译器及编译选项的优化 3.2数学库优化 3.3MPI选择优化 4、运行级优化 4.1操作系统优化 4.2共享内存通信优化 4.3进程绑定优化 4.4 消息传递机制优化高性能计算优化概述高性能计算架构变化高性能计算网络发展高性能计算操作系统份额千兆交换机千兆交换机局域网局域网InternetInternet路由器路由器防火墙防火墙远程控制远程控制内网内网外网外网以太网以太网 交换机交换机控制台控制台本地本地KVMKVM以太网光纤网Infiniband网KVM管理网登陆登陆/管理节点管理节

2、点机房环境机房环境并行存储系统并行存储系统高速高速InifinibandInifiniband交换机交换机刀片集群刀片集群GPGPUGPGPU节点节点计 算 系 统计 算 系 统存 储 系 统存 储 系 统SMPSMP胖节点胖节点算例上传算例上传 作业提交作业提交本地建模本地建模本地建模本地建模1011000110101001000100 100100100110001101010010 0010010011000110101001000 1001001100011010100100010 0100001001001100011010100 0010010011000110101000010

3、0100110001101010000100100 110001101010作业运行作业运行数据访问与存储数据访问与存储系统管理与用户管理系统管理与用户管理高性能计算作业的工作流程系统软件层系统软件层基础设施层基础设施层ITIT核心硬件层核心硬件层存储系统计算系统网络系统操作系统作业调度软件、 管理系统并行环境 编译器、数学库、MPI网络网络PC机笔记本平板电 脑瘦客户 端工作站应用软件层应用软件层生命科学CAE仿真功能节点空调系统物理化学气象海洋配电系统防雷系统机房装修机柜及KVM石油勘探动漫渲染高性能计算机系统架构高性能计算机系统架构高性能计算机中的关键技术高性能集群三要素无密码访问配通统

4、一的系统印象统一的文件印象对于普通用户来说,所有节点看到的某一个文件都是相同的文件。通过nfs或者并行文件系统实现。通过NIS或同步用户信息来实现。网络全通 rsh或ssh无密码访问配通串行程序串行程序大多数用户的自编大多数用户的自编 程序,但是由于无法程序,但是由于无法 并行,无法利用多核并行,无法利用多核 多节点的优势,所以多节点的优势,所以 无法实现海量计算。无法实现海量计算。多线程程序多线程程序可以实现单节点内可以实现单节点内 的并行,支持的并行,支持 openmp,编程较为,编程较为 简单,核心数太多效简单,核心数太多效 率降低,同时无法实率降低,同时无法实 现多节点大规模并行现多节

5、点大规模并行消息传递并行程序消息传递并行程序MPI并行程序(目前并行程序(目前 主流的高性能应用普主流的高性能应用普 遍采用的并行方式,遍采用的并行方式, 效率高,性能好)效率高,性能好)PVM并行程序并行程序任务级并行程序任务级并行程序高性能应用软件的编程模型开源及有源代码 的商业软件 几乎所有的开源软件及几乎所有的开源软件及 少量的商业应用(如少量的商业应用(如 vasp等)等) 调优的手段非常丰富调优的手段非常丰富 硬件级优化、运行级优硬件级优化、运行级优 化化 编译级优化编译级优化 代码级优化代码级优化只提供可执行程 序的商业应用 大部分的成熟商业应用大部分的成熟商业应用 调优的手段比

6、较有限调优的手段比较有限 硬件级优化、运行级优硬件级优化、运行级优 化化高性能应用软件状态硬件级优化 效果明显 成本比较 高编译级优化 效果明显 成本不高 使用范围 受限运行级优化 在某些情 况下有一 定效果 成本不高代码级优化 效果明显 难度非常 大 成本较高优化手段的对比硬件级优化CAE (CFD)石油勘探石油勘探气象环境气象环境 海洋海洋图像渲染图像渲染物质的物理化物质的物理化 学材料属性的学材料属性的 科研工作中科研工作中基因科学、蛋基因科学、蛋 白质科学的研白质科学的研 究以及新药的究以及新药的 研发研发地震资料处理,地震资料处理, 用于油气勘探用于油气勘探气象环境海洋气象环境海洋

7、的数值预报的数值预报动画、电影、图像的高动画、电影、图像的高 逼真效果制作逼真效果制作物理化学物理化学 材料材料生命科学生命科学六大应六大应 用领域用领域高性能计算在国内的六大应用领域计算机辅助工程,广计算机辅助工程,广 泛应用于工业生产中泛应用于工业生产中其它:卫星图像处理、金融计算等其它:卫星图像处理、金融计算等物理化学材料: 计算物理材料:vasp,cpmd,Material Studio。 计算化学:gaussian、gamess,ADF。 CAE领域: 结构计算:ansys、abaques,nastran 流体计算:fluent,CFX 电磁仿真:Fecko 生命科学: 生物信息学:

8、MPIBLAST,BWA等 分子劢力学:Namd,gromacs,lammps。 药物设计:dock,autodock,DiscoveryStudio。主流高性能应用介绍 气象海洋环境科学 气象预报:WRF,MM5,Graphes 海洋科学:roms 石油勘探 Omega,cgg等 劢漫渲染 3dmax,Maya等主流高性能应用介绍高性能应用典型特征应用类别应用类别 典型应用典型应用CPUCPU内存容量内存容量 内存带宽内存带宽存储存储网络网络扩展性扩展性计算化学计算化学gaussiagaussia n、ADFn、ADF5 55 54 45 54 43 3 计算物理计算物理 材料科学材料科学v

9、asp,vasp, cpmdcpmd5 52 25 52 25 54 4药物设计药物设计dock,audock,au todocktodock5 52 22 22 22 25 5生物信息生物信息MPIBLASMPIBLAS T、BWAT、BWA5 54 44 45 52 25 5 分子动力分子动力 学学namd,namd, gromacsgromacs5 52 22 22 25 55 5环境科学环境科学WRF,WRF, GrapesGrapes5 53 33 33 35 55 5流体力学流体力学FluentFluent 、CFX、CFX5 54 44 42 25 55 5结构力学结构力学Ans

10、ys,Ansys, AbaquesAbaques5 54 44 45 53 32 2电磁仿真电磁仿真Fecko、Fecko、 ComsolComsol5 55 54 44 45 53 3 地震资料地震资料 处理处理omega,omega, cggcgg5 54 44 45 52 25 5 第一步:确定应用的典型特征,找出除CPU需求外其它的需求。 第二步:升级需求最为迫切的硬件资源。 第三步:了解应用的扩展性。 第四步:扩展性好的应用,可以考虑购买更多的计算节点,扩展性差的应用,考虑升级单个核心和单个节点的计算能力。如何实现硬件级优化 有序安装内存条 配置三通道、四通道内存 性能相比双通道提升

11、50%计计算设算设备备内存配置内存配置 设置系统南桥的SATA硬盘控制器的工作方式 修改为AHCI模式(Advanced Host Controller Interface,高级 主机控制器界面) AHCI提供基亍系统内存的通信方式(类似亍DMA)BIOS设置设置硬盘控硬盘控制器制器 开启以下选项 C1E(C1 Enhanced Halt Stat)Support 通过调节倍频来逐级的降低处理器的主频,同时还可以降低处 理器电压 EISTEnhanced Intel SpeedStep Technology 需要确认操作系统支持EIST技术,例如Windows2008、 Suse11戒给系统升

12、级内核 Turbo mode 最新Intel/AMD平台可以实现CPU的自劢超频BIOS设置设置CPU配置配置 开启以下选项 Hardware Prefetcher/Adjacent Cache Line Prefetch 当硬件检测到一个streaming的数据戒指令读叏,并丏有last level cache miss収生时,这种prefetch就被启劢 按序读叏内存内容到cache,直到遇到page boundary 当Fetches 数据的时候,相邻的两个64-byte cache lines被 同时叏,而丌管是否真的需要后一个cache line的内容 Nehalem-Ep以后平台开

13、启硬件预叏有利亍提高性能 Intel Virtualization Tech Execute-Disable Bit Capability Intel HT Technology 信息服务类应用需要打开BIOS设置设置CPU配配置置 CSI(Common System Interface,通用系统接口) Links Speed: Full-Speed Frequency: 6.4GT Power Optimization: Adaptive Memory Mode Independent(独立) Channel Mirroring(镜像)内存阵列(相当亍RAID 1) LockStep(锁步)

14、将多个通道当作是一个通道迚行控制 风扇转速 将风扇转速跳到最大,保证系统有效散热,提高性能 Intel I/OAT(I/ O Acceleration Technology) IOAT技术可有效提升I/O数据传输效能,最高可节省50%CPU占 用率。BIOS设置设置芯片组设置芯片组设置 I/O负载应尽可能分布到各个硬盘上去 每个硬盘尽量少分区 对于与典型的文件不同的有特点的文件集合(如大小、数 量),应创建一个针对其优化的文件系统 hdparm hdparm -d 1 /dev/hdb hdparm -W 1 /dev/hdb hdparm -T -t /dev/hdb nmon htop s

15、vn co https:/ htop Using Asynchronous I/O Raw Disk I/O ext2、ext3、JFS、XFS、ReiserFSIO设备设备文件系统文件系统 NFS+RDMA DDR网络 14节点 并収测试读写带宽IO设备设备网络文网络文件系件系统统NFS echo “1024 65000“ /proc/sys/net/ipv4/ip_local_port_range echo “100 1200 128 512 15 5000 500 1884 2“/proc/sys/vm/bdflush echo “1“ /proc/sys/net/ipv4/icmp_echo_ignore_broadcasts echo “1“ /proc/sys/net/ipv4/icmp_ignore_bogus_error_responses echo “1048576“ /proc/sys/net/ipv4/netfilter/ip_conntrack_max echo “1“ /proc/sys/net/ipv4/ip_forward echo “268435456“ /proc/sys/kernel/shmall echo “536870912“ /proc/sys/ke

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号