CAE架构方案建议书

上传人:豆浆 文档编号:30271596 上传时间:2018-01-28 格式:DOC 页数:16 大小:1.20MB
返回 下载 相关 举报
CAE架构方案建议书_第1页
第1页 / 共16页
CAE架构方案建议书_第2页
第2页 / 共16页
CAE架构方案建议书_第3页
第3页 / 共16页
CAE架构方案建议书_第4页
第4页 / 共16页
CAE架构方案建议书_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《CAE架构方案建议书》由会员分享,可在线阅读,更多相关《CAE架构方案建议书(16页珍藏版)》请在金锄头文库上搜索。

1、1MCAE 高性能计算解决方案说明 v22009 年 11 月 15 日21、CAE 应用软件的特点分析1.1 三款 CAE 软件对硬件架构特点分析1.2 三款 CAE 软件计算过程分析1.3 三款 CAE 软件计算结果分析及理想的对应平台1.4 三款 CAE 软件对存储的分析2、CAE 硬件平台的选择2.1 刀片式服务器架构2.1.1 系统拓扑结构设计2.1.2 设备配置2.1.3 扩展性分析2.2 机架式服务器架构2.2.1 系统拓扑结构设计2.2.2 设备配置2.2.3 扩展性分析2.3 I/O 节点的作用及必要性分析2.3.1 I/O 节点的作用分析2.3.2 I/O 节点的必要性分析

2、2.3.3 三款 CAE 软件对并行文件系统的需求3、架构方案比较3.1 刀片和机架优缺点分析3.2 成本分析和投资保护3.2.1 成本分析3.2.2 投资保护3.3 CAE 软件 license 收费要求3.3.1 ABAQUS license 收费政策3.3.2 Radioss license 收费政策3.3.3 Nastran license 收费政策4、给项目组的建议3架构思路:应用决定系统类型,系统决定应用性能。同时满足扩展性和通用性,满足 CAE架构演变,节约采购成本,保护投资。1、 CAE 软件应用特点分析MCAE 分析主要包括前处理、计算分析和后处理这 3 个过程。前处理主要是

3、建立问题的几何模型、进行网格划分、建立用于计算分析的数值模型、确定模型的边界条件和初始条件等(换句话说将非线性的力学方程离散为计算机可以识别的代数方程) 。这一个过程需要较好的显示能力,并且要求具有一定的内存空间能够容纳大量的网格信息,通常在工作站上进行;计算分析是对所建立的数值模型进行求解,经常需要求解大型的线性方程组,这个过程是 MCAE 分析中计算量最大、对硬件性能要求最高的部分。这一过程需要大量的 CPU、内存资源以及存储空间,通常利用作业调度系统提交到高性能计算机上执行,结构数据存放在大容量磁盘整列中;后处理则是以图形化的方式对所得的计算结果进行检查和处理,这一过程同样对显示能力要求

4、较高,通常在工作站上进行。CAE 项目一期,我们将上三款 CAE 软件 ABAQUS、Radioss、Nastran1.1 三款 CAE 软件对硬件架构特点分析1.1.1 隐式有限元分析(包括静态/动态):处理器扩展能力有限,最多 10 路(10颗) ,应用偶合度很强,合适在 SMP 或者 CC-MUMA 结构的服务器上运行。代表软件:ABAQUS、ANSYS、MSC.NASTRAN 等。1.1.2 显示有限元分析:应用偶合度一般,多节点并行计算能力较强,合适在DMP 结构/集群系统(Cluster)代表软件:LS-DYDA、PAM-CRASH、RADIOSS 等1.1.3 计算流体力学:合适

5、在 DMP 结构/集群系统(Cluster)代表软件:FLUENT、STAR-CD、POWERFLOW、CFX、OVERFLOW 等。1.2 三款 CAE 软件计算过程分析:备注:下文中即可是“刀片服务器”也可是“机架服务器”1.2.1 MSC Nastran随机选择集群中的某块刀片服务器(主刀片)放入经工作站前处理后的模型文件,模型文件读入到主刀片内存,形成总体刚度强度矩阵方程进行矩阵分块(2*2-4*2)后通过作业调度工具将分块后的矩阵分配给集群计算资源(集群中的刀片)计算,各块刀片独立计算,往自己刀片硬盘(存储盘 LUN)上写临时文件后形成各自刀片的中间文件,再将各自生成的中间文件返给主

6、刀片进行结果文件4合并,形成最终的求解结果文件。1.2.2 Abaqus隐式:随机选择集群中的某块刀片服务器(主刀片)放入经工作站前处理后的模型文件,模型文件读入到主刀片内存,形成矩阵分块后通过作业调度工具将分块后的矩阵分配给集群计算资源(集群中的刀片)计算,各块刀片独立分步计算的同时存在着及少量的刀片间内存交换,各块刀片往自己刀片硬盘(存储盘 LUN)上写临时文件,当每块刀片每算完一步后将中间文件汇总到主刀片进行结果文件叠加,最终形成结果文件。显式:过程与隐式大致相同,模型文件读入此主刀片内存后形成单元集(domain) ,在边界上和其它节点内存交换。数据交换和存储量不大,结果文件叠加。对

7、I/O要求低,CPU 要求高。1.2.3 Radioss随机选择集群中的某块刀片服务器(主刀片)放入经工作站前处理后的模型文件,模型文件读入到主刀片内存,进行求解文件域分块后拆分成多个求解文件,通过作业调度工具将多个求解文件分配给集群计算资源(集群中的刀片)计算,集群中的刀片需有共享存储区间,各块刀片并行计算往共享存储区间(NFS 提供的 volume)写结果文件(按提交的命令要求,如 5 秒出一次结果A001,A002。 。 。 。 ) 。1.3 三款 CAE 软件计算结果分析及理想的对应平台:Abaqus 软件从基准测试来看,显式分析:CPU 数量越多或主频越高,计算效果越好。但实际模型测

8、试来看,显式(车门冲击计算17.58 小时 32c/64g) ,证明实际模型需要优化的同时,我们可以尝试在 DMP 结构/集群系统(Cluster)下看看结果。隐式分析:单节点无须强调高配置,CPU 4core/MEM 8G。但实际模型测试来看,隐式(机罩风力计算1.27 小时 32c/64g) ,可见一台 sun firex4600M2 完全满足需求。Radioss 软件显示计算,在 X86 的 SMP 架构下不适合,实际模型测试时调用了MPI,是在集群环境下消息传递。建议采用刀片集群或 pcserver 集群环境,每个节点的 CPU 最佳配置为 8core,不要超过 16core。考虑到

9、infiniband 未做测试,CAE 项目一期计算规模较小,建议通过 1G 以太网集群,需作业调度软件支持。Nastran 软件分模态分析和扫频分析,扫频分析的基准测试模型在计算过程中产生的中间数据要比模态分析的基准测试模型多得多,扫频分析 I/O 要求高,基准测试结果扫频分析每节点的最佳配置在 4core,而模态分析的最佳配置是 8core。而且要充分重视各节点自身 I/O 子系统的设计。根据实际模型测试结果,在工况拆分的基础上,5可以用 8core,SMP 架构进行运算。 (推荐尝试在 DMP 结构/集群系统(Cluster)下,进一步测试该应用的最佳模式) 。软件名称 系统架构 Cpu

10、 数量/节点数量 I/0 要求ABAQUS 显式 刀片或机架集群 待定 中ABAQUS 隐式 机架 16-32core/1 台 高Radioss spmd 刀片或机架集群 8-16core/4 块(台) 高NASTRAN 扫频分析 刀片或机架集群 4-8core/4 块(台) 高NASTRAN 模态分析 机架 8core/1 台 中1.4 三款 CAE 软件对存储的分析存储一般都具备2个评价指标:IOPS和带宽(throughput) ,两个指标互相独立又相互关联。IOPS(I/Os per second):即每秒输入输出次数。指的是系统在单位时间内能处理的最大的I/O频度。一般,OLTP应用

11、(数据库应用)涉及更多的频繁读写,更多的考虑IOPS。IOPs基本由阵列控制器完全决定;throughput:指的是单位时间内最大的I/O流量,一些大量的顺序文件连续读写访问,例如流媒体,CAE等,关键指标为throughput。throughput决定于整个阵列系统,与所配置的磁盘个数有一定关系。分析整个高性能计算应用的存储模式,主要分为两种:计算前后的原数据和结构数据的读写,这部分数据对应用程序的运行性能没有太大的影响,仅仅影响原始数据的 LOAD 时间和结构数据的存入时间。计算过程的中间数据,这些数据在计算结束之后就会被丢弃,但是在计算过程中,访问速度会影响到应用程序的运行性能,设计不合

12、理的中间数据存储方案会导致 CPU处于等待状态,无法充分利用。针对以上两种类型的存取模式,反应在 SMP 体系架构和 DMP 体系架构,又有不同的实现方式:对于 SMP 体系架构,可以通过直接连接高速的磁盘来解决中间数据的存取,通过连接 SAN 共享的、性价比较好的 FC/SAS 磁盘柜,提供最终数据档案的存放。对于 DMP 体系架构的群集系统,可以通过在每个节点上配置 SAN 架构磁盘空间解决中间数据的存取,通过 NFS 网络共享文件系统来为群集所有节点提供原始数据与最终数据的读取与存放。62、 CAE 硬件平台选择2.1 刀片式服务器架构2.1.1 系统拓扑结构设计此拓扑结构设计包含 I/

13、O 节点DPCA 刀片集群架构拓扑图7方案说明:DPCA 扑结构设计去掉 I/O 节点(分析过程详见 2.3)1) 架构特点:6 块刀片组成运算集群。2 块刀片用于后期测试。节点间的通信基于 1Gb 的以太网,管理子网和运算子网独立于 NAS 数据子网。数据存储采用 FC-SAN 和 NAS 架构。集群架构负载分担,但未考虑冗余,FC-SAN 存储架构考虑冗余,保证数据的可用性管理子网独立于运算子网。每块刀片受限于 2 路,8core。隐式计算求解性能差,若刀片笼子背板坏的特殊情况下,整个计算集群系统将停机。同时受厂家技术限制,不具开放性,不利于扩展,扩展成本高等。2) 2 块高配刀片服务器(

14、仅内存较大) ,其中一块用于 DMP 运算的主节点,负责RADIOSS 运算和 ABAQUS 显式运算的前后处理,集群的管理和登录节点。一块用于SMP 运算节点,负责 NASTRAN 运算和 ABAQUS 隐式运算处理。3) 4 块低配刀片服务器,DMP 运算的子节点,负责 RADIOSS 和 ABAQUS 显式运算的求解过程。4) 刀片笼子内的 2 台 FCSAN 交换机用于连接各块刀片及存储机头,提供 SAN 服务2 台以太网交换机分别用于连接各块刀片和存储机头,一台用于管理和运算子网,另一台用于 NAS 数据子网提供 NAS 服务。2.1.2 设备配置1) 6 块低配刀片(cpu:2*4

15、core 2.6GHZ,mem:24G,disk:2*300G 10K SAS2.5,2*4GHBA,2*1G 以太网卡) ,2) 2 块高配刀片(cpu:2*4core 2.93GHZ,mem:48G,disk:2*300G 10K SAS2.5,2*4GHBA,2*1G 以太网卡) ,3) 刀片笼子:2 台 FC 交换机,2 台以太网交换机。刀片出口直接连存储机头提供 FC-SAN 和 NAS 服务。4) 网络设备:无独立交换机5) 存储设备:1 台。 (双机头,读写缓存 8GB,300G 15KFC 盘,8T 可用空间,支持 FCSAN 和 NAS)6) 其它:机柜及套件,若干电缆等。2

16、.1.3 扩展性分析8一个刀片笼子,刀片的扩展最多可连接 14 块或 16 块刀片;交换机扩充能力有限,不支持叠加。2.2 机架式服务器架构2.2.1系统拓扑结构设计DPCA 机架集群架构拓扑图方案说明(架构中的服务器可以是 HP、IBM、SUN 等,在此以 SUN 为例):1) 架构特点:1 台 X4600 胖节点与 4 台 X4140 瘦节点组成运算集群,1 台 X4140 作为管理和登陆节点同时作为计算节点的备份。节点间的通信基于 1Gb 的以太网,管理子网和运算子网独立于 NAS 数据子网。数据存储采用 FC-SAN 和 NAS 架构。集群架构负载分担,但未考虑冗余,FC-SAN 存储架构考虑冗余,保证数据的可用性。切合应用,X4600 可提供32core 用于隐式计算,X4140 可提供 12core(2 路*6core)用于显示计算集群,开放标准不受厂家技术限制,利于扩展,扩展成本低等。可转移给开放平台系统使用,有利于投资保护,有利于 CAE 架构演变。(2.2.3 有详细分析)2) X

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号