基于云化架构的超算中心设计建设与应用解决方案

上传人:鱼啊 文档编号:477827337 上传时间:2024-05-05 格式:PPTX 页数:70 大小:31.65MB
返回 下载 相关 举报
基于云化架构的超算中心设计建设与应用解决方案_第1页
第1页 / 共70页
基于云化架构的超算中心设计建设与应用解决方案_第2页
第2页 / 共70页
基于云化架构的超算中心设计建设与应用解决方案_第3页
第3页 / 共70页
基于云化架构的超算中心设计建设与应用解决方案_第4页
第4页 / 共70页
基于云化架构的超算中心设计建设与应用解决方案_第5页
第5页 / 共70页
点击查看更多>>
资源描述

《基于云化架构的超算中心设计建设与应用解决方案》由会员分享,可在线阅读,更多相关《基于云化架构的超算中心设计建设与应用解决方案(70页珍藏版)》请在金锄头文库上搜索。

1、云化架构超算中心设计建设与应用方案0 1.项目背景0 2.建设目标0 3.建设重点0 4.实施路径0 5.增值应用项目背景在中华民族伟大复兴征程中第一个百年来临之际,某师范大学将迎来建校70周年。共建云构化超算中心标志着校园发展进入到新的阶段新的里程碑0102深化战略合作协议肩负社会责任,为科研助力用云计算帮助梦想者推动社会进步云厂商肩负科教兴国重任肩负科研创新责任整体数字化转型建设某师范大学项目背景目录0 1.项目背景0 2.建设目标0 3.建设重点0 4.实施路径0 5.增值应用AI PaaS 统一管理混合云千人千面私有云资源拓展公有/教育云教研一体数据中心信息服务HPC PaaS大数据P

2、aaS 私有云+公有云形成的混合云目标建设内容目标能力建设01020304服务能力建设HelpDesk,服务支持。提升响应速度,最终提升全校师生使用便利运维能力建设资源管理,系统监控,告警平台。智能化运维管理平台有效提升运维能力创新能力建设基于云架构,提供更多PaaS类组件,提升师生学习、科研效率运营能力建设从分配率到实际利用率,提升利用率,降低能耗,降低成本目标四大建设重点云化HPC具有海量算力、算成本低廉、安全可靠的特征私有云具有能够灵活扩容、运维简便的能力网络互通高效、稳定、安全的网络条件是建设混合云的关键统一管理平台将所有云端资源及本地资源纳入到统一的管理体系目录0 1.项目背景0 2

3、.建设目标0 3.建设重点0 4.实施路径0 5.增值应用云化HPC1私有云2网络互通3统一管理平台4总体目标四大建设重点云构化HPC11海量算力,无限灵活试想一下即开即得的海量算力(CPU、GPU、异构芯片),HPC工作不必受IT资源供应限制、不必受IT资源管理的约束,即刻开启超高性能,畅快计算计算、存储、网络皆为高性能打造,原本数天的计算,可缩短至数小时完成数据安全,由您掌控数据自动冗余、手动备份、回滚复原、安全访问,您可通过多种手段确保关键核心数据安全可控S超大规模,超低成本云厂商的规模化优势有效的降低成本,您节省的是IT全生命周期的费用,获得的是高效的计算结果HPC新架构GPFSNSD

4、*2GPFSNSD*210G FC交换机*2NetAPP SASCISCO UCS互联矩阵AWS资源池c5.xlargec5.2xlarge本地现有计算池 512核Xeon E5-2630v2 2.6GHzXeon E5-2630v3 2.4GHzXeon E5-2650v3 2.3GHzXeon E5-2650v2 2.6GHz主管理节点云门户节点新增本地计算池 Xeon Platinum 8268 2.9GHz 24C*4路*10节点认证服务器从管理节点S3从管理节点新增本地存储池 BeeGFS 并行文件系统存储1.3PB、带宽20GB/s万兆交换机IB网络FC网络万兆网络在不改变原有架构

5、的基础上,新增的计算和存储节点使用IB交换机的100Gb端口;从管理节点US3从管理节点云厂商资源池EPC-4C8GEPC-8C16GNetAPP SSDBeeGFS并行文件系统Mellanox 100G IB*2高性能裸金属云主机低延迟RDMA 50Gb 网络定制调优的并行文件系统超算集群EPC弹性资源快速服务部署,横向扩展和热迁移运维自动化统一服务接口CPU240 核GPU8xv100 内存网络带宽480GB50Gb网络延迟2.0s最高配置的单一实例本地呈现云上呈现算力平台:云厂商算力运营平台OS:Centos/Ubuntu仿真、模拟工具:ANSYS fluent/LS-DYNA/Loca

6、l Site云厂商云厂商算力编排层App+Flow镜像管理License 监控应用适配Flow 定制自动伸缩队列管理作业监控集群生命周期管理任务管理目标策略多云对接多调度器支持低成本算力作业调度用户管理系统监控账单管理预算控制RESTful-API消息通知资源分配多元化的接口WEBUICLIHPC 计算池配置HPC 并行文件系统架构Clients挂载并行文件系统,实现高性能计算。Metadata Servers维护和管理文件的条带信息及文件存储的具体位置。Storage Servers每个文件被分割成指定块大小,条带化后部署到多个存储服务器上面Management Host负责整个AS1300

7、0G5-H的集群的管理工作。Graphical Administration and Monitoring System提供GUI管理工具实现BuddyGFS的性能检测,部署维护等工作HPC 并行文件系统硬件AS13000G5-H 基于BeeGFS 性能卓绝高性能:单个数据流可达到 9GB/s强聚合:并行文件系统聚合带宽可扩展至TB级 高可用:支持内容镜像,支持1/2的节点宕机数据节点 推荐配置元数据节点 推荐配置磁盘柜方案 集中式架构 高密机型 大容量场景-H36-H12/24+双控阵列G5-H60性价比均衡主做数据节点闪存盘元数据节点支持NVMe/SATA SSD搞空间利用率方便运维部署差

8、异化控标优势集中式架构 scale-up提供多盘的大通量带框分级存储:高速、中速和低速存储HPC 存储池配置类型规格数量数量(台)元数据节点Cache节点AS13000-H12CPUAMD_EPYC_7542_64 Threads_32 Cores_2.9 GHz_Zen2_225W_X8626内存DDR4_32_RDIMM_2933MHz12系统盘480G_SSD_SATA3_N/A_512E_2.5_6Gb/s2数据盘G_SSD_3.84T_U28G_SA_2_PM983_MB8网卡2ports_25Gb/s_Fiber_光口1IB网卡G_HCA_1-EDR_MCX555A-ECAT1并行

9、文件系统浪潮并行文件系统客户端_海量-H_multi_3Y_CNHPC 存储池配置从裸机到云资源,全链路自动运维远程电源控制硬件配置采集硬件日志监控KVM一键登录状态监控支持根据IPMI带外协议、SNMP等硬件协议获取硬件资产的详细信息,并进行远程运维操作(KVM登录、电源控制、日志监控采集等)裸机管理平台 新增计算、存储网络架构在不改变原有架构的基础上,新增的计算和存储节点连接到Mellanox IB交换机的100Gb端口;NetAPP SASNetAPP SSDGPFSNSD*2GPFSNSD*2BeeGFS并行文件系统10G FC交换机 10G FC交换机 Mellanox 100G I

10、B Mellanox 100G IB 新增资源混合云超算:公+私 分配原则 私有云部分:有保密性需求的项目算力需求固定的项目对IO等有特殊需求的项目保持一定数量算力预留公有云部分:弹性,突发性需求算力需求巨大的项目用完即释放“云超算”为数据中心添翼24技术角度云化不只是提供无限扩容的超算资源,更重要的提供了,如大数据平台,科研工具拓展,移动协同等不断迭代的新技术,助力学校数字化转型,帮助数据中心从成本中心转变成服务中心成本角度一些抽象的、虚拟化的、可动态扩展和被管理的计算能力、存储、平台和服务汇聚成资源池,通过按需交付给外部用户运维角度云上资源的运维及安全由云厂商负责,数据都有实时的副本备份,

11、对应安全体系前台无感的实时更新,为学校减轻运维压力云化HPC1私有云2网络互通3统一管理平台4总体目标四大建设重点私有云产品全景产品全景:交付形式:纯软交付:灵活选择纯软交付:灵活选择一体机、一体机柜:开箱即用一体机、一体机柜:开箱即用托管云:订阅式服务托管云:订阅式服务基础架构安全容器存储产品DevOps大数据/SDP裸金属数据库安全屋云管/CMP人工智能/AI云桌面运维工具私有云简介公有云一致架构:复用公有云内核及核心组件,上层产品形态根据私有云场景重新设计全自研架构:非开源架构,信创全生态适配,自主可控灵活可扩展:单数据中心支持3-2000节点规模,可同时纳管多个数据中心多种产品套餐:标

12、准X86、信创版、快杰版三个版本,满足通用、国产化、高性能场景。全栈云平台:提供IaaS、PaaS、SaaS全栈服务的云架构自主可控自主可控丨复用公有云核心分布式数据库apiserver(无状态,三节点)调度器(有状态,多节点)管理节点重新调度Agent监控心跳监测计算节点平台高可用架构 整体高可用架构逻辑上分管理和计算节点,通信网络采用双网卡绑定,保证物理链路上高可用,底层存储采用RAID1保障高可用。管理节点高可用apiserver无状态部分采用三节点高可用架构调度器有状态部分,采用多节点部署,利用选举机制确保高可用;底层采用分布式数据库计算节点高可用主动周期性监测物理节点进行心跳检查,发

13、现物理机宕机则触发虚拟机自动迁移服务。高可靠|平台整体高可用架构10GE外网核心外网核心LACP40GE外网接入外网接入40GE内网核心内网核心LACP40GE内网接入内网接入10GE物理网络接入计算存储超融合节点独立存储节点VMware&物理机节点40 GE10 GEGE高可靠|全冗余网络架构机柜1机柜2机柜3Distributed Storage ServiceABCABCBlockClientObjectClientFileClientComputeDISKDISKDISKDISKDISKDISKComputeBlock StorageObject StorageFile Storage

14、多副本数据保护 高性能磁盘 IO高可靠存储架构无限水平扩展高安全数据保护多类型存储接口Unified Distributed Storage ServiceBCACABClientPrimaryReplicaChunkChunkChunkReplica高可靠|分布式存储在物理网络上构建虚拟分布式网络,通过先进的隧道封装技术,屏蔽底层硬件的复杂性,虚拟机可实现集群内跨设备迁移 纯软件定义网络用户二层网络隔离南北向物理网络透传分布式高可用SDN控制器架构纯软件实现,不绑定特殊硬件VM3Compute Node2VM4vNICvNICVxLan TunnelNICSwitchVTEP0SwitchV

15、lanOpen vSwitchFlow tableVM3Compute Node2VM4vNICvNICNICVTEP0Open vSwitchFlow tableNIC1高可靠丨分布式网络VM 1Compute Node1负载正常Compute Node2故障节点Compute Node3负载正常分布式存储资源池VM2VM4VM5VM4VM4VM4VM 3VM 3VM3VM3同一业务打散部署VM6VM6在线迁移手动操作 智能调度系统虚拟机资源调度管理的核心,用于决策虚拟机运行位置,管理虚拟机状态及迁移计划,保证虚拟机可用性和可靠性系统实时监测所有节点负载信息,作为调度和管理的数据依据反亲和部

16、署策略,确保同一业务虚拟机打散部署至所有节点物理节点故障时,系统自动迁移虚拟资源到健康服务器节点计划内迁移零宕机宕机快速自动迁移在线迁移宕机迁移(分钟内)物理节点故障无害反亲和部署提高平台及业务的可用性和可靠性高可靠|虚拟机高可用快照3快照2快照1高可靠|快照35 快照定时自动快照与手工快照结合,满足多种场景需要无需暂停业务或停止磁盘读写,不影响线上业务按策略自动删除快照,节省空间容灾备份数据快速恢复开发测试云硬盘ABCDA1BCD1A1BCD2 多数据中心管理统一纳管多个数据中心,实现对企业多套云资产环境的统一管理、运营和运维配合DNS和LB服务,构建业务高可用部署架构。基于多数据中心,实现业务级别的云资源冗余架构,满足对RTO要求高的核心业务灾备需求构建数据中心级别灾备构建中心-边缘同构的业务底座平 台 高 可 用数 据 中 心 灾 备业 务 高 可 用中 心-边 缘 业 务 平 台数据中心地图高可靠|多数据中心VMVirtIO内核CPU队列CPU队列CPU队列网卡VMVF DriverVFCPU队列CPU队列CPU队列智能网卡内核网络增强1.0100w PPS1000w PPS网

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号