统一资源管理的超级计算机系统节能方案

上传人:wt****50 文档编号:34954253 上传时间:2018-03-05 格式:DOC 页数:13 大小:45KB
返回 下载 相关 举报
统一资源管理的超级计算机系统节能方案_第1页
第1页 / 共13页
统一资源管理的超级计算机系统节能方案_第2页
第2页 / 共13页
统一资源管理的超级计算机系统节能方案_第3页
第3页 / 共13页
统一资源管理的超级计算机系统节能方案_第4页
第4页 / 共13页
统一资源管理的超级计算机系统节能方案_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《统一资源管理的超级计算机系统节能方案》由会员分享,可在线阅读,更多相关《统一资源管理的超级计算机系统节能方案(13页珍藏版)》请在金锄头文库上搜索。

1、 基于统一资源管理的超级计算机系统节能方案 摘 要:从系统级节能角度出发,结合天河一号超级计算机系统硬 件架构特点,通过将计算、通信、冷却、供电等各种系统资源有机 结合在一起,制订统一的资源管理架构,应用最近最少使用(lru)等 多种管理策略对系统资源进行集中管理,有效降低系统能耗。关键词:超级计算机;系统级节能;硬件架构;资源管理power saving scheme for supercomputing system based on unified resource managementtian bao hua* , jiang ju ping, li bao feng, zhang x

2、iao ming, qu wan xia(school of computer, national university of defense technology, changsha hunan 410073, china) abstract:this paper presented a sophisticated power saving scheme based on system level resource management for th 1a supercomputer system. the scheme introduced a uniform framework for

3、centralized management of various power consuming resources, i.e. computing elements, communication components, power supply and cooling devices. and many efficient management policies such as lru etc. were applied within the framework.key words:supercomputer; system level power saving; hardware fra

4、mework; resource management0 引言 面向科学计算的超级计算机性能已经跨越百万亿次向千万亿次 发展。随着超级计算机系统性能规模的不断扩大,整个系统能耗随 之呈指数趋势飞速增长。在2011年6月top500排名中,有29台 超级计算机系统的能耗超过 1 000 kw, 性能排名第一的“京” 能耗更是达到了惊人的 9 898.56 kw 1 。 据统计, 2009年,我国数据中心总耗电量约 3.6410 10 kw, 占 当年全国总电耗的1。未来几年,我国数据中心仍将快速发展,如 果维持当前的低能效水平,到2015年,仅全国的数据中心就将消耗 掉三峡电站1年的发电量 2

5、。巨大的功耗导致惊人的运行 开销,同时还带来严重的环境污染,据美国环保署统计,2006年美国 数据中心造成的环境破坏相当于800万辆汽车的尾气排放 3。因此,降低系统能耗、对系统进行节能设计已经成为超级计算 机系统研制需要重点解决的问题。 目前国内对超级计算机系统的节能设计已进行了相应的研究4-9 ,从芯片级的处理器功耗优化设计,到系统软件级的功 耗管理,都有效降低了整个系统的能耗。如文献5利用作业排队 调度系统调控机群,并采用脚本控制的方法实现计算节点的开关机,达 到计算任务和节能的动态平衡;文献7基于广泛应用的启发式算 法min min提出了一种考虑节能的新调度算法,在性能和能耗间 获得很

6、好的平衡;文献8通过对空闲节点的关机或休眠,设计并实 现了基于资源调度的集群节能系统,能够有效地降低集群系统空闲 时的能耗;文献9在分析高性能计算系统的负载及能耗特征的基 础上提出一种通过控制节点的分配和功耗状态来降低系统功耗的 管理算法。 虽然上述方法都是从系统级节能的角度出发进行设计,通过调节 处于活动状态的服务器节点数量,关闭系统中部分空闲节点,来达 到降耗节能的目的,这在集群系统中也是最有效的降低能耗的方法,但 是针对超级计算机系统来说,这种方法就具有一定的局限性。超级 计算机特别是千万亿次超级计算机系统,规模庞大,节能设计是一 个综合的系统工程,需要从系统整体考虑,在芯片、插件、系统

7、、 架构等不同层次上进行低功耗设计,将计算、通信、冷却、供电等 各种资源有机结合在一起,统一管理,才能形成一个有效的节能计 算机系统。 本文从系统级节能设计层次出发,设计并实现了基于统一资源管 理的超级计算机节能系统。该系统结合天河一号(th 1a)超级 计算机系统基础硬件架构特点以及各个层次的低功耗设计技术,不 仅对计算节点进行功耗的控制和优化,同时对通信、冷却、供电等 其他资源也进行功耗管理,通过制订统一的资源管理架构,以机柜 为最小管理单元,应用多种管理策略对系统资源进行集中管理,有 效地降低了系统能耗。 1 系统设计 不同的超级计算机系统,只有根据自身基础硬件架构特点,采取 相应的节能

8、策略和实现技术,才能最大限度地降低功耗。天河一号 超级计算机系统由上百个机柜组成,每个机柜都有独立的列式冷却 单元和供电模块。系统管理控制器(system management controller, smc)是整个机柜的控制枢纽,负责对机柜内刀片插件、 通信模块、列式冷却单元、供电模块等资源进行统一的管理和控 制,并与系统级管理控制单元(management controller unit, mcu)通 信,上报机柜内各种资源的工作状态,同时接收来自mcu的各种系 统控制命令。系统采用的这种硬件架构设计非常有利于将各种资 源紧密结合在一起,进行模块化控制,为本文设计提供了科学的基 础硬件架构

9、。 1.1 设计思想 系统能耗是指整个系统中各种用能设备消耗的能源总和,不仅包 括计算、通信、存储等主设备的能耗,还包括冷却、供电等辅助系 统的能耗。因此,将计算、通信、存储、冷却、供电等各种资源结 合在一起综合考虑,统一进行功耗管理,才能够最大限度地降低系 统总能耗。根据系统硬件架构特点,本文应用如下的设计思想和策 略: 1)资源管理的对象包括计算、通信、冷却、供电等各种系统资 源。通常意义的资源管理仅仅是针对计算资源的,对于其他的硬件 资源并没有考虑进去。本文从系统级节能设计角度出发,将一切硬 件资源都包括在内,统一管理,这也是与其他基于资源管理进行节 能设计的最大区别。 2)计算资源的分

10、配以机柜为单元进行。根据系统硬件架构特点, 在对计算资源进行分配时,以机柜为最小单元进行分配。如果以节 点为单元分配,则会出现一个机柜内只有部分节点运行,其他节点 空闲的情况。即使机柜内只有一个节点运行,机柜级冷却单元也必 须工作以保证这个节点的冷却需求,这就造成了大量冷却电能的浪 费。因此,以机柜为最小单元分配,能够有效降低冷却系统的耗能 量,提高冷却效率。 3)设置节点补充机柜,作为对以机柜为单元分配资源的一个补充。 每个计算机柜含有64个计算节点,但是任务需求往往并不是64的 整数倍,在以机柜为单元分配资源时,总会缺少或剩余部分计算资 源。为此,在系统中设置以计算节点为分配单元的补充机柜

11、,用于 以机柜为单元分配时计算资源不足的补充。 4)计算机柜设置有切电、休眠、空闲、运行、低功耗运行等5 种状态,如图1所示。切电状态中,除smc外,机柜内所有刀片插件 全部处于切电状态,机柜冷却单元也处于关闭状态,仅仅只有待机 (standby)供电模块给smc供电,保证smc的正常运行,其他的供电 模块也处于关闭状态。机柜处于休眠状态时,不关闭冷却单元,仅 仅调整冷却参数,降低风机转速,同时部分开启供电模块,保证电源 转换效率始终处在最有效的负载点。低功耗运行状态时,cpu以低 压低频运行,互连模块降级通信,冷却单元降低冷却功率,整个机柜 处于最低性能、最低功耗的运行状态。 5)节能状态的

12、转换采用最近最少使用(least recently used, lru)策略,最近最少使用的资源优先由当前状态转换到更节能的状 态。机柜由空闲状态转换到休眠状态,或者由休眠状态转换到切电 状态时,采用lru策略,最近最少使用的机柜优先转换。采用这样 的策略能够有效避免机柜状态短时间内的频繁转换,从而降低了机 柜在状态转换过程中造成的大量能量损耗。 6)资源分配同样采用lru策略,但是与节能状态转换不同,最近 最少使用的资源最后分配。因为最近最少使用的资源优先转换到 了节能状态,因此,将这部分资源最后分配,同样避免了机柜状态短 时间内的频繁转换,从策略上达到节能的目的。 系统资源层包括计算、通信

13、、冷却、供电等各种系统资源。 资源控制层包括资源控制和信息采集两个功能模块,硬件上由 smc实现,是smc的基本功能。资源控制模块接收来自资源管理模 块的各种资源状态管理命令,并根据资源信息采集模块采集到的机 柜资源状态信息,通过带外管理接口和系统接口对所辖资源进行统 一控制。信息采集模块负责采集机柜内各种资源的当前状态信息, 如刀片温度、实时功耗、工作状态、冷却单元状态、供电模块状 态等,并将这些信息发送给管理层的资源维护模块以及本层的资源 控制模块。 资源管理层在硬件上由mcu实现,主要的功能就是对整个系统资 源进行节能状态的管理和实现,包括资源管理和资源维护两个功能 模块。资源管理模块根

14、据系统资源分配以及当前资源状态维护需 求,向资源控制层发送控制命令,并向资源分配模块返回资源分配 结果。资源维护模块对整个系统资源的状态进行记录;根据系统节 能策略和临时措施决定各种状态转换的时间阈值;在相关资源达到 状态转换的时间阈值需要进行状态转换时,通知资源管理模块;资 源状态改变时及时根据当前资源状态更新资源状态记录。 系统决策层由系统管理员、预定的任务运行计划、资源分配、 基于资源管理的系统节能策略、基于电力的临时节能措施等共同 组成。系统管理员是核心,负责任务运行计划的制订、作业优先级 的调整、系统节能策略的设计、基于电力的临时节能措施的执行 等系统决策管理工作。资源分配模块设计有两个功能,一是根据系统管理员制订的任务运行计划以及资源需求量,结合 当前系统资源状态情况,合理分配资源,优化系统能耗;二是提前对 任务所需资源进行预分配,当正在运行的任务将近结束时,提前对 下一个任务

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号