基于自主计算的集群管理软件的设计与实现

上传人:E**** 文档编号:114482816 上传时间:2019-11-11 格式:PDF 页数:7 大小:343.19KB
返回 下载 相关 举报
基于自主计算的集群管理软件的设计与实现_第1页
第1页 / 共7页
基于自主计算的集群管理软件的设计与实现_第2页
第2页 / 共7页
基于自主计算的集群管理软件的设计与实现_第3页
第3页 / 共7页
基于自主计算的集群管理软件的设计与实现_第4页
第4页 / 共7页
基于自主计算的集群管理软件的设计与实现_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《基于自主计算的集群管理软件的设计与实现》由会员分享,可在线阅读,更多相关《基于自主计算的集群管理软件的设计与实现(7页珍藏版)》请在金锄头文库上搜索。

1、中国高等教育学会教育信息化分会第几次学术年会论文集 3 3 2 基于自主计算的集群管理软件的设计与实现 李云春1 ,张德生2 ,李强1 ( 1 北京航空航天大学,计算机学院,网络技术北京市重点实验室;2 北京航空航火大学,网络信息与汁算中心,北 京,1 0 0 0 8 3 ) 摘要:服务器集群已经成为普遍使用的高性能计算环境,随着集群节点数量和应用规模增大,对于集群计算环境和应 用系统的管理变得越来越复杂,I B M 提出的自主计算思想为集群的系统管理提供J ,一条行之有效的途径。论文分析了 集群管理领域的研究现状以及自主计算的相关概念和技术,在分析集群计算环境管理需求的基础上,给出了一种以

2、J M X 管理标准为基础的基于规则的自丰管理体系结构,并设计了节点代理服务模块和管理服务器的功能结构。论文提 出了一种基于自主计算技术的集群节点监控管理服务机制,给出了基于规则语言的管理决策引擎的实现方法,最后, 论文通过在浪潮天梭T S l 0 0 0 0 集群服务器的自主T o m c a t 集群的自恢复控制实例,验证了该软件的可用性和有效性, 并对下一步的研究方向进行了探讨。 关键字:集群管理:自丰计算;J M X 1 引言6 随着基于计算机网络的分布式计算技术的发展,计算成为科学研究的新手段,各研究领域对于计 算能力需求的不断增加,集群计算以其高性能价格比和高可靠性己经成为普遍使用

3、的高性能计算环 境。中国软件行业协会数学软件分会和国家8 6 3 高性能计算机评测中心联合公开发布的2 0 0 5 和2 0 0 6 年中国高性能计算机性能T O P 排行榜【l 】统计数据表明,集群占据了我国高性能产品和应用的9 0 份 额。一般来说,根据集群的用途和不同特征,集群可以分为两种类型:高可用集群和高性能集群。高 可用集群主要用于商业计算,提供高度可靠的商业服务;高性能集群则主要用于科学计算,提供高性 能计算能力。集群的优势在于使用没有单点故障的体系结构来达到系统的高可用性和高可伸缩性,并 且使用通用标准的计算机。然而,随着集群节点数量的增加和规模不断扩大,集群计算环境的管理和

4、维护变得越来越复杂。 国外一些研究机构设计和开发了多种集群监控系统。其中比较典型的包括G a n g l i a 、S u p e r M o n 、 H a w k e y e 、D C M M 等。G a n g l i a t 4 1 1 2 1 是加州大学伯克利分校开发的面向高性能计算的可扩展的分布式 监测软件项目,它采用多播侦听和通知协议监测集群节点的状态,并在集群之间采用点到点的树状连 接来汇聚所有节点的状态信息,这种树状分层结构使得它可以方便扩展到多个服务器集群。G a n g l i a 最大的优点就是实现了树形结构中的叶子节点的冗余,每个叶子节点可以动态更新接收的其它节点状

5、态信息,并在某节点失效时因为超时而导致此节点失效,通过这种方式可以动态增加和删除节点。但 是G a n g l i a 存在明显的缺陷,他没有解决非叶子节点的容错,当部署有汇聚进程的汇集节点或与之相 连的链路失效后,那么该区域内节点的监控信息将不能被采集到。S u p e r M o n l 5 1 是美国加州大学L o s A l a m o s 国家实验室开发的基于L i n u x 集群的分布式监控系统。S u p e r M o n 的核心同样由三个部分组成: L i n u x 内核信息监测采集模块、节点数据服务模块以及监控信息汇集中心。其采用C S 的分层结构, 但是和G a n

6、g l i a 不同的是,s u p e r m o n 模块必须知道所有节点的连接信息,而且可以按需采集每个节点 的监测数据。S u p e r M o n 最大的优点是采用内核信息采集模块,可以快速有效地采集数据,并且采用 S e x p r e s s i o n s 格式传输数据,可以很方便地在异构环境中操作:缺点是不能动态添加新的节点,并且 S - e x p r e s s i o n s 格式不像X M L 是一个标准的标记语言。H a w k e y e T M 是一个简单轻量级的分布式集群监测 和管理软件项目,它基于W i s c o n s i n M a d i s o

7、n 大学的C o n d o r 项目,H a w k e y e 可以适用多平台的集群系 统,并且可以定制资源监测模块,但是客户端工具还不太完善。其它还有一些项目如美国K a n s a s 州 6 t t I 一五”8 6 3i l 划信息技术领域重大项目:高效能计算机系统研制及关键技术研究2 0 0 7 A A 0 1 A 1 2 7 中国高等教育学会教育信息化分会第九次学术年会论文集3 3 3 立大学的D i s t o p l 7 1 、T e n n e s s e e 州立大学的P e f f M i n e r t 引、N C S A 的C l u m o n l 9 1 等。

8、上述各个项目中的研 究较集中于系统中集群节点的资源监测部分,仅仅是对某些系统性能指标的参数显示,而没有研究更 进一步的统计分析和管理控制功能,尤其是缺乏自主管理能力,随着百万亿次计算机集群的出现,系 统中的组件成倍增加,在集群管理中应用自主计算技术提供了新的途径。 2A C M S 框架结构 2 1A C M S 组织模型 A C M S 软件采用多级分层式组织模型,将集群系统划分为多个组,每个组的监控信息先汇聚到中 间汇集节点上,管理服务器只需要同少量的中间汇集节点通信就可以采集到所有节点的监控信息。如 图l 所示,A C M S 在集群节点中引入中间汇集节点,收集域( D o m a i

9、n ) 内节点的资源监控信息,按 照一定的时间周期发送给管理服务器。管理服务器采用“推”( P u s h ) 和“拉”( P u l l ) 两种通信模式与 节点代理服务通信。 图1A C M S 组织模型 2 2A C M S 自主管理模型 I B M 公司高级副总裁P a u lH o m 于2 0 0 1 年在哈佛大学做主体报告时提出自主计算的概念,其动机 是试图通过“技术管理技术”,思想起源于人体的植物神经系利2 1 。植物神经系统可在无大脑意识的条 件下自动的管理人体局部,例如在跑步的情况下植物神经系统可自动调节心跳频率、呼吸频率等体征, 而不需人脑意识的干预,减轻人脑的管理工作。

10、自主计算的目的在于实现计算机系统的自动管理,在 系统的运行过程中尽量减少人为干预,实现系统的自动修复,自动优化,自我保护,自动配置等属性 【3 】o m M 提出了自主计算元素所具有的概念框架,将I T 管理过程的结构和细节抽象为4 个步骤:监 视、分析、计划、执行p 】,基于此框架设计自主管理系统,需要考虑以下问题: ( 1 ) 事件信息模型 事件信息模型定义了组件之间交换的管理信息以及这些信息的底层语义。 ( 2 ) 组件之间通信机制 选择适当的组件之间通信机制,使得自主计算各模块之间方便进行交互,从而组成一个有机的管 理控制环。 ( 3 ) 管理控制策略 传统的集群监控系统往往不具备控制

11、功能,对于节点资源来说,管理员需要根据当前的状态和经 验手工进行管理操作。而集群的自主管理就要求管理系统能够自动对资源的状态感知,利用积累的知 识和预定的控制策略,自主做出决策和操作。 中国商等教育学会教育信息化分会第九次学术年会论j 【:集 3 3 4 图2A d S 自主管理模型 本文给出一种自主管理模型实现框架,如图2 所示。监视、分析、决策、执行组件通过消息通信 机制构成一个自主管理控制环。策略和事件模型是系统进行监测分析和做出管理决策的依据。监视组 件和资源传感器之间通过事件通知机制进行通信,传递资源的监测信息。执行组件通过命令通道向底 层的资源效应器发布操作命令。 3 管理服务器

12、3 1 功能结构 管理服务器部署在中心管理站,作为管理服务层监测、处理来自节点代理的事件消息,并依据管 理规则制定管理决策。如图3 所示。整个管理服务器包含四个主要的组件模块:资源中介、监视模块、 分析决策引擎、执行模块。这四个组件有机结合在一起,构成了2 2 描述的自主管理控制环。 w n 甩户摊n 磕上:上一i 譬 f 连;囊H 釉趴刊H 肫竽 巴l Ll 删崭叫I - q ;6 慧碱础l : i ! 竺竺竺! 青譬蛙理i = l 造蛙理 。1 一 执行组忭 缸鞔葡嗣 自 管理_ 请皂队刈 l 棚息队州J上工 I 毪摊器卜一 l 执打维件l | 事件怡皂攥型 | 跹妒中什 l事件蓝昕I 1

13、 节点崖抟j f 属务准城I 图3 管理服务器功能结构图 ( 1 ) 资源中介( M e d i a t o r ) 资源中介是管理服务器与节点代理服务进行通信的接口组件,负责与节点代理服务建立连接,并 监听来自中间汇集节点的监测信息、心跳和事件等通知消息。 ( 2 ) 监视模块( M o n i t o r ) 监视模块是管理服务器的资源消息监视组件,负责接收和解析节点资源的各种消息,对应于 A C M S 自主管理模型的监视组件。消息都以X M L 格式的形式组织。 ( 3 ) 分析决策引擎( A a n a l y s e - D e c i s i o nE n g i n e ,简称

14、A D E n g i n e ) 分析决策引擎是管理服务器的分析决策中心,负责分析和处理来自监视模块的J A V A 对象,并根 据系统预定义的管理规则做出适当的管理决策,对应于自主管理模型的分析和决策组件。它由个规 则引擎、一系列的逻辑处理组件、连接器和消息队列组成。规则引擎是利用J A V A 规则引擎A P I ( J S R 9 4 ) 封装开源或者商业的规则引擎产品,为不同厂商的规则引擎产品提供一个统一的接口。 ( 4 ) 执行模块( E x e c u t o r ) 执行模块是管理服务器的执行单元,负责执行分析决策引擎做出的管理操作,对应于自主管理模 中国高等教育学会教育信息化

15、分会第几次学术年会论文集 3 3 5 型的执行组件。 3 2 管理规则 规则文件定义了分析决策引擎进行管理操作的一组规则,是分析决策引擎进行管理决策的关键部 分。分析决策引擎采用了D r o o l s 的规则语言格式定义规则。规则定义的格式采用X M L 描述,包含规 则名、一组属性集、以及规则条件和执行操作,以实现节点C P U 资源监测告警的规则为例,规则格 式描述如下: C p u M o n i t o r H e l p e r c p u M e t r i c A l a r m ( c p u ) ; 叫m I e 4 节点代理 节点代理部署在集群节点主机,它的结构主要基于J

16、 M X 的A g e n t 框梨1 0 1 ,功能结构如图4 所示, 整个功能结构逻辑上采用分层式结构,资源探针组件、资源监视泵、中间汇集组件分别构成自下而上 的三层功能结构。 图4 节点代理服务功能结构 ( 1 ) 资源探针组件( P r o b e ) 资源探针组件是整个节点代理服务模块的实现基础,直接和低层的被管资源交互,因此如何将不 同资源的监测和控制封装为传感器和效应器接口是主要解决的一个问题。 ( 2 ) 资源监视泵( M o n i t o r P u m p ) 资源监视泵是探针组件运行的容器,负责资源监测信息的周期性采集和发送。它以“P u s h ”的方式 向担任中间汇集节点的主机上的中问汇集组件发送监控信息。 ( 3 ) 管理服务组件( A d m i n ) 管理服务组件负责管理资源监视泵的初始化,以及探针组件在资源监视泵中的注册和加载。 ( 4 ) 中间汇集组件( P r o x y ) 中间汇集组件负责收集所管辖的所有域内节点的监控信息,并周期性发送给管理服务器的

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号