作业与资源管理系统

上传人:小** 文档编号:54686225 上传时间:2018-09-17 格式:PPT 页数:36 大小:1.14MB
返回 下载 相关 举报
作业与资源管理系统_第1页
第1页 / 共36页
作业与资源管理系统_第2页
第2页 / 共36页
作业与资源管理系统_第3页
第3页 / 共36页
作业与资源管理系统_第4页
第4页 / 共36页
作业与资源管理系统_第5页
第5页 / 共36页
点击查看更多>>
资源描述

《作业与资源管理系统》由会员分享,可在线阅读,更多相关《作业与资源管理系统(36页珍藏版)》请在金锄头文库上搜索。

1、第20章 作业与资源管理系统,高性能集群计算,姓 名:刘川 学号:122520436 专业:计算机应用技术 学院:光电信息与计算机工程学院,2013年4月22日,简介及主要内容,作业与资源管理系统作业与资源管理系统,即RMS(Resource Management System),是为集群提供了调度和负载平衡服务。 本章主要有一下3方面内容:1.介绍作业资源管理系统的设计与结构。2. 介绍不同作业类型对RMS的的基本需求。3.介绍了RMS的例子:CODINE/GRD。,目录,1.成因与历史演变,2.作业与资源管理系统的组成与结构,3.RMS的当前技术发展情况,4.现在和将来面临的挑战,1.成因

2、与历史演变,1.1 对作业管理的需求一般,操作系统是为单机提供作业和资源管理服务的。然而,早期对大型机上批处理作业的控制管理是在操作系统之外进行的。优点有:允许由管理部门进行结构化的资源利用规划与控制 以抽象、透明、易于理解和易于使用的方式将计算中心的资源提供给用户 提供了一个与生产厂商无关的用户界面,1.成因与历史演变,1.2 工作站集群上的作业管理系统工作站集群对于作业管理系统具有特殊的要求。此类RMS提供下面的一个或者几个服务。异构支持:支持不同体系结构和不同操作系统计算机组成的计算环境 批处理支持:从饱和的超级计算机上卸载批处理作业。对于相对较小的的批处理作业,集群比超级计算机提供更好

3、的轮转时间 并行支持:集群可作为并行机。因为工作站价格不贵,而且容易升级,分离部分可单独替换。,1.成因与历史演变,1.2 工作站集群上的作业管理系统交互支持:为用户提供执行交互作业的选项。 检查点和进程迁移:检查点可以用来保存作业状态;进程迁移是把进程从一个机器迁移到另一个机器,俩个机器不必重启,可以用来平衡负载。 负载平衡:使集群中每个计算机做等量工作。 作业运行时间限制:运行时间限制是一个作业被允许执行CPU时间的总和。 GUI:图形用户界面,简化用户操作。,1.成因与历史演变,1.3 主要应用领域RMS首先被用于高性能计算环境。在之前,在研究领域和工业生产中已经被研究和使用了。典型的环

4、境是UNIX网络设置,或是一个集群。这些环境中的典型作业的特点:运行时间较长,并对I/O需求简单。随着RMS不断成熟,开始研究一些更加高级的作业:检查点、迁移作业、并行程序或I/O密集作业等。尚有一些问题未解决。,目录,1.成因与历史演变,2.作业与资源管理系统的组成与结构,3.RMS的当前技术发展情况,4.现在和将来面临的挑战,2.RMS的组成与结构,2.1 先决条件RMS适合任何一种计算机网络。基本先决条件是计算机通过网络互连,并且计算机提供多用户以及多任务能力。虽然操作系统结构不是先决条件,但是也会影响RMS,所以一下情况会常出现: “类似的”操作系统运行在所有的机器上 在RMS中,UN

5、IX是非常常见的 在廉价PC上进行集群处理时,大都采用Windos NT操作系统。由于以上原因,本章剩余部分将会限制在基于UNIX操作系统的RMS上。,2.RMS的组成与结构,2.2 用户界面任何常见RMS都至少提供一个命令行用户接口。典型的命令有一下几类:作业提交命令 状态显示命令 作业删除命令,2.RMS的组成与结构,2.3 管理环境在RMS中,管理性的任务举例如下所示: 在RMS主机池中制定主机的机器特点 定义可行作业类,并为这些作业定义合适主机 定义用户访问权限 为用户和作业制定资源限制 制定作业分配策略 控制和确保RMS的正确操作 分析记账数据,调整系统系能,2.RMS的组成与结构,

6、2.4 被管理的对象:队列,主机,资源,作业及策略队列队列,先进先出。队列是通过指定一套属性来定义的。这些属性可以是队列中并发执行作业个数,也可以是队列中启动作业耗费CPU资源和存储器限制等。所有队列共同为作业负载建立一个描述文件(profile)。一个队列绑定一个处理器,当作业被分配到该队列,就由该处理器执行。新作业通过发出资源请求被提交,RMS考虑被请求资源和不忙的队列来为新作业分配队列,如果所有队列处于忙状态,那么新作业将处于挂起状态。,2.RMS的组成与结构,2.4 被管理的对象:队列,主机,资源,作业及策略主机RMS中的主机分俩种:服务主机和提交/控制主机服务主机提供俩种类型服务:计

7、算服务和RMS管理服务。计算服务就是作业。管理服务则覆盖所有类型的任务提交/控制主机也有俩种服务:提交作业,控制作业执行,2.RMS的组成与结构,2.4 被管理的对象:队列,主机,资源,作业及策略作业根据处理方式不同,RMS作业可以分为四类:批处理作业:作业启动后不需要手工参与交互式作业:作业运行时需要交互式输入并行作业:具有子任务的作业散布到集群的几个主机上检查点作业:周期性保存作业状态。重启时可以从最近一个作业点继续执行。在一定限制条件下,可以在集群中不同机器间迁移,2.RMS的组成与结构,2.4 被管理的对象:队列,主机,资源,作业及策略资源资源:指必须/可用的存储器,CPU时间和外设。

8、资源是队列的一个属性,作业被提交时,作业所需要的资源也一并提交给RMS。RMS应该保证资源不会被过量使用。这可以通过内部簿或者将资源利用的情况和系统定义的阀值比较来实现,2.RMS的组成与结构,2.4 被管理的对象:队列,主机,资源,作业及策略策略对于作业分配的问题,RMS要提供更加抽象和高级的机制来解决。这些机制就是策略。下面讨论一些重要的策略资源利用策略:这种策略为计算环境定义了长期的资源管理目标基于共享的:资源利用权被授予用户,部门等组织实体。高级RMS通过层次共享树来定义资源的共享。层次可以按照部门层次划分,也可以按照项目组织划分,2.RMS的组成与结构,2.4 被管理的对象:队列,主

9、机,资源,作业及策略基于共享的: 这种资源利用策略的一个重要属性是:在一个滑动的时间窗口建立被定义的资源授权。这样就可以考虑过去的使用情况,在前面资源利用率低的补偿,过多利用资源的要减少。这样就能保证所有参与者的授权都能得到保证 功能的 基于不同组织实体的功能来制定他们的重要性。与基于共享的不同之处有:1.功能授权更加多样化。2资源授权级别固定。,2.RMS的组成与结构,2.4 被管理的对象:队列,主机,资源,作业及策略最后期限: 对于时间敏感的应用程序,如果和一般程序混在一起,会产生一个问题。或者是资源无法有效利用,或者是时间敏感的应用程序无法执行 自动最后期限策略:当接受时间敏感应用的作业

10、请求时,为其分配某个百分比的资源,如果到最后期限仍未完成,则动态的将其他作业的资源转移给最后期限作业。 手工重载 即手工干预作业的资源授权。,2.RMS的组成与结构,2.4 被管理的对象:队列,主机,资源,作业及策略调度策略:应用与作业分派过程。 调度策略是一个静态的策略。系统提前定义好的策略,例如先来先到服务、选择最轻负载等。此外调度过程的一些基本信息都是可以配置的。,2.RMS的组成与结构,2.5 一个现代体系结构的特点RCODINE(Computing in Distributed Networked Environment)和补充的GRD(Global Resource Direnct

11、or),即CODINE/GRD,是基于现代体系结构的RMS系统 。CODINE/GRD都采用客户/服务器方式模式设计的。其功能由三种类型的守护进程提供:cod_qmaster:CODINE/GRD的主守护进程。是计算集群管理和调度活动的中心。Cod_qaster维护主机表、配置队列表、负载信息表和用户权限表。cod_shedd:是CODINE/GRD的调度器。其功能是计算任务分配方案,将最后的方案发给cod_qmastercod_exced:执行队列和队列中的作业,2.RMS的组成与结构,2.5 一个现代体系结构的特点这三个进程是基于TCP/IP通信系统进行通信的,由cod_commd提供,目

12、录,1.成因与历史演变,2.作业与资源管理系统的组成与结构,3.RMS的当前技术发展情况,4.现在和将来面临的挑战,3.RMS的当前技术发展情况,3.1 基于自动策略的资源管理高级资源利用策略以及自动增强的定义为RMS和它们的应用提供了一个新的功能层面:资源共享中心为不同的组织单元提供服务。提供这种能力的RMS已经可以使用,下面以GRD系统为例介绍自动管理策略的目标和功能需求和目标工作负载管理,是控制共享资源计算机使用,以最大程度的获得性能和目标。它是通过资源管理策略和尽量最大化资源利用率和系统吞吐量的工具来实现的。为完成这些目标,管理解决方案需要比较有竞争关系的作业的重要性并将相同的并发作业

13、关联。如果缺乏这种机制,将会有下列缺陷:,3.RMS的当前技术发展情况,3.1 基于自动策略的资源管理 应用程序很少会获得最佳的执行性能 重要的作业可能被延迟 未经授权用户通过大量提交作业,可能会获得较多系统资源 降低资源利用率,减少了吞吐量。并且需要更多的操作和管理介入量化资源的可利用性和可利用程度为防止作业不正当分配,任何地方的作业和他们的用户、工程和部门以及作业类相关联,以决定当新的作业提交时如何分配资源。,3.RMS的当前技术发展情况,3.1 基于自动策略的资源管理 策略模型前面叙述过的资源管理策略,这里就不赘述 基于共享的 功能的 最后期限的 手工重载 下图对这些策略进行了综合描述,

14、3.RMS的当前技术发展情况,3.1 基于自动策略的资源管理,3.RMS的当前技术发展情况,3.1 基于自动策略的资源管理 前面的策略是基于动态调度来实现的。这与大多数静态RMS调度行为差别很大。,3.RMS的当前技术发展情况,3.1 基于自动策略的资源管理,3.RMS的当前技术发展情况,3.2 作业支持的当前状况对不同类型的作业,当前最先进的RMS提供了如下服务。串行批处理作业支持提交批处理作业,提供全面监控和记账的工具。 交互式支持在RMS中,对于交互式作业,一个方法是打开一个完全交互的会话窗口。另一个方法是提供了一个终端连接(如LSF)。并行支持 几乎所有RMS系统都支持并行,但是它们提

15、供的支持由很大不同。 1.支持任意的或特殊的PPE(并行程序设计环节的接口),3.RMS的当前技术发展情况,3.2 作业支持的当前状况有俩种方式。一种是RMS系统中集成对一个或者多个PPE的支持接口。另一种方式是提供给PPE的那个接口是可以配置的,以便于任意一个程序设计环境进行集成。检查点 一些RMS,如CODINE/GRD,CONDOR,LoadLeveler和LSF等,都给出了处理检查点作业的机制。但是LoadLeveler和LSF、Condor提供的是基于库的检查点机制。CONDINE/GRD没有提供检查点库。它们之间的区别在于应用范围。基于库的检查点机制不适用于第三方程序。,4.现在和

16、将来所面临的挑战,下面提到的需求问题在现在或是将来会变得很重要,但是当前大多数RMS没有提供合适的解决办法。4.1 开放接口由于用户环境并不是严格的同构的,所以需要UNIX上的RMS需要集成到具有自己界面的第三方应用程序的开放环境以及开放系统管理软件中。RMS需要应用程序接口(API),CODINE/GRD提供的API主要特点是:适用于CODINE/GRD的任何客户/服务器模式扩充简单有一个SQL接口,4.现在和将来所面临的挑战,4.2 资源控制与类似大型机的批处理 理想情况下,RMS可以控制很多可利用资源。但是大多数UNIX只为单个线程提供了资源限制。这样系统就无法提高可靠的资源控制,4.现在和将来所面临的挑战,4.2 异构并行环境使用专门机器提供计算服务的计算中心需要更好地将并行机集成到它们的日常环境中。有以下三种情况 共享并行存储机通过处理器的亲和力来支持共享并行存储机专用并行分布存储机CODINE/GRD系统并行环境系统可以将并行接口移植到小的计算单元上基于集群的分布存储并行机此类机器的最大困难在于和并行程序设计环境进行接口的,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 经营企划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号