《网格计算grid网格技术》由会员分享,可在线阅读,更多相关《网格计算grid网格技术(57页珍藏版)》请在金锄头文库上搜索。
1、网格计算网格计算Grid Computing Grid Computing 肖侬肖侬第二局部第二局部 网格技术和系统网格技术和系统网格计算网格计算Grid Computing Grid Computing 肖侬肖侬网格技术续网格技术续如果把整个因特网看成一台计算机,那如果把整个因特网看成一台计算机,那么它的处理器、存储器、外部设备是什么它的处理器、存储器、外部设备是什么?么?它应该采用什么样的体系结构?它应该采用什么样的体系结构? 网格计算网格计算Grid Computing Grid Computing 肖侬肖侬网格技术续网格技术续什么是网格这台计算什么是网格这台计算机的操作系统?机的操作系
2、统?它的进程和线程是什它的进程和线程是什么?么?什么是它的地址空间什么是它的地址空间?如何管理它的资源?如何管理它的资源?网格操网格操作系统作系统分布空分布空间间网格计算网格计算Grid Computing Grid Computing 肖侬肖侬网格技术续网格技术续什么是网格的编程环境和使用环境?什么是网格的编程环境和使用环境?什么是网格的用户界面?什么是网格的程序设计语言?什么是网格的用户界面?什么是网格的程序设计语言? 什么是网格的应用?它们有什么样的模式和特征?什么是网格的应用?它们有什么样的模式和特征?网格计算网格计算Grid Computing Grid Computing 肖侬肖侬
3、结构结构网格多层体系结构网格多层体系结构核心效劳对应着一核心效劳对应着一些关键技术些关键技术Diverse global services核心服务核心服务Local OSA p p l i c a t i o n s 网格计算网格计算Grid Computing Grid Computing 肖侬肖侬详细构成详细构成 工具与应用目录代理诊断与监控等资源与效劳的平安访问 等应用层会聚层资源与连接层 各种资源,比方计算机,存储介质,网络,传感器等 构造层 核心技术核心技术 网格计算网格计算Grid Computing Grid Computing 肖侬肖侬网格技术网格技术网格的核心效劳层技术网格的
4、核心效劳层技术资源管理资源管理监控监控数据存储和分布管理数据存储和分布管理平安平安自适应技术和机制自适应技术和机制效劳的管理效劳的管理自治计算等自治计算等网格计算网格计算Grid Computing Grid Computing 肖侬肖侬网格技术网格技术网格的编程和开发环境技术网格的编程和开发环境技术v网格程序设计语言网格程序设计语言v工作流工作流v网格开发环境网格开发环境v基于构件的开发集成环境基于构件的开发集成环境网格网格Portal技术技术v网格网格web门户门户vPortal网格计算网格计算Grid Computing Grid Computing 肖侬肖侬第四章第四章 网格的资源管理
5、技术网格的资源管理技术网格计算网格计算Grid Computing Grid Computing 肖侬肖侬第一节第一节 集群资源管理技术集群资源管理技术网格计算网格计算Grid Computing Grid Computing 肖侬肖侬内容内容传统局部资源管理技术传统局部资源管理技术v单机系统单机系统OSv集群集群Cluster资源管理技术资源管理技术网格资源管理网格资源管理v问题问题vDRM vGT3vCondor-g网格计算网格计算Grid Computing Grid Computing 肖侬肖侬集群资源管理系统集群资源管理系统Resource management SystemRMS将
6、应用分布在多台机器上执行,以便获取最将应用分布在多台机器上执行,以便获取最大吞吐率的管理大吞吐率的管理能够有效而充分地开发可用资源能够有效而充分地开发可用资源一个软件系统一个软件系统资源管理器资源管理器定位和分配计算资源,认证、进程创立和迁定位和分配计算资源,认证、进程创立和迁移移资源调度器资源调度器应用任务排队,任务调度应用任务排队,任务调度网格计算网格计算Grid Computing Grid Computing 肖侬肖侬资源管理系统目的资源管理系统目的有效的管理资源,提高资源的利用率有效的管理资源,提高资源的利用率屏蔽底层资源的异构性和复杂性屏蔽底层资源的异构性和复杂性管理多个机器协同工
7、作,实现负载平衡管理多个机器协同工作,实现负载平衡支持多种应用使用方式,有效管理多个用户的支持多种应用使用方式,有效管理多个用户的各种任务各种任务按照管理员的意愿可以控制资源的使用方式按照管理员的意愿可以控制资源的使用方式提供容错能力提供容错能力管理对资源的访问管理对资源的访问网格计算网格计算Grid Computing Grid Computing 肖侬肖侬操作系统的资源管理技术操作系统的资源管理技术任务的管理任务的管理CPU管理管理内存管理内存管理I/O管理管理设备管理设备管理进程的管理和调度进程的管理和调度用户管理等用户管理等网格计算网格计算Grid Computing Grid Com
8、puting 肖侬肖侬集群资源管理实现方式集群资源管理实现方式两种方式两种方式分布式操作系统分布式操作系统v集中控制集中控制v破坏原有的破坏原有的OS单个单个OS上建立资源管理和调度中间件上建立资源管理和调度中间件网格计算网格计算Grid Computing Grid Computing 肖侬肖侬集群资源管理实现方式续集群资源管理实现方式续单个单个OS上建立资源管理和调度中间件上建立资源管理和调度中间件不破坏原有的不破坏原有的OS和应用和应用便于资源的控制和方案便于资源的控制和方案实现较言之简单实现较言之简单一个透明易于使用和理解的方式提供资一个透明易于使用和理解的方式提供资源源提供独立于厂商
9、的独立用户接口提供独立于厂商的独立用户接口网格计算网格计算Grid Computing Grid Computing 肖侬肖侬机群管理软件机群管理软件 编译编译依赖底层硬件特征依赖底层硬件特征 安装安装需要操作系统和通需要操作系统和通信信协议支持协议支持 执行执行需要相应编译器和需要相应编译器和并行软件包支持并行软件包支持网格计算网格计算Grid Computing Grid Computing 肖侬肖侬作业管理系统结构网格计算网格计算Grid Computing Grid Computing 肖侬肖侬RMS Components网格计算网格计算Grid Computing Grid Comp
10、uting 肖侬肖侬RMS的接口环境的接口环境用户接口:命令行和图形化接口用户接口:命令行和图形化接口任务的发送任务的发送任务状态查询任务状态查询任务的删除等任务的删除等管理环境:命令行和图形化接口管理环境:命令行和图形化接口定义定义HOST的机器特性的机器特性定义可行的任务类和适宜此任务类的机器定义可行的任务类和适宜此任务类的机器定义用户的访问权限定义用户的访问权限为用户和任务定义资源限制条件为用户和任务定义资源限制条件根据负载或优先级别等定义任务分配的策略根据负载或优先级别等定义任务分配的策略控制和确保控制和确保RMS系统操作系统操作分析记账信息分析记账信息网格计算网格计算Grid Com
11、puting Grid Computing 肖侬肖侬集群资源管理对象集群资源管理对象任务任务一个或多个交互的程序:利用一个或多个交互的程序:利用OS的功能的功能批处理任务批处理任务交互式任务交互式任务并行任务并行任务Checkpointing任务任务主机主机效劳结点:效劳结点:资源管理结点:管理网络、调度、配置等资源管理结点:管理网络、调度、配置等计算结点:执行任务计算结点:执行任务发送和控制结点:传递任务到资源管理器中发送和控制结点:传递任务到资源管理器中资源资源任务执行需要资源:任务执行需要资源:CPU、Memory、I/O设备、通讯设备、通讯等等网格计算网格计算Grid Computin
12、g Grid Computing 肖侬肖侬集群资源管理对象续集群资源管理对象续队列队列v根据属性和资源要求根据属性和资源要求v优先级别优先级别v执行、等待、挂起等执行、等待、挂起等策略策略v计算环境的高级自动控制机制计算环境的高级自动控制机制v多种策略多种策略网格计算网格计算Grid Computing Grid Computing 肖侬肖侬集群资源管理对象续集群资源管理对象续没有策略的系统没有策略的系统应用很少到达优化的性能,多机环境下负载不平衡是应用很少到达优化的性能,多机环境下负载不平衡是经常现象,不是特例经常现象,不是特例重要或紧急的任务常常被耽误或饿死重要或紧急的任务常常被耽误或饿死
13、一个用户可能长期占有的资源超过所需一个用户可能长期占有的资源超过所需多种策略多种策略基于共享的策略基于共享的策略资源利用的权限公平分配:多组织和用户,统计资源利用的权限公平分配:多组织和用户,统计共同建立的集群共同建立的集群功能策略功能策略按照功能分配资源,也定义资源使用权利,按照功能分配资源,也定义资源使用权利,不同:更加灵活,不考虑过去的使用情况不同:更加灵活,不考虑过去的使用情况Deadline策略策略完成时间限制的任务完成时间限制的任务分配一定的资源给分配一定的资源给deadline任务,另一局部给其它任务任务,另一局部给其它任务网格计算网格计算Grid Computing Grid
14、Computing 肖侬肖侬集群资源管理对象续集群资源管理对象续多种策略多种策略v手工干预策略手工干预策略管理员人工干预任务执行和资源分配和自动策略共存v调度策略调度策略根据属性和特性分配任务和资源:FIFS、Select-least-loaded,Select-fixed-Sequence, Priority,混合等多种策略的结合使用多种策略的结合使用网格计算网格计算Grid Computing Grid Computing 肖侬肖侬集群资源管理系统体系结构集群资源管理系统体系结构系统根本结构是系统根本结构是C/S结构结构同步同步异步异步单向单向系统内部典型功能分布结构系统内部典型功能分布结
15、构数据库的管理、调度、任务数据库的管理、调度、任务执行,信息收集执行,信息收集各个功能组件的通讯各个功能组件的通讯TCP/IP网格计算网格计算Grid Computing Grid Computing 肖侬肖侬RMS系统结构主要模块系统结构主要模块Master:资源管理和调度中心:资源管理和调度中心维持主机信息,配置的队列,负载的情维持主机信息,配置的队列,负载的情况、用户的访问权限、任务的管理、资况、用户的访问权限、任务的管理、资源的配置、策略等源的配置、策略等接受用户任务的请求和状态查询接受用户任务的请求和状态查询Scheduler:调度任务:调度任务根据资源状态的信息,采用各种方式和根据
16、资源状态的信息,采用各种方式和算法调度应用任务算法调度应用任务 独立于独立于master,便于各种调度算法和调,便于各种调度算法和调度方式实现根本结构度方式实现根本结构网格计算网格计算Grid Computing Grid Computing 肖侬肖侬RMS系统结构主要模块续系统结构主要模块续Execdv负责维持主机上的任务队列负责维持主机上的任务队列v任务的执行和管理任务的执行和管理Collectorv负责收集整个系统的资源状态负责收集整个系统的资源状态v负责收集各个应用任务的状态等负责收集各个应用任务的状态等Sensorv收集收集HOST上的资源状态上的资源状态v收集收集Host上的应用任
17、务状态等上的应用任务状态等网格计算网格计算Grid Computing Grid Computing 肖侬肖侬集群资源资源管理结构图集群资源资源管理结构图Cluster NodeExecdSensorCluster NodeExecdSensorCluster NodeExecdSensorCentral Managermastercollectorschedd网格计算网格计算Grid Computing Grid Computing 肖侬肖侬RMS效劳功能效劳功能异构支持异构支持v异构的机器和异构的机器和OS批处理支持批处理支持vOff-loading批处理批处理并行处理支持并行处理支持v并
18、行任务并行任务交互式任务支持交互式任务支持v输入输出和错误消息可以返回用户交互的机器输入输出和错误消息可以返回用户交互的机器负载平衡负载平衡v平衡资源的工作负载平衡资源的工作负载多种应用队列多种应用队列v优先级、类型等优先级、类型等网格计算网格计算Grid Computing Grid Computing 肖侬肖侬RMS效劳功能续效劳功能续任务执行时间限制任务执行时间限制v任务完成时间的限制和要求任务完成时间的限制和要求断点检查断点检查v任务状态的保存任务状态的保存进程迁移进程迁移v计算结点负载太重,运行的进程迁移到其它机器计算结点负载太重,运行的进程迁移到其它机器vFault toleran
19、t 支持支持容错容错利用空闲资源利用空闲资源对用户的影响最小对用户的影响最小良好的用户接口良好的用户接口GUI网格计算网格计算Grid Computing Grid Computing 肖侬肖侬RMS的未来挑战和需求的未来挑战和需求开放的高级接口开放的高级接口v原因原因复杂应用使用负载平衡和分配功能的接口等复杂应用使用负载平衡和分配功能的接口等获取应用和资源的状态获取应用和资源的状态软件开发需要传递信息给软件开发需要传递信息给RMSRMS,例如什么数据和,例如什么数据和软件等,便于调度软件等,便于调度和其它软件的集成和其它软件的集成RMSRMS管理员根据应用需要写特殊用途的管理员根据应用需要写
20、特殊用途的RMSRMS命令命令支持不同环境的图形化界面支持不同环境的图形化界面基于基于RMSRMS开发的应用系统可移植开发的应用系统可移植网格计算网格计算Grid Computing Grid Computing 肖侬肖侬RMS的未来挑战和需求续的未来挑战和需求续开放的高级接口开放的高级接口v要求要求API易于使用API独立于程序设计语言API对应用开发必须隐藏RMS的实现细节内部的RMS变化不导致基于API开发的系统发生变化尽量接近标准化网格计算网格计算Grid Computing Grid Computing 肖侬肖侬RMS的未来挑战和需求续的未来挑战和需求续Mainfrmaelike的控
21、制机制的控制机制vMainfrmae模式的模式的RMS和OS紧密结合,功能强大v现行现行RMS支持多种类型机器,OS的功能不同网格计算网格计算Grid Computing Grid Computing 肖侬肖侬RMS的未来挑战和需求续的未来挑战和需求续异构的并行环境异构的并行环境透明地集成专用的并行机器进入透明地集成专用的并行机器进入RMS框架框架共享主存的并行机器共享主存的并行机器专用的分布主存并行机器专用的分布主存并行机器结点是结点是OS的一个小局部,的一个小局部,RMS不易于移植上不易于移植上依赖硬件生产商提供功能,不易于集成到依赖硬件生产商提供功能,不易于集成到RMS基于基于Clust
22、er的分布共享主存并行机器的分布共享主存并行机器广域环境下的广域环境下的RMS网格计算网格计算Grid Computing Grid Computing 肖侬肖侬流行的资源管理系统流行的资源管理系统ProjectCommercial Systems - URLLSFhttp:/ Domain System - URLCondorhttp:/www.cs.wisc.edu/condor/GNQShttp:/www.gnqs.org/DQShttp:/www.scri.fsu.edu/pasko/dqs.html PBShttp:/ or www.gridbus.org网格计算网格计算Grid C
23、omputing Grid Computing 肖侬肖侬集群资源管理技术总结集群资源管理技术总结实质上集群资源管理由三个模块组成实质上集群资源管理由三个模块组成资源全局管理和调度资源全局管理和调度资源的信息效劳资源的信息效劳资源的监控资源的监控网格计算网格计算Grid Computing Grid Computing 肖侬肖侬Open portal batch SystemOpenPBS architectureServer: Server: 保持和跟踪所有任务情况保持和跟踪所有任务情况Scheduler: Scheduler: 告诉告诉serverserver什么时候和什么机器什么时候和什么
24、机器运行任务,资源分配运行任务,资源分配MOM (Machine Oriented Miniserver): MOM (Machine Oriented Miniserver): 运行运行在每个结点,接受在每个结点,接受serverserver的指令,启动执行、的指令,启动执行、监控和结束任务监控和结束任务POSIX POSIX 兼容的批处理系统兼容的批处理系统支持文件支持文件stagingstaging不需要共享的文件系统不需要共享的文件系统网格计算网格计算Grid Computing Grid Computing 肖侬肖侬一个一个 OpenPBS 配置例子配置例子网格计算网格计算Grid
25、Computing Grid Computing 肖侬肖侬可移植性可移植性运行在大多数的运行在大多数的UNIXUNIXlikelike系统上系统上vLinux/Irix/Unicos/HPUX/IA64 etc.Linux/Irix/Unicos/HPUX/IA64 etc.支持多种体系结构的支持多种体系结构的MOMsMOMs充分利用系统充分利用系统的特性的特性ve.g. checkpointing supported on e.g. checkpointing supported on certain architecturescertain architectures支持异构的网络支持异构
26、的网络网格计算网格计算Grid Computing Grid Computing 肖侬肖侬Queues and nodesUnlike NQS, PBS does not rely on queues for scheduling decisionsQueues are not tied to nodes, but can specify resourcesRouting queues can pass jobs to execution queues, possibly on different PBS serversNodes can have any number of virtual
27、processors网格计算网格计算Grid Computing Grid Computing 肖侬肖侬Resource definitionServer-defined properties group nodes into classes - e.g. “intel for all Intel architecture machinesAdditional resources (e.g. tape drives, software licences) can be specified by each MOMCustom resources are not utilised by the d
28、efault scheduler网格计算网格计算Grid Computing Grid Computing 肖侬肖侬Resource usageTimeshared nodes: balanced by loadCluster nodes: jobs allocated to virtual processors, usually exclusivelyMOMs track jobs and kill any that exceed resource limits (e.g. CPU or wall time, memory)No unified mechanism for accountin
29、g of running and finished jobsvqstat for running jobsvServer accounting logs for finished jobs网格计算网格计算Grid Computing Grid Computing 肖侬肖侬SchedulingScheduler is just a privileged clientWell-defined PBS scheduling APIFacilities to write schedulers in C/BaSL/TclOpenPBS provides a simple FIFO scheduler,
30、as well as custom schedulers to take advantage of system-specific featuresMaui scheduler (third party) also integrates with other batch systems, and provides powerful scheduling网格计算网格计算Grid Computing Grid Computing 肖侬肖侬SecurityUses rhosts mechanism for authentication of clients to the server (consis
31、tent user name space not required), but does not require rshMOMs can use rsh, ssh or cp (via NFS) to stage files in and outAccess Control Lists can also be used to provide extra securityPBS daemons use non-random port numbers, and TCP for most communication, allowing straightforward firewallingAll d
32、aemons run as root! (No reported vulnerabilities to date, however.)网格计算网格计算Grid Computing Grid Computing 肖侬肖侬Parallel supportConventional MPI mechanisms rely on well-behaved users, and lack resource trackingOpenPBS provides a Task Manager (TM) APIvAllows parallel PBS jobs to spawn processes on nodes
33、 other than the mastervmpiexec (third party) allows start-up of MPI jobs via the TM mechanism (MPICH/EMP/LAM)vCurrent LAM CVS also has a PBS-TM boot SSI (system services interface) for job start-up网格计算网格计算Grid Computing Grid Computing 肖侬肖侬CustomisationFull source code available, for commercial or no
34、n-commercial useSite-specific modification routines allow easy customisation of “likely targetsDefined C API for job submission, query etc.Third-party projects and patches, e.g. mpiexec, Cplant (fault tolerance), PyPBS, scalability patches, AFS token management网格计算网格计算Grid Computing Grid Computing 肖
35、侬肖侬作业管理用户手册(1)检查状态:检查状态:qstat -Q队列限制列表队列限制列表网格计算网格计算Grid Computing Grid Computing 肖侬肖侬作业管理用户手册(2)检查状态检查状态qstat q队列状态列表队列状态列表网格计算网格计算Grid Computing Grid Computing 肖侬肖侬作业管理用户手册(3)检查状态检查状态qstat Qf 列出指定队列属性列出指定队列属性网格计算网格计算Grid Computing Grid Computing 肖侬肖侬作业管理用户手册(4)检查状态检查状态qstat B server状态列表状态列表网格计算网格计
36、算Grid Computing Grid Computing 肖侬肖侬作业管理用户手册(5)检查状态检查状态qstat f Q 列出所有队列属性列出所有队列属性qstat a 所有作业状态列所有作业状态列表表qstat r 执行作业状态列表执行作业状态列表qstat au userid 指定用户的作业状态指定用户的作业状态列表列表qstat f jobid指定作业的状态列表指定作业的状态列表网格计算网格计算Grid Computing Grid Computing 肖侬肖侬作业管理用户手册(6)提交作业提交作业qsub script 指定作业脚本提指定作业脚本提交交如:如:qsub myvim
37、 my qdel jobid删除提交的作业删除提交的作业网格计算网格计算Grid Computing Grid Computing 肖侬肖侬作业管理用户手册(7)xpbs用户图用户图形界面形界面网格计算网格计算Grid Computing Grid Computing 肖侬肖侬作业管理用户手册(8)网格计算网格计算Grid Computing Grid Computing 肖侬肖侬作业管理用户手册(9)网格计算网格计算Grid Computing Grid Computing 肖侬肖侬Grid integrationGlobus Resource Allocation Manager (GRA
38、M) available for PBSPBSPro default scheduler support advance reservationsSome Metaschedulers are grid-aware, has full support for PBS, and can work with or without Globus网格计算网格计算Grid Computing Grid Computing 肖侬肖侬Summary and acknowledgementsOpenPBS is a cheap solution for Linux clustering, convention
39、al supercomputer management, and/or use of idle workstationsCan upgrade easily to PBSPro if desiredPBS includes software developed by NASA Ames Research Center, Lawrence Livermore National Laboratory, and Veridian Information Solutions, Inc. Visit for OpenPBS software support, products, and information.WGR group webpages: :/