回卷恢复简介0925

上传人:新** 文档编号:576532260 上传时间:2024-08-20 格式:PPT 页数:25 大小:240.50KB
返回 下载 相关 举报
回卷恢复简介0925_第1页
第1页 / 共25页
回卷恢复简介0925_第2页
第2页 / 共25页
回卷恢复简介0925_第3页
第3页 / 共25页
回卷恢复简介0925_第4页
第4页 / 共25页
回卷恢复简介0925_第5页
第5页 / 共25页
点击查看更多>>
资源描述

《回卷恢复简介0925》由会员分享,可在线阅读,更多相关《回卷恢复简介0925(25页珍藏版)》请在金锄头文库上搜索。

1、回卷恢复容错技术简介回卷恢复容错技术简介湖南大学湖南大学 ? 1内容内容1)1) 回卷恢复技术介绍回卷恢复技术介绍2)2) 回卷恢复中的基本概念回卷恢复中的基本概念3)3) 进程检查点进程检查点4)4) 通信模式通信模式5)5) 度量指标度量指标6)6) 研究方向及其代表性论文研究方向及其代表性论文 输入事件2检查点1检查点2故障点时间回卷前滚3回卷恢复容错技术介绍回卷恢复容错技术介绍(cont.)n分布式应用的检查点和消息日志外部输入事件输出事件系统内部系统外部进程1进程2进程3进程间消息全局检查点全局检查点4回卷恢复容错技术

2、回卷恢复容错技术回卷恢复技术是实现容容错错计计算算,提高系系统统可可靠靠性性的一种常用方法。它的应用范围已越来越广。除了容错计算之外,在并行软件和长时间运行软软件件调调试试、负负载载平平衡衡、移移动动计计算算、系系统统安安全全、云计算云计算领域得到了广泛应用。是这些领域的一项重要支撑技术。回卷恢复技术是一项实用性很强的技术。与其它容错技术相比,它具有成本低成本低,开销小开销小,简单实用简单实用的特点。5并行计算编程接口并行计算编程接口MPI并行计算编程接口并行计算编程接口MPI,及,及支持库支持库:在在Unix /Linux平台上平台上: MPICH2 library: 在在Windows平台

3、上,平台上, MPICH1.2 library: MPICH: A Portable Implementation of MPI. 容错的容错的MPI:MPI_V: FT_MPI: Open MPI : 6MPI 消息传递函数消息传递函数 同步消息传递函数:同步消息传递函数:int MPI_Send( void *buf, int count, MPI_Datatype datatype, int dest, int tag, MPI_Comm comm);int MPI_Recv(void *buf, int count, MPI_Datatype datatype,int source,

4、int tag, MPI_Comm comm, MPI_Status *status) ;异步消息传递函数:异步消息传递函数:MPI_Isend() and MPI_Irecv(). 多了一个变量mpi_Request *request 随后可使用MPI_Test (mpi_Request *request, int *flag, MPI_Status *status) 探询操作是否完成;反应在status变量中; MPI_Wait (mpi_Request *request, int *flag, MPI_Status *status);7非确定性例子非确定性例子 for (i = 0; i

5、 nb_recv; i+) MPI_Irecv (Ti, ., ANY_SOURCE, ANY_TAG,.);For (i=0; nb_recv; i+) MPI_Waitany(.);这个代码的好处是提高资源利用率,只要有请求到达,不管来自哪个进程,就处理,避免等待;可能导致问题:同一个应用程序的多次执行,每次消息到达的先后顺序可能不相同,导致处理的先后顺序不同,导致处理后的进程状态不同;8回卷恢复实现技术回卷恢复实现技术检查点系统:检查点系统:在Unix /Linux平台上: libckpt, BLCR等.在Windows平台上: Winckp ,NT-SwiFT,ChaRM-NT,Int

6、el-NT, NT-MPCKPT等。分布式系统的回卷恢复系统分布式系统的回卷恢复系统:在Unix /Linux平台上:FT-MPI, MPI-V, LAM-MPI, OPEN MPI等在Windows平台上: NT-SwiFT ,ChaRM-NT, WINDAR等。 9回卷恢复容错技术应用实例回卷恢复容错技术应用实例v Bell 实验室的NT-SwiFT,用于应用软件运行监控和故障恢复。v Intel公司使用检查点系统用于电路设计仿真软件的容错和故障恢复。v Bell 实验室的libft,用于电信应用系统的快速故障恢复。v 清华大学的的ChaRM-NT,群机系统的可靠性和和故障恢复;分布式软件

7、的软件调试。v微软公司的SPIDER, 用于Windows系统配置故障(注册表)的定位和排除。vIllonis大学的Chameleon,用于系统可靠性性能指标测量和系统可靠性性能评估;入侵后的系统恢复。10分布式回卷恢复中的基本概念分布式回卷恢复中的基本概念n基本概念:全局一致状态;全局不一致状态,中途消息nBefore happen relation: ei ej全局检查点p1p2p3进程间消息m8m9m12m7m10m11GC1GC2GC3GC4m6m1m0m2m3m4m511分布式系统的回卷恢复分布式系统的回卷恢复n孤儿消息全局检查点p1p2p3进程间消息m8m9m12m7m10m11G

8、C1GC2GC3GC4m6m1m0m2m3m4m512分布式系统的回卷恢复分布式系统的回卷恢复n丢失消息:不仅要有消息内容,还要提交顺序;全局检查点p1p2p3进程间消息m8m9m12m7m10m11GC1GC2GC3GC4m6m1m0m2m3m4m513分布式系统的回卷恢复分布式系统的回卷恢复n重复消息:假定m10, m11的内容和提交顺序都保存了全局检查点p1p2p3进程间消息m8m9m12m7mm1010mm1111GC1GC2GC3GC4m6m1m0m2m3m4m514分布式系统的回卷恢复分布式系统的回卷恢复n检查点全局检查点p1p2p3进程间消息m8m9m12m7m10m11GC1G

9、C2GC3GC4m6m1m0m2m3m4m515分布式系统的回卷恢复分布式系统的回卷恢复n协同检查点: 同步/异步全局检查点p1p2p3进程间消息m8m9m12m7m10m11GC1GC2GC3GC4m6m1m0m2m3m4m516分布式系统的回卷恢复分布式系统的回卷恢复n消息日志,基于发送者/接受者, 悲观/乐观,因果全局检查点p1p2p3进程间消息m8m9m12m7m10m11GC1GC2GC3GC4m6m1m0m2m3m4m517进程检查点进程检查点时间时间t t抽象抽象简单简单容易容易应用层应用层支持库层支持库层内核层内核层复杂复杂细节细节文件数据表磁盘数据代码数据存储寄存器内存外存A

10、PI层与层之间数据层与层之间数据的相互关联性的相互关联性代码与数据分开吗?代码与数据分开吗?代码为只读内容,代码为只读内容,数据才是变化的数据才是变化的18通信通道通信通道应用层应用层MPI层层TCP层层应用层应用层MPI层层TCP层层假定机器无故障假定机器无故障有故障时,即使有故障时,即使接收者已经处理接收者已经处理了该消息,但是了该消息,但是后面故障时恢复后面故障时恢复时还需要该消息时还需要该消息19进程状态进程状态stackheapModuleImage栈帧对象全局变量代码静态变量寄存器:EAX, ECXESP, EBPEIP把把支持库支持库和和操作系统操作系统做做无状态化无状态化处理处

11、理,简简化其化其检查点检查点/重启重启如何识别应用层数据?如何识别应用层数据?20回卷恢复的开销回卷恢复的开销正常执行时开销(防备开销):正常执行时开销(防备开销):检查点开销检查点开销Tc: 协同(同步开销),检查点数据量;消息日志开销消息日志开销Tm:协同(同步开销),通信开销,故障恢复开销故障恢复开销:回卷开销回卷开销Ts ;前滚至故障点开销前滚至故障点开销Tr;防备开销和恢复开销彼此关联,互为矛盾。21研究的方向研究的方向 v对应用的源程序进行分析,找出通信模式,分析不确定性,特点l1)减少消息依赖跟踪;减少消息日志;l2)实现故障恢复时的快速前滚:并发前滚,跳越前滚v减少检查点数据量

12、;l 区分有状态的功能模块;和无状态的功能模块;区分对待;v无检查点技术与检查点技术的结合:编码技术;22研究方向的代表性论文研究方向的代表性论文 v对对MPIMPI源程序的分析,找出通信模式,分析不确定性,特点源程序的分析,找出通信模式,分析不确定性,特点vOn communication determinism in parallel HPC applicationsv HydEE: Failure Containment without Event Logging for Large Scale Send-Deterministic MPI Applicationsv减少检查点数据量;减

13、少检查点数据量;v The design and implementation of Berkeley Labs linux checkpoint/restartvUser-level Checkpointing for LinuxThreads Programs.vLibckpt: Transparent Checkpointing Under UNIX.v无检查点技术与检查点技术的结合:编码技术;无检查点技术与检查点技术的结合:编码技术;vAlgorithm-based Fault Tolerance for Dense Matrix Factorizations23谢谢谢谢24研究方向的代表性论文研究方向的代表性论文 v 工程技术:熟悉和掌握;工程技术:熟悉和掌握;v 感悟技术本质:具备决策、拍板、定夺能力;感悟技术本质:具备决策、拍板、定夺能力;v 写作与表达:规范和套路;写作与表达:规范和套路; 美观;美观; 渲染,力求一环扣一环,抓住读者的眼球;渲染,力求一环扣一环,抓住读者的眼球;v 领悟人生哲理:拓宽自己的空间;领悟人生哲理:拓宽自己的空间;25

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号