容错计算第1章

上传人:子 文档编号:52122863 上传时间:2018-08-18 格式:PPT 页数:36 大小:295.50KB
返回 下载 相关 举报
容错计算第1章_第1页
第1页 / 共36页
容错计算第1章_第2页
第2页 / 共36页
容错计算第1章_第3页
第3页 / 共36页
容错计算第1章_第4页
第4页 / 共36页
容错计算第1章_第5页
第5页 / 共36页
点击查看更多>>
资源描述

《容错计算第1章》由会员分享,可在线阅读,更多相关《容错计算第1章(36页珍藏版)》请在金锄头文库上搜索。

1、容错计算原理北京邮电大学 计算机科学与技术学院 姚文斌绪论n容错和避错技术的产生和发展n容错计算的特征及定义n避错和容错技术的分类容错和避错技术的产生和发展n评价信息系统的三大要素n性能、价格和可靠性n数字系统的可靠性n避错(Fault-avoidance):完美系统n元器件老化和筛选n生产工艺把关n容错(Fault-tolerance):容忍错误系统n多倍冗余与表决n自身纠错能力等避错设计发展n起始于计算机问世之日n计算机发展经历电子管-晶体管-集成电路 -大规模集成电路-超大规模集成电路,避 错设计一直是提高计算机可靠性基本方法n元器件筛选-避错设计结构-避错系统n美国军用计算机公司包括:

2、NORDEN公司、 EMM公司、ROLM公司和MILTOPE公司n产品包括PDP-11M,VAX-11M等n我国从80年代开始研制抗恶劣环境计算机容错设计-1nVon Neumann提出的五个容错理论报告是容错 研究的基础n60年代,提出了三模冗余、N模冗余结构、纠 错码理论、自检和自修计算机n70年代,研究范围从宇航领域扩大到交通管制 、工厂自动化、银行、空港管理、潜艇导航等 ,成果有SIFT计算机、表决多处理机n80年代广泛应用,容错计算机普及深入到整个 工业界,Stratus容错计算机系列、IBM System88,Tandem16等商业化。容错作为每 个数字系统的一个重要特征的时代已经

3、到来容错设计-2n90年代,基于通用硬件的容错计算机得到重点 发展。代表性是Stratus公司的FtServer系列计 算机n受价格制约,专用容错计算机费用开销大n通用硬件开发时间短、软件支持丰富n学术界nIEEE(国际电机和电子工程学会)从1971年每年召 开“国际容错计算年会FTCS”,2000年后改为可信计 算会议DCS展望-可靠性设计重要性n随着计算机技术进一步发展,可靠性设 计必将越来越重要:n计算机性能提高使系统复杂性增加n计算机应用普及,使用者容易操作失误n计算机应用环境恶劣,如温度、湿度、电磁 干扰、机械冲击和震动、盐雾n硬件成本日益降低,维护成本相对增高,需 提高系统的可靠性

4、以降低维护费用发展方向-1n走与商用机兼容道路n研究避错技术发展抗恶劣计算机n瞄准主流商用机,集中力量在计算机结构组装、 系统工艺、质量控制n研究商业硬件和软件构成高可靠容错计算机n传统容错计算机不足包括成本高(软/硬件专门 设计)、扩展能力差、编程复杂、设计能力弱、 设计周期长n美国NASA的JPL实验室研制航空航天通用容错计 算机n欧洲GUARDS计划,共同研制通用容错计算机发展方向-2n随着VLSI线路复杂性增高,故障埋藏深 度增加,发现故障难度增大,为增加芯 片可控性和可观测性的可曾实行研究已 成为重要课题n随着整片集成WSI技术和Soc技术提出,硅 片容错技术应运而生n将动态冗余技术

5、用于VLSI设计,产生RVLSI 技术。n用PLA进行容错设计是实现硅片容错发展方向-3n容错系统结构从单机向分布式系统,由 通用微处理器及微计算机来实现高性能 分布式容错系统n分布式系统具有模块性、并行性和自治性三 大特征n在局部网络中注入全局管理、并行操作、自 治控制、冗余和错误处理,是研究高性能、 高可靠性分布式容错系统发展方向-4n软件可靠性技术n据统计,软件系统中软件故障占系统故障比 例越来越高,甚至达到80%以上n软件可靠性两种方法n避错法:程序设计方法和软件验证技术n容错法:冗余信息与算法程序,及时发现程序设 计错误发展方向-5n容错性能评价n软件正确性证明n难以获得容错系统的可

6、靠性数据n故障注入:通过对目标容错计算机系统注入 各种软/硬件故障并观察目标系统对故障的 响应,可以获得评价目标系统的各种参数, 以辅助系统设计的改进发展方向-6n理论研究方面,建立包含“故障”状态的计 算机模型,并提出一套容错系统的综合 方法论,建立一个广泛的故障病理学和 相应的故障防护学绪论n容错和避错技术的产生和发展n容错计算的特征及定义n避错和容错技术的分类可靠性的四论域信息模型n逻辑的、信息的(内部的)、物理的、用户的(外部 的)这样一个递增次序构造一个层次结构模型来描述 一个信息处理系统n层次结构模型中每一层次都包含各自的一组基本概念 、模型和术语,设计要求、性能度量、正确特性样式

7、 、测试方法和概念规范都可以通过给定的论域描述n系统的正常功能可由一个不希望时间UE(Unexpectant Even)(失效、故障、错误、失败而破坏)、不希望 事件源于一个内部的论域n容错系统的属性和实现它的方法论就可以通过四论域 、它们的不希望事件、不希望事件的检测算法和恢复 算法来解释n容错计算就可以定义为当系统出现不希望事件时仍能 正确地执行所规定的算法不希望事件UE的分类n不希望事件在从逻辑域、信息域、物理 域、用户域分别称为故障-错误-失效- 失败。对于每一个论域,我们都可以根 据原因、时间间隔、值和范围对该域的 不希望事件等价在逻辑域来描述,并都 把他们归纳为“故障模型”n故障分

8、类n按时间间隔分为“永久故障”和“瞬间故障”n按值分为“确定值故障”和“非确定值故障”n按范围分为“局部故障”和“分布式故障”容忍不希望事件n确认被容忍的不希望事件的规范n选择与该不希望事件的类别相匹配的检 测算法n设计恢复算法n使系统恢复到正确操作的某个级或者安 全停机(系统恢复)容错计算四要素nUE的检测n损坏估价nUE的恢复nUE处理和继续服务实现容错计算的主要方法n硬件冗余n时间冗余n信息冗余n软件冗余硬件冗余n硬件堆积冗余(N模冗余)n待命储备冗余n混合冗余系统时间冗余n通过消耗时间资源来达到容错目的n方法:初始检查、联机检查、周期检查信息冗余n增加信息的多余度来提高可靠性n检错能力

9、和纠错能力n方法:奇偶码、海明码、乘积码、循环码n优点n增加的冗余度比别的方法低、许多码的信息位和校 验位在运算中可统一处理n能纠正瞬时错误,提供故障自检测、自定位、自纠 错能力n缺点n产生延时,难于纠正编码器和译码器本身的错误软件冗余n无错误软件n高可靠软件产品的程序设计方法n软件测试技术n程序正确性证明n容错软件n静态冗余:NVPn动态冗余:RB综合冗余技术n根据系统特性所确定的可靠性指标,成 本诸因素选择适当的冗余方式,将这些 冗余方式应用于适当的级别可靠性参数n度量系统可靠性参数:R(t),A(t)n系统可靠度R(t)是指在t=0时系统正常的条件下,系统 在时间区间0,t内能正常运行的

10、概率n系统可靠度可以表示为:n系统可用度A(t)是指系统在时间t可运行的概率:当t趋 于无穷大时,A(t)的极限存在,则该极限成为系统的 稳态可用度,他表示期望系统可用来执行有用计算的 时间部分n系统的平均无故障运行时间MTTF为绪论n容错和避错技术的产生和发展n容错计算的特征及定义n避错和容错技术的分类避错技术分类nMIL-217B模型避错的方法n环境防护技术n热设计、机械应力防护、化学防护、电磁兼 容性设计等n质量控制要求n对全部材料、工艺及设备有严格的质量管理 规范n提高元件集成度n整个系统失效率随着集成度的增大而减少容错技术分类n冗余系统克服故障影响的阶段:n故障检测n故障限制n故障屏

11、蔽n重试n诊断n重组n恢复n重启n修复n重构冗余系统的阶段容错技术分类(故障处理方式 )n故障检测n不提供对故障的容忍,只提供已发生故障的 警告n故障屏蔽n静态冗余,容忍故障但不给出故障警告n动态冗余n最复杂的一类容错技术,包含故障处理的所 有10个阶段检错技术n检测和定位故障的技术n指标:n检测覆盖率,即任意故障被检测到的概率n诊断分辨率,即故障定位的精确程度n检测技术n检错码n多倍冗余n自校验等故障屏蔽n提供容忍故障的冗余,在故障效应到达 模块输出以前,通过隔离或校正来消除 它们的影响n指标:n可靠度函数n技术:nN模表决冗余n纠错码n屏蔽逻辑动态冗余n发生故障时,通过系统内部的重组来切 除和替换故障部件n重组实际上起着补充冗余、延长系统寿 命的作用。重组有故障检测所激活,因 此故障检测是动态冗余的基础,检测覆 盖率和诊断分辨率决定了动态冗余系统 故障处理能力软件可靠性技术n软件避错技术n软件管理技术、设计方法、验证工具n软件容错技术n恢复块技术、NVP技术可靠性技术分类范围技术硬件避错环境防护、质量控制、元件集成 度 故障检测检错码、自校验电路及自校验网 络、监视定时器、一致校验 和权限校验 故障屏蔽N倍冗余结构、交织逻辑 、编 码状态机、纠错码 动态冗余重组、恢复、可重组的N倍冗余 、缓慢降级 软件避错程序设计方法学、软件管理技术 、验证技术 容错恢复块技术、NVP

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号