故障注入测试方法

上传人:mg****85 文档编号:44654727 上传时间:2018-06-14 格式:PDF 页数:47 大小:818.78KB
返回 下载 相关 举报
故障注入测试方法_第1页
第1页 / 共47页
故障注入测试方法_第2页
第2页 / 共47页
故障注入测试方法_第3页
第3页 / 共47页
故障注入测试方法_第4页
第4页 / 共47页
故障注入测试方法_第5页
第5页 / 共47页
点击查看更多>>
资源描述

《故障注入测试方法》由会员分享,可在线阅读,更多相关《故障注入测试方法(47页珍藏版)》请在金锄头文库上搜索。

1、故障注入测试故障注入测试放射研发测试部放射研发测试部2故障注入的概念故障注入是指按照选定的故障模型, 用人工的方法有意识地产 生故障并施加于特定的目标系统中, 以加速该系统的错误和失 效的发生, 同时采集系统对所注入故障的反应信息,并对回收 信息进行分析,从而提供有关结果的过程。故障注入的概念故障注入的概念:故障注入提出于70 年代初期, 之后一直被工业界用来对容错系 统的设计进行验证。80年代中期, 故障注入技术逐渐开始被高校 和研究部门所采用。进入90 年代后, 该技术越来越引起研究人 员和工程设计者的重视, 对故障注入的研究与应用也随之深入和 广泛。3故障注入的分类按所注入的故障类型分:

2、软件故障注入、硬件故障注入按系统故障的抽象级别:可分为晶体管开关级、逻辑门级、芯片管脚级、微指令和 宏指令级、系统级、应用级的故障注入等;4底层驱动及相关硬件故障插入测试底层驱动及相关硬件故障插入测试寄存器故障插入测试寄存器故障插入测试: 概念概念 此处寄存器故障是指寄存器值与期望值不符的状态。 测试目的测试目的 模拟寄存器值被异常修改后系统的运行规律是否符合用户需求。 故障产生原因故障产生原因 (1)软件发生错误,例如越界 (2)电源低压波动 (3)芯片内部故障 故障可能产生的后果故障可能产生的后果 (1)业务局部中断 (2)业务没有中断但不正确 (3)扩散为系统级故障 测试时的故障产生方法

3、测试时的故障产生方法 修改寄存器值。 测试步骤测试步骤 (1)增加修改寄存器值的命令 (2)运行程序,在程序正常运行时通过命令修改寄存器值 (3)观察系统运行情况 (4)重复步骤2和3,对主要寄存器进行故障插入测试 测试的期望结果测试的期望结果 系统能够检测到芯片寄存器或相关业务异常,并能正确倒换到备用单板或对芯片进行重新初始化,重新初始化后 业务正常。5底层驱动及相关硬件故障插入测试底层驱动及相关硬件故障插入测试误码测试误码测试 概念概念 所谓误码就是当发送端发送“1”码元 时,在接收端收到的却是“0”码元,反之亦然。这种收发信码的不一致 就称为误码。 测试目的测试目的 测试芯片及其驱动程序

4、在发生误码情况下是否具有容错能力。 故障产生原因故障产生原因 (1)收发芯片异常 (2)线路干扰 (3)时钟不稳定 故障可能产生的后果故障可能产生的后果 (1)误码率太高,使业务局部中断 (2)业务没有中断但误码过多 (3)扩散为系统级故障 测试时的故障产生方法测试时的故障产生方法 需要专门的测试仪器(比如传输用的SDH测试仪) 测试步骤测试步骤 (1)将测试仪器连接到单板 (2)利用仪表进行各种误码的插入测试(分为短时误码插入与长时间误码插入:长时间最好能达到24小时), 观察此过程中产生的现象是否和设计目的有冲突,例如如果设计为线路有误码时进行断链、倒换,则检查是否能 倒换,如果设计为有误

5、码时链路要保持连接,则检查此时链路是否能保持连接。 (3)停止误码插入,检查是否能恢复到误码前的状态。 测试的期望结果测试的期望结果 线路出现误码,单板能够正确上报,告警抑制关系正确,停止误码插入后,单板能够恢复正常,停止上报误码。6底层驱动及相关硬件故障插入测试底层驱动及相关硬件故障插入测试晶振失效测试晶振失效测试 概念概念 晶振失效包括晶振短路、开路、频率漂移,晶振失效测试是指通过模拟晶振失效来观察系统在晶振发生失效情况 下的软件运行情况是否符合需求的测试。 测试目的测试目的 测试晶振失效后系统的运行规律是否符合用户需求。 故障产生原因故障产生原因 晶振老化失效。 故障可能产生的后果故障可

6、能产生的后果 (1)业务中断 (2)误码 (3)扩散为系统级故障 测试时的故障产生方法测试时的故障产生方法 用镊子轻触晶振的两个引脚,使晶振输出短路到地或短路到电源,当然,这种方法产生的信号质量差,如果要得 到好的信号质量,则要开发专门的测试用具了。 测试步骤测试步骤 (1)启动程序,使软件正常运行,加入业务数据流, (2)用镊子轻触晶振的两个引脚,使晶振输出短路到地,检查系统的运行状态,在晶振短路的条件下运行一段 时间后,再检查系统的运行状态, (3)用镊子轻触晶振的两个引脚,使晶振输出短路到电源,检查系统的运行状态,在晶振短路的条件下运行一 段时间后,再检查系统的运行状态, (4)如果条件

7、允许,进行晶振开路测试,检查系统的运行状态。 (5)对其它晶振重复步骤14。 测试的期望结果测试的期望结果 对于重要业务,能立刻倒换到备用设备上去。对于所有业务,在晶振失效状态下,故障不应扩散到其它单板或模 块。7底层驱动及相关硬件故障插入测试底层驱动及相关硬件故障插入测试时钟频率及相位偏移测试时钟频率及相位偏移测试 测试目的测试目的 测试时钟发生漂移时系统的运行状态。 故障产生原因故障产生原因 (1)时钟源误差超过范围 (2)锁相电路或相关模块故障。 故障可能产生的后果故障可能产生的后果 (1)误码 (2)指针调整 (3)业务中断 测试时的故障产生方法测试时的故障产生方法 (1)可使用时钟拉

8、偏板或相关仪器测试。 (2)修改数字锁相环中的DA值(数字环)。 (3)断开反馈环。 (4)调节压控电压。 (5)切换到另外一种频率的时钟。 测试步骤测试步骤 (1)搭好测试工具,运行程序,并加入一定的业务量。 (2)在程序正常运行时,提高时钟频率,观察系统的运行状态,缓慢增加提高量,观察系统的运行状态。 (3)时钟频率恢复到初始值,检查系统是否恢复正常。 (4)在程序正常运行时,降低时钟频率,观察系统的运行状态,缓慢增加降低量,观察系统的运行状态。 (5)时钟频率恢复到初始值,检查系统是否恢复正常。 (6)在程序正常运行时,使输入时钟的相位提前,观察系统的运行状态,缓慢增加提前量,观察系统的

9、运行状态。 (7)时钟相位恢复到初始值,检查系统是否恢复正常。 (8)在程序正常运行时,使输入时钟的相位滞后,观察系统的运行状态,缓慢增加滞后量,观察系统的运行状态。 (9)时钟相位恢复到初始值,检查系统是否恢复正常。 测试的期望结果测试的期望结果 当时钟拉偏到某一门限后,系统能上报时钟异常并对时钟模块进行复位(对于数字锁相环),同时对于重要业务,能及时倒换到备 用设备上去。当时钟恢复正常后,系统也能恢复到正常状态。8常用故障注入方法时钟中断测试时钟中断测试: 概念概念 时钟源中断测试是指通过模拟时钟信号中断来测试时钟源中断对系统的影响的测试过程。 测试目的测试目的 测试时钟源中断对系统的影响

10、,检查系统对时钟源中断的处理过程是否符合要求。 故障产生原因故障产生原因 (1)、外部时钟源中断 (2)、锁相电路或相关模块故障 故障可能产生的后果故障可能产生的后果 (1)、误码 (2)、业务中断 测试时的故障产生方法测试时的故障产生方法 (1)、切断时钟信号线 (2)、模拟本地晶振失效(这一点和前面的晶振失效测试一样) 测试步骤测试步骤 (1)、启动系统,加入一定的业务量。 (2)、在系统正常运行时,切断时钟信号线或模拟本地晶振失效使时钟信号中断。 (3)、观察系统的状态 测试的期望结果测试的期望结果 系统能检测到时钟源中断所影响的范围并上报故障,同时对于重要业务,能及时倒换到备用设备 上

11、去。当时钟源恢复正常后,系统也能恢复到故障前的正常状态。9针对资源的故障内存过载测试内存过载测试 概念概念 当一个计算机系统的内存占用率为80%100%时,视为内存过载。 测试目的测试目的 内存过载测试主要是测试系统在内存即将用完的时候,系统运行的可靠性。 故障产生原因故障产生原因 (1)、大流量冲击 (2)、内存丢失 (3)、算法缺陷,需要占用大量内存 故障可能产生的后果故障可能产生的后果 (1)、复位 (2)、空转 (3)、系统内部数据状态不一致,即发送消息的模块和接收消息的模块状态不一致。 测试时的故障产生方法测试时的故障产生方法 采用内存丢失的办法实现内存过载。 测试步骤测试步骤 (1

12、)、丢失空闲内存,使内存占用率达到80%,运行一段时间,观察系统的运行状态。 (2)、在前面的基础上再丢失10%的内存,运行一段时间,观察系统的运行状态。 (3)、把剩余的所有内存全部申请出来丢掉,观察系统的运行情况。 测试的期望结果测试的期望结果 对于一般系统,内存过载时能自动降低业务处理量,如果持续时间过长,复位单板。对于HA系统, 要求能区分是大流量冲击还是内存丢失造成的内存过载,如果是大流量冲击造成的过载,应能自 动降低业务处理量,如果是内存丢失造成的过载,应能复位单板,但对业务不造成影响。10针对资源的故障CPU过载测试过载测试 概念概念 当一个计算机系统的CPU占用率达到80%10

13、0%时,称为CPU过载。 测试目的测试目的 CPU过载测试主要是测试系统在高CPU占用率状态下系统的可靠性情况。 故障产生原因故障产生原因 (1)、大流量冲击 (2)、算法效率低下,例如在等待某些事件时没有交出CPU权限 故障可能产生的后果故障可能产生的后果 (1)、对实时事件响应不及时 (2)、影响提供业务的能力 测试时的故障产生方法测试时的故障产生方法 创建一个任务,用循环的方式强制消耗掉一部分CPU资源,循环次数可以动态调整,通过调整循 环次数可以调整CPU占用率。 测试步骤测试步骤 (1)、创建一个最高优先级的CPU过载测试任务,调整循环次数,使CPU过载,观察系统的运 行情况。 (2

14、)、降低过载测试任务的优先级,使原来优先级较高的任务可以正常运行,优先级较低的任 务受到影响,运行一段时间,观察系统的运行情况。 (3)、重复步骤2,使各优先级的任务均受到过过载干扰。 测试的期望结果测试的期望结果 CPU过载时应能自动启动流控,降低业务流量,同时,系统运行的各种业务不应出错,输入输出 的各类消息顺序保持不变。11针对资源的故障资源丢失测试资源丢失测试 概念概念 资源丢失是指资源没有正在被使用,也不在对应的资源管理程序中,即该资源已经不受控了。 测试目的测试目的 资源丢失测试的目的是验证在发生资源丢失故障时软件是否能从故障中恢复过来,在故障恢复过程中是否还引入了其它的故障。 故

15、障产生原因故障产生原因 (1)、重入 (2)、申请出来的资源使用后没有释放 (3)、在某些路径下资源没有释放 故障可能产生的后果故障可能产生的后果 (1)、复位 (2)、输出错误 (3)、软件内部状态错误 (4)、业务无法完成或业务性能降低 测试时的故障产生方法测试时的故障产生方法 把资源申请出来后不释放。 测试步骤测试步骤 (1)、申请一个资源 (2)、经过一段时间后,检查软件是否能发现出现资源丢失,观察软件是否采取了什么恢复措施,该措施是否有效。 (3)、重复申请一批资源出来,不释放,过一段时间后,检查软件是否能发现出现资源丢失故障,故障软件是否采取了相应的措 施,以及该措施是否有效。 测

16、试的期望结果测试的期望结果 对于一般系统,要求在资源耗尽以后能复位,这时要注意耗尽型资源和非耗尽型资源的差异,复位条件的检测要特殊设计。对于 HA系统,要求能恢复资源丢失造成的影响,并且不影响业务的正常运作。12针对资源的故障释放错误资源测试释放错误资源测试 概念概念 释放错误资源就是把伪造的非法资源通过资源释放函数试图加入到空闲资源池的测试过程。 测试目的测试目的 释放错误资源的目的是为了验证资源管理程序是否对非法资源有合理的保护措施。 故障产生原因故障产生原因 资源在使用过程中修改了资源的标记属性,如地址指针、ID号等。 故障可能产生的后果故障可能产生的后果 (1)、资源管理程序遭到破坏 (2)、资源丢失 (3)、业务中断 测试时的故障产生方法测试时的故障产生方法 伪造一个非法的资源并用资源释放函数释

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号