第十九章 故障及问题管理.doc

上传人:汽*** 文档编号:542244144 上传时间:2023-02-25 格式:DOC 页数:8 大小:42KB
返回 下载 相关 举报
第十九章 故障及问题管理.doc_第1页
第1页 / 共8页
第十九章 故障及问题管理.doc_第2页
第2页 / 共8页
第十九章 故障及问题管理.doc_第3页
第3页 / 共8页
第十九章 故障及问题管理.doc_第4页
第4页 / 共8页
第十九章 故障及问题管理.doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《第十九章 故障及问题管理.doc》由会员分享,可在线阅读,更多相关《第十九章 故障及问题管理.doc(8页珍藏版)》请在金锄头文库上搜索。

1、第十九章 故障及问题管理1、故障是系统运转过程中出现的任何系统本身的问题,或者是任何不符合标准的操作、已经引起或可能引起服务中断和服务质量下降的事件。2、故障处理是指发现故障之时为尽快恢复系统IT服务而采取必要的技术上或者管理上的办法。3、故障的特征:影响度、紧迫性、优先级4、故障管理目标:尽可能快地恢复服务级别协议规定的水准,尽量减少故障对业务运营的不利影响,以确保最好的服务质量和可用性。5、常见故障: 硬件及外围设备故障(主机宕机、设备无故报警、电力中断、网络瘫痪、打印机无法打印)。 应用系统故障:服务不可用、无法登录、系统出现bug 请求服务和操作故障:忘记密码、未做来访登记6、故障管理

2、包含了:1、故障监视 2、故障调研 3故障支持和故障处理 4、故障终止 P441页 图: 还包括:故障分析定位 故障处理跟踪7、故障接触的人员:1、故障现场接触人员 2 初级支持人员 3 高级支持人员8、故障原因分类:主要3类:技术因素、应用性故障、操作故障扩展到7类:按计划的硬件、操作系统的维护操作时引起、应用性故障、人为操作故障、系统软件故障、硬件故障、相关设备故障、自然灾害。9、监视的项目及监视方法:人员、规范操作的执行、硬件和软件是故障监视的重点所在。 1、对系统硬件及设备的监视包括:各主机服务器及其主要部件、专门的存储设备、网络交换机路由器等。 监控方法:主要是采用通用或者专用的管理

3、监控工具,它们通常具有自动监测、跟踪和报警的若能。 2、以软件的监视主要针对:其应用性能、软件bug和变更需求。 监控方法:也可以采用管理监控工具,但通常应用系统的缺陷由专门的测试工程师负责监视,或者使用过程中由用户发现并提出。 3、需要监视的人员包括:系统操作员、系统开发工程师、用户、来访者,甚至包括系统所在机房的清洁工和运输公司的职工。 要对他们与系统的接触过程中的行为进行跟踪和记录,防止或者及早发现非标准的操作带来的系统故障或服务故障。10、故障的信息来源:服务台、系统、用户和其他IT部门故障调研过程:故障信息搜集、故障查明和记录(确认影响、问题管理、密切跟踪进展)。11、故障定位分析:

4、中央处理器的故障定位 、外围设备的故障定位、电源部件的故意定位12、故障得到解决后,服务台应该确保哪些工作? 1、有关用于解决故障的行为的信息是准确易懂的。 2、根据故障产生的根本原因对其进行归类。 3、客户口头同意故障解决方案和方案执行的最终结果。 4、详细记录了故障控制阶段的所有相关信息:客户是否满意和满意度如何、处理故障所花费的时间、故障终止的日期和时间。13、服务台负责跟踪和监督所有故障的解决过程,在这个过程中,服务台要做到哪些要求? 1、监督故障状态和故障处理最新进展及其影响服务级别的状况。 2、特别要注意故障处理责任在不同专家组之间转移。 3、更多地注意高影响度故障 4、及时通知受

5、影响的用户关于故障处理的最新进展。 5、检查相似的故障。14、主机故障恢复措施:(根据所提供的备份类型不同)热重启T、暖重启2-3T、冷重启10-100T。15、 数据库故障主要分为事务故障、系统故障(软)和介质故障(硬)。事务的故障由系统自动完成,恢复步骤如下:1、反向扫描日志文件,查找该事务的更新操作。2、对该事务的更新操作执行逆操作,也就是将日志记录更新前的值写入数据库。3、继续反向扫描日志文件,查找该事务的其他更新操作,并做同样处理。4、如此进行下去,直到读到了此事务的开始标记,事务故障恢复就完成了。系统故障的恢复是由系统在重新启动时自动完成。步骤如下:1、正向扫描日志文件,找出故障发

6、生前已经提交的事务,将其事务标识记入重做(redo)队列。同时找出故障发生时尚未完成的事务,将其事务标识记入撤销队列(undo).2、反向扫描日志文件,对每个undo事务的更新操作执行逆操作,也就是日志记录中更新前的值写入数据库。3、正向扫描日志文件,对每个redo事务重新执行日志文件登记的操作,也就是将日志记录中更新后的值写入数据库。介质故障的恢复方法是重装数据库,然后重做已完成的事务,具体步骤如下:1、装入最新的数据库后备副本,使数据库恢复到最近一次转储时的一致性状态。2、装入相应的日志文件副本,重做已完成的事务。介质故障的恢复需要DBA的介入,DBA只需重装最近转储的数据库副本和有关的各

7、日志文件副本,然后执行系统提供的恢复命令,具体的恢复操作仍由DBMS完成。16、网络故障恢复措施:(当遇到线路故障或是网络连接问题时,需要利用备用电路或者改变通信路径等恢复方法,具体的途径如下)1、双主干 2开关控制技术 3路由器 4通信中件17、问题概念:是存在某个未知的潜在故障原因的一种情况,这种原因会导致一起和多起故障。18、已知错误是指问题经过诊断分析后找到故障产生的根本原因,并制定出可能的解决方案时所处的状态。18、问题控制流程是一个有关怎样有效处理问题的过程,其目的是发现故障产生的根本原因(如配置项出现故障)并向服务台提供有关应急措施的意见和建议。19、错误控制是解决已知错误的一种

8、管理活动。 问题预防是指在故障发生之前发现和解决有关问题和已知错误,从而使故障对服务负面影响其与业务相关成本降到最低的一种管理活动。20、问题管理和控制的目标主要是什么?1、将由IT基础架构中的错误引起的故障和问题对业务的影响降到最低限度。2、找出出现故障和问题的根本原因,防止再次发生与这些错误有关的故障。3、实施问题预防,在故障发生之前发现和解决有关问题。21、相关逻辑: 故障是任何不符合标准操作,并且已经引起或可能引起服务中断和服务质量下降的事件。它产生的原因可以比较明显,不需要进一步调查就可解决。 问题是导致一起和多起故障的潜在的、不易发现问题原因。问题需要被调查后才能确认,。故障和问题

9、之间不是一对一的关系,而是多对多的关系:一个故障可能有多种原因,一个故障可能对应着某个问题,同样,一个问题可能是对多个故障的调查后被确认的。 已知错误是一个故障和问题,而且产生这个故障和问题的根据原因已查明,并已找到它的临时办法和永久性的替代方案。 变更请求适用于记录有关变更内容的书面文件和电子文档。22、问题的管理流程: 1信息输入内容:1故障信息 、2故障处理定义的应急措施、3系统配置信息、4供应商提供的产品和服务 2、主要活动(管理流程) 内容:1问题控制、2错误控制、3问题预防、4制作管理报告 3、信息输出 内容:1已知错误、2变更请求、3更新的问题记录、4已解决问题的记录、5故障与问

10、题和已知错误的匹配信息。 6其它管理信息23、问题管理流程涉及问题控制、错误控制、问题预防、管理报告。24、问题分类标准:目录、影响度、紧迫性、优先级。25、问题控制:1发现和记录 2归类 3 调查和分析 4问题控制 图 ( 右:跟踪和监督 左:问题管理数据库)书P454页 26问题分析方法主要4种:Kepner&Tregoe法、鱼骨图法、头脑风暴法、流程图 。一、Kepner&Tregoe法:是一种问题分析方法,出发点是解决问题是一个系统的过程,利用已有的知识和经验。1定义问题、2描述问题(标识、位置、时间、规模和范围)、3找出产生问题的可能原因、4测试最可能的原因、5验证问题原因 。应用头

11、脑风暴法4原则:畅所欲言、强调数量、不做评论、相互结合。头脑风暴法是一种激发个人创造性思维的方法,常用于解决问题的方法的前三步:明确问题、原因分析、获得解决问题的创新性方案。26、错误的控制包括:发现和记录错误、评价错误、记录错误解决过程、终止错误、跟踪监督错误解决过程。 图 P457左边是:问题是管理数据库27、错误控制系统中有关 已知错误的数据来源 主要有两个:运行过程和开发过程。28、 问题预防 主要包括两项活动:趋势分析 和 制定预防措施 。趋势分析:1、找出IT基础架构中不稳定的组件,分析其原因,以便采取措施降低配置项的故障对业务的影响。2、分析已发生的故障和问题,发现某些趋势。3、

12、通过其它方式和途径分析(系统管理工具、会议、用户反馈、与客户和用户的座谈会、客户和用户调查)29、 损害指数的指标:1故障出现次数、2受影响的客户数、3解决故障所需时间和成本、4业务损失。30、 管理报告包括以下几方面:事件报告、产品质量、管理效果、常规问题管理与问题预防管理之间的关系、问题状态和行动计划、改进问题管理的意见和建议。课后练习:1、系统故障包括哪些类别?举例说明。答:1硬件及外围设备故障(主机宕机、设备无故报警、电力中断、网络瘫痪、打印机无法打印)。 2应用系统故障:服务不可用、无法登录、系统出现bug 3请求服务和操作故障:忘记密码、未做来访登记2、人员为什么是故障监视的重点?

13、哪些人员应当被纳入故障监视的范围内?故障接触人员在故障监视过程中有着重要的影响和作用,为了尽快发现和应对故障,同时防止非规范操作扩大故障对系统和业务的影响,需要对故障接触人员进行严格管理,故障监视应该针对不同故障接触人员指定监视职责,制定相关操作手册,而故障接触人员应该严格按照规定执行操作和报告。同时,故障接触人员本身及其活动也是监视项目。需要监视的人员包括:系统操作员、系统开发工程师、用户、来访者,甚至包括系统所在机房的清洁工和运输公司的职工。3网络故障时的处理办法有哪些?1双主干 ,当发生故障时,辅助网络就会承担数据传输的任务,两条主干线缆的物理距离应当相距较远,来减少两条线缆同时损坏的概

14、率。2开关控制技术,由开关控制的网络可以精确地检测出发生的故障的地段,并用辅助路径来分担数据流量,同时,可以通过网络管理控制程序来管理网络,部件故障可以很快显示在控制程序界面上并响应故障。3路由器,一些故障导致必须从别的路径访问别的服务器,这时路由器可以为数据指明流动的方向。4通信中件,通信中件可以使通信绕过网络中发生故障的电路,通过其他网络连接来传输数据。4、简述Kepner&Tregoe问题分析法的分析步骤。1定义问题,调查是根据定义问题进行的,因此问题定义必须明确指出IT服务偏离服务级别协议的情况。2描述问题,包括问题的(标识、位置、时间、规模和范围)3找出产生问题的可能原因,根据第二步的比较和实施的就更,尽量发现问题生产的可能原因4测试最可能的原因,评价每个可能原因以确认其是否就是形成问题症状的原因。5验证问题原因 。通过上一步的测试后,剩余的可能原因需经进一步测试确认其是否是产生某个问题的真正原因。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号