系统容灾方案

上传人:lizhe****0001 文档编号:44823507 上传时间:2018-06-14 格式:DOC 页数:12 大小:97.50KB
返回 下载 相关 举报
系统容灾方案_第1页
第1页 / 共12页
系统容灾方案_第2页
第2页 / 共12页
系统容灾方案_第3页
第3页 / 共12页
系统容灾方案_第4页
第4页 / 共12页
系统容灾方案_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《系统容灾方案》由会员分享,可在线阅读,更多相关《系统容灾方案(12页珍藏版)》请在金锄头文库上搜索。

1、系系统统容容灾灾备备份份方方案案2015 年年 6 月月目录目录1总则.21.1适用范围.32应急人员名单.33系统总体架构图.44硬件设备应急方案.44.1硬件设备应急内容.44.2主机异常宕机且硬件报错.54.3主机操作系统无法正常启动应急处置.64.4主机数据和存储崩溃应急处置.75服务器应急方案.85.1主机操作系统检测.85.2应用程序服务检测.85.2.1故障场景及应急操作.85.2.2故障恢复验证.105.3双机软件检测.105.3.1双机检测.105.4数据库应急方案.101总则总则1.1 适用范围适用范围本操作手册适用于 Bankeys 后台系统出现主机硬件、系统程序、数据库

2、系统紧急情况时的应急处置。相关紧急情况信息如下: 主机紧急情况包括:主机服务器宕机,主机硬件报错、硬盘储存空间不足等情况。 系统服务器紧急情况包括:主机操作系统不间断重启,系统宕机,系统报错,程序服务报错无法重启,主备机无法正常切换等情况。 数据库紧急情况包括:主机操作系统不间断重启,系统宕机,系统报错,数据库无法启动,主备机无法正常切换等情况。 出现上述紧急情况之一,应立即上报信息系统应急指挥领导小组,经领导同意后立即启动相应的处理流程。2应急人员名单应急人员名单序号成员角色联系方式备注12343系统总体容灾架构图系统总体容灾架构图架构说明:架构说明:4硬件设备应急方案硬件设备应急方案4.1

3、 硬件设备应急内容硬件设备应急内容主机服务器设备紧急情况包括:1. 主机异常宕机,主机硬件报错;2. 设备操作系统无法正常启动;3. 设备数据和存储崩溃;若发生上述紧急情况,立刻通知电信系统维护岗工程师到现场,同时维护厂商的 IBM 专项工程师也必须到达现场,且维护厂商的电信 PM(维护项目经理)也应立刻知晓并进行调度。若发生需要协调原厂工程师到达现场之情形,则由维护厂商的电信 PM 进行原厂报修派单, 备件原则为未过保设备由原厂经维保厂商提交报修后提供,在特殊需求下,维保厂商可以预先提供故障备件先行恢复业务后,由原厂提交的备件在业务非繁忙时段进行替换,替换工作的流程调度,时间点由系统维护岗工

4、程师安排,经领导批准后方可进行。4.2 主机异常宕机且主机异常宕机且硬件报错硬件报错判断标准: 检查服务器面板指示灯颜色情况; 检查服务器背面电源指示灯情况; 检查服务器背面网卡指示灯情况;参考标准:如果服务器面板指示灯闪烁,说明服务器处于关机状态,如果面板指示灯黄色说明服务器存在故障,如果面板指示灯绿色说明服务器运行正常。电源指示灯如果未点亮,说明电源处于停止工作状态,如果电源指示灯黄色说明电源故障,如果电源指示灯绿色说明电源工作正常;网卡指示灯如果长亮或不亮说明网卡故障,网卡指示灯闪烁说明工作正常;硬盘指示灯如果是黄色说明硬盘故障,硬盘指示灯如果为绿色闪烁说明硬盘工作正常。如发现硬件设备有

5、如上异常情况应急处置办法如下:1. 如果机器能进操作系统,本地登陆主机,记录保存、错误日志;若发生事故时,已经直接宕机,则跳过;2. 硬件故障的查看、分析和诊断;如核实设备出现错误代码,分析设备报错日志等。3. 如果确定报错信息,进行故障定位,更换相应部件。4. 如果机器进不了操作系统,在机器开机的时候通过主机的管理 CMM 系统管理接口登陆或本机串口登陆,然后查看系统中各种硬件的信息和警告;5. 手工切换 HA 资源,强制备机进行接管主机的操作;6. 如手工切换失败,则分析日志(LINUX 系统 HA 启动、停止的日志文件名是:/var/log/messages。判断是否由以下原因引起:IP

6、 地址资源无法接管、应用程序启动失败、相关资源启动失败;7. 在备机上根据依赖关系,手工启动所有资源;8. 更换坏件后,重新开启主机电源并进行自检,确保新件可以稳定工作; 9. 启动操作系统、数据库及应用,并查看相关日志信息确保无异常信息。4.3 主机操作系统无法正常启动应急处置主机操作系统无法正常启动应急处置 判断标准:主机日常由于维护、修改参数或者硬件更新的操作,可能需要重新启动,若启动无法正常完成,则可以判断为“操作系统无法正常启动”情况。应急处置办法:1. 系统不能正常启动,必须进入维护查看磁盘状态。一般是因为系统异常掉电引起硬盘损坏;2. 根据启动信息判断,是否引导设备的路径出现问题

7、?如是,重新设定启动设备路径,正常引导操作系统;3. 启动过程中,是否提示启动设备引导块丢失?如是,将主机启动至单用户模式下,修复启动设备引导块,重新引导操作系统;4. 启动过程中,是否提示系统文件出错?如是,将主机启动至光盘单用户模式下,修复系统文件,重新引导操作系统;5. 启动过程中,是否提示系统设备文件出错?如是,将主机启动至光盘单用户模式下,重建系统设备文件,重新引导操作系统; 启动过程中,是否提示动态链接库出错?如是,将主机启动至光盘单用户模式下,修复动态链接库,重新引导操作系统;6. 启动过程中,是否提示需要手工修复文件系统?如是,将主机重新启动至光盘单用户模式下,修复文件系统,重

8、新挂接测试。处理方法:方法一:重起服务器在 grub 或者 lilo 能正常工作的情况下,以单用户模式登录时,输入 root 密码,打开文件系统的写操作,然后操作系统维护状态。方法二:将系统安装光盘第一张放入光驱中,按 power on 按钮后,听到嘀的一声后,就可以看到光盘引导菜单界面,选择进入maintenance维护模式即可。4.4 主机数据和存储崩溃应急处置主机数据和存储崩溃应急处置判断标准:主机由于长期的不间断负载业务,对数据的读写量巨大,若操作系统读取数据出现异常、文件系统异常丢失,在错误输出内记录 I/O 大量出错(可以用命令“iostat”查看) ,已经影响业务无法正常相应,可

9、以判断为“数据或存储崩溃”情况。应急处置办法:1. 系统不能正常启动,必须进入维护查看磁盘状态。一般是因为系统异常掉电引起硬盘损坏;2. 通过笔记本电脑连接主机查看相关日志信息,确认是否有硬盘报错;3. 如果无硬盘报错信息,fsck 修复文件系统,重新挂接硬盘;4. 如果仍有硬盘报错,更换硬盘;重新启动,若启动期间有问题, 确认更换硬盘后,用原先备份的文件系统进行恢复;更换硬盘时进行双机切换,把应用转到备机,故障机停机,执行数据备份。 文件系统的恢复必须建立在对系统做了有效的全备份基础上。如果确实无法引导系统或文件系统损坏、数据丢失,只有通过全备份来恢复系统的正常引导及工作。定期进行系统全备份

10、是恢复的基础。如果确实无法引导系统或文件系统损坏,则根数据丢失,只有通过全备份来恢复系统的正常引导及工作。5服务器应急方案服务器应急方案5.1 主机操作系统检测主机操作系统检测1. 使用“df h”命令或“df g”查看磁盘使用情况,若发现磁盘剩余空间小于 800M,需要删除一些无用的文件。查看是否有不明的程序文件占用大量磁盘空间。 2. 使用“free k”命令查看内存使用情况,如果超过 85%以上,使用“ps ef”命令查看一下系统进程,找出不明进程,用“kill”命令杀掉后,再观察使用情况。3. 使用“top”命令或“topas”查看 CPU 使用率,如果高于 90%,查看其使用进程,找

11、出不明进程或僵尸进程,用“kill”命令杀掉后,再观察使用情况。5.2 应用程序服务检测应用程序服务检测5.2.1故障场景及应急操作故障场景及应急操作5.2.1.15.2.1.1应用程序的端口不通(应用程序的端口不通(bkcert、bkfront、bkpush、bkinner)故障场景描述:故障场景描述:应用程序无法打开影响范围、程度:影响范围、程度:用户不能使用,严重。预期恢复时长:预期恢复时长: 30 分钟日志收集要求:日志收集要求:收集日志,立即启动恢复操作。最有可能原因和应急措施:最有可能原因和应急措施:第一常见原因:进程异常或者无故被杀掉查看门户服务进程,看进程是否存在: ps ef | grep bkcert 如果发现进程不存在则到相应目录下重新启动服务,重启步骤:#cd/usr/sfb/app/weblogic/Oracle/Middleware/Oracle_Home/user_projects/domai ns/base_domain/bin/# ./startup.sh第二常见原因:连接数据库问题查看相应门户日志#tail -f /usr

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 公司方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号