中国移动浙江公司it系统故障详细分析报告模板

上传人:第*** 文档编号:33885331 上传时间:2018-02-18 格式:DOCX 页数:36 大小:345.33KB
返回 下载 相关 举报
中国移动浙江公司it系统故障详细分析报告模板_第1页
第1页 / 共36页
中国移动浙江公司it系统故障详细分析报告模板_第2页
第2页 / 共36页
中国移动浙江公司it系统故障详细分析报告模板_第3页
第3页 / 共36页
中国移动浙江公司it系统故障详细分析报告模板_第4页
第4页 / 共36页
中国移动浙江公司it系统故障详细分析报告模板_第5页
第5页 / 共36页
点击查看更多>>
资源描述

《中国移动浙江公司it系统故障详细分析报告模板》由会员分享,可在线阅读,更多相关《中国移动浙江公司it系统故障详细分析报告模板(36页珍藏版)》请在金锄头文库上搜索。

1、 浙江移动通信有限责任公司业务支撑中心浙江移动业务支撑中心 第 1 页十二月份故障分析报告(12 月 01 日-12 月 31 日)1、关于 12 月 4 日客服部分座席多次出现被突然签出的故障(蓝)故障标题故障简明回顾说明故障现象故障原因故障标准恢复情况改进措施1、故障详细分析故障现象详细描述事件单号 问题单号开始时间(系统) 15:10恢复时间(系统) 16:06开始时间(业务) 15:10恢复时间(业务) 16:06故障影响系统 故障影响业务故障处理情况故障起因详述故障处理回顾1.处理后效果/遗留问题说明无 是否影响集团考核 否故障原因是否已在故障池内否 浙江移动通信有限责任公司业务支撑

2、中心浙江移动业务支撑中心 第 2 页运维故障评估故障根源系统 客服系统 严重程度重大严重主要一般系统开发商 亚信联创配置管理 客户响应室需求管理 业务管理室缺陷管理 业务管理室架构管理 系统规划室统一权限配置 软件质量测试管理 开发管理室配置管理 计费帐务室需求管理 业务管理室缺陷管理 业务管理室架构管理 系统规划室统一产品配置 软件质量测试管理 开发管理室基础保障 系统优化室业支系统 系统规划室经分系统 经营分析室基础设施系统能力(架构、容量)问题 信安系统 信息安全室需求管理 业务管理室缺陷管理 业务管理室架构管理 系统规划室业支系统测试管理 开发管理室经分系统 经营分析室信安系统 信息安

3、全室故障待改进点涉及科室应用优化室(运行异常)软件质量电渠系统 客服中心电渠运维故障分析【原因分析】1)告警监控管理 【改进措施】规范执行 重复问题 历史遗留问题【原因分析】2)高可用保障管理 【改进措施】规范执行 重复问题 历史遗留问题【原因分析】3)运维操作管理 【改进措施】规范执行 重复问题 历史遗留问题4)系统基础平台问题【原因分析】 浙江移动通信有限责任公司业务支撑中心浙江移动业务支撑中心 第 3 页【改进措施】规范执行 重复问题 历史遗留问题故障后续改进故障所属域(CRM/BOSS/渠道)优化需求编号 需求开发责任人 需求维护跟踪人优化需求 BR2014010631 系统优化室-关

4、于客服业务系统便签发送的优化需求石永超 钟储建告警调整版本号 告警调整任务单号 告警调整人告警监控预案名称 新增/修改 预案编写人故障预案优化分析报告名 新增/修改 报告撰写人高可用保障数据稽核任务 任务单号 稽核人数据稽核专题名称 专题需要的资源 专题发起人疑难问题改进措施落实情况运维报告撰写人 钟储建,刘鹏 改进措施落实监督人 陈航开发故障评估故障责任小组开发故障分析故障引入需求编号和名称故障影响范围故障原因综述故障详细分析及问题解决故障解决措施改进措施(问题避免)【原因分析】1)需求因素分析及改进 【改进措施】规范执行 重复问题 历史遗留问题 浙江移动通信有限责任公司业务支撑中心浙江移动

5、业务支撑中心 第 4 页【原因分析】2)系统设计因素分析及改进 【改进措施】规范执行 重复问题 历史遗留问题【原因分析】3)软件编码因素分析及改进 【改进措施】规范执行 重复问题 历史遗留问题【原因分析】4)自测因素分析及改进 【改进措施】规范执行 重复问题 历史遗留问题开发改进措施落实情况开发报告撰写人开发改进措施落实监督人测试故障评估故障责任小组测试故障分析【原因分析】1)功能测试因素分析及改进 【改进措施】规范执行 重复问题 历史遗留问题【原因分析】2)回归测试因素分析及改进 【改进措施】规范执行 重复问题 历史遗留问题【原因分析】3)性能容量测试因素分析及改进【改进措施】规范执行 重复

6、问题 历史遗留问题【原因分析】4)安全性测试因素分析及改进【改进措施】规范执行 重复问题 历史遗留问题【原因分析】5)编译因素分析及改进 【改进措施】规范执行 重复问题 历史遗留问题6)上线因素分析及【原因分析】 浙江移动通信有限责任公司业务支撑中心浙江移动业务支撑中心 第 5 页改进 【改进措施】规范执行 重复问题 历史遗留问题改进措施落实情况测试报告撰写人测试改进措施落实监督人2、关于 12 月 8 日金华用户反映通过社会渠道系统充值话费未到帐的故障(蓝)故障标题 关于 12 月 8 日金华用户反映通过社会渠道系统等充值话费未到帐的故障(蓝)故障简明回顾说明故障现象 1、金华地区反馈通过社

7、会渠道进行充值后,资金不能及时到账;2、部分用户反映通过积分兑换的资金也没有到账。故障原因8 号当天由于日帐单表没有及时进行表分析,维护进行多次重启查询代理,导致金华地区充值入账本处理程序 scoket 连接出现异常,连接查询代理失败率高,最终引发充值入账本工单积压,用户充值没有及时入账。故障标准 投诉量(5,30,咨询数(30,300恢复情况 重启查询代理后恢复正常。改进措施1、 运维监控能力优化:增加充值入账本程序连接查询代理失败的错误信息的监控,能够避免故障的发生;2、 梳理完善充值预案:梳理外围系统(如充值接口)的框架和相应的处理环节,对充值未到账建立详细的处理预案,针对充值未到账的问

8、题能够及时快速的处理,缩短故障恢复时间。3、 查询代理架构优化:查询代理作为连接外围系统和实时帐务的枢纽,需要进行框架优化,具备对外围吞吐量、调用来源、成功失败数、错误类型、关键业务耗时进行有效记录,并且能够通过运维平台展现,最终达到可监可控,可视可分析。故障详细分析故障现象详细描述客服报障,反映金华地区反馈通过社会渠道进行充值后,资金未及时到账;部分用户反映通过积分兑换的资金也没有到账。通过对外围接口比对和充值后台处理步骤的核实,发现充值入账本处理程序 scoket 连接有问题,入账本工单积压,用户充值不能及时到账。事件单号 SD201312087506 问题单号 PM20131208544

9、3开始时间(系统) 14:30恢复时间(系统) 19:50开始时间 17:00 恢复时间 19:50 浙江移动通信有限责任公司业务支撑中心浙江移动业务支撑中心 第 6 页(业务) (业务)故障影响系统 账务管理系统 故障影响业务 充值业务故障处理情况故障起因简述1、 12 月 8 号话费增量查询手工关闭,接到客服中心要求对话费日增量查询菜单开启,后台开启查询并重启查询代理,并发现查询超时,对重新关闭日增量查询菜单并重启了查询代理;2、 故障发生以后,通过后台日志分析,从 14:30 开始,充值入账本的日志就开始出现大量的连接 MDB 出错的信息,提示连接错误,系统设置了重复连接 3 次的配置,

10、充值入账本处理失败率升高,导致充值工单入账本一直积压,入账本超时,外围用户充值入账本超时;3、 19:28 接到客服反映用户充值未到账的,通过分析发现为入账本程序连接 socket 有问题,通过重启查询代理,故障恢复。故障处理回顾1、19:28 接到客服关于金华地区部分用户充值未到账以及通过积分兑换的资金也没有到账的报障;2、19:40 维护人员通过后台日志核实为充值工单处理入账本积压,导致入账本超时,不能正常的入账本;3、19:50 根据故障标准,由于关联投诉达到 300 个用户,按照故障等级升为蓝;4、19:55 重启查询代理后,所有入账本的积压工单在 2 分钟内完成了入账本处理,充值未到

11、帐的问题得以恢复。处理后效果/遗留问题说明无 是否影响集团考核 否故障原因是否已在故障池内否运维故障评估故障根源系统 严重程度重大严重主要一般系统开发商 亚信配置管理 客户响应室需求管理 业务管理室缺陷管理 业务管理室架构管理 系统规划室统一权限配置 软件质量测试管理 开发管理室配置管理 计费帐务室需求管理 业务管理室缺陷管理 业务管理室架构管理 系统规划室统一产品配置 软件质量测试管理 开发管理室基础保障 系统优化室业支系统 系统规划室故障待改进点涉及科室应用优化室(运行异常)基础设施 系统能力(架构、容量)问 经分系统 经营分析室 浙江移动通信有限责任公司业务支撑中心浙江移动业务支撑中心

12、第 7 页题 信安系统 信息安全室需求管理 业务管理室缺陷管理 业务管理室架构管理 系统规划室业支系统测试管理 开发管理室经分系统 经营分析室信安系统 信息安全室软件质量电渠系统 客服中心电渠运维故障分析【原因分析】充值工单入账本 Am_ps_payment_fast_nnn 表积压,告警系统没有生成相应告警信息。1)告警监控管理【改进措施】规范执行 重复问题 历史遗留问题核实告警配置不完善,已经协调告警维护人员重新部署入账本的监控。【原因分析】2)高可用保障管理 【改进措施】规范执行 重复问题 历史遗留问题【原因分析】针对充值流程和各环节没有详细的分析,故障发生时维护人员对故障的定位不够准确

13、,延缓了故障处理时长。3)运维操作管理【改进措施】规范执行 重复问题 历史遗留问题梳理充值各环节的核查点,建立快速响应预案,能够及时处理故障。【原因分析】4)系统基础平台问题 【改进措施】规范执行 重复问题 历史遗留问题故障后续改进故障所属域(CRM/BOSS/渠道)优化需求编号 需求开发责任人 需求维护跟踪人优化需求告警调整版本号 告警调整任务单号 告警调整人告警监控核实告警配置 裴江华预案名称 新增/修改 预案编写人故障预案增加外围充值环节梳理 章清云优化分析报告名 新增/修改 报告撰写人高可用保障数据稽核任务 任务单号 稽核人数据稽核专题名称 专题需要的资源 专题发起人疑难问题 浙江移动通信有限责任公司业务支撑中心浙江移动业务支撑中心 第 8 页改进措施落实情况运维报告撰写人 唐艳芬 改进措施落实监督人 蒋健开发故障评估故障责任小组开发故障分析故障引入需求编号和名称故障影响范围故障原因综述故障详细分析及问题解决故障解决措施改进措施(问题避免)【原因分析】1)需求因素分析及改进 【改进措施】规范执行 重复问题 历史遗留问题【原因分析】2)系统设计因素分析及改进 【改进措施】规范执行 重复问题 历史遗留问题【原因分析】3)软件编码因素分析及改进 【改进措施】规范执行 重复问题 历史遗留问题【原因分析】4)自测因

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号