《信息中心事故报告.doc》由会员分享,可在线阅读,更多相关《信息中心事故报告.doc(3页珍藏版)》请在金锄头文库上搜索。
1、内部资料注意保存XXXX信息中心信息系统事故报告第 1 期信息中心 二一二年九月三日关于8月20、22日统一工作平台事故报告统一工作平台分别于2012年8月20日上午、8月22日下午出现两次不能登录的系统故障,故障持续时间分别为76分钟和27分钟。现将故障的原因及解决方案报告如下:一、故障描述2012年8月20日8:52分至10:08分,共76分钟,统一工作平台无法登录,登录页面不能打开。2012年8月22日14:38分至15:05分,共27分钟,统一工作平台无法登录,登录页面不能打开。二、故障分析两次故障发生的原因是由于数据库服务器操作系统内存耗尽导致。引起内存耗尽的原因是因为在2012年8
2、月15日晚为了数据库ORA-4030的报错调整了统一工作平台数据库内存参数,让数据库进程可使用的内存增加了14GB,但服务器的物理内存没有增加。此参数调整在评估时未能考虑到ORACLE数据库11.2版本存在bug 10190759,该Bug会导致数据库部分进程在繁忙时内存的占用是正常值的两倍以上。因此当8月20日上午、8月22日下午数据库因业务量增加而繁忙时,出现数据库所需要的内存超过服务器具有的物理内存,而引起内存耗尽,导致应用不可用。另,2012年8月20日在数据库出现故障时,统一工作平台的应用服务同时出现了WebSphere Deploy Manager(DM)的服务功能异常的情况,该异常以前没有出现过,导致分析和解决故障的时间较长。三、解决方案解决的措施是给统一工作平台数据库服务器增加了14GB物理内存,使服务器物理内存从56GB扩展到70GB,解决了数据库连接失败的问题,目前数据库服务器主机的内存使用率和数据库连接正常。四、改进措施1、后续数据库参数在调整前应充分讨论。2、加强监控告警,完善相关告警措施。3、提高统一工作平台系统管理员的维护技能,如遇到服务不能正常启动时,应将所有服务都先停止,然后再启动。