rac故障分析与处理

上传人:第*** 文档编号:90667961 上传时间:2019-06-14 格式:PDF 页数:43 大小:1MB
返回 下载 相关 举报
rac故障分析与处理_第1页
第1页 / 共43页
rac故障分析与处理_第2页
第2页 / 共43页
rac故障分析与处理_第3页
第3页 / 共43页
rac故障分析与处理_第4页
第4页 / 共43页
rac故障分析与处理_第5页
第5页 / 共43页
点击查看更多>>
资源描述

《rac故障分析与处理》由会员分享,可在线阅读,更多相关《rac故障分析与处理(43页珍藏版)》请在金锄头文库上搜索。

1、DATAGURU专业数据分析网站 2013.2.28 Oracle高可用 第五课-RAC故障分析和处理 2DATAGURU专业数据分析网站 2013.2.28 法律声明 【声明】本视频和幻灯片为炼数成金网络课程的教 学资料,所有资料只能在课程内使用,不得在课 程以外范围散播,违者将可能被追究法律和经济 责任。 课程详情访问炼数成金培训网站 http:/ 2013- 7-14 DATAGURU专业数据分析网站 2013.2.28 RAC的故障定位 比单节点数据库更复杂 相关的进程更多 日志的存储位置更多 日志的信息量更大 故障更复杂 2013- 7-14 DATAGURU专业数据分析网站 201

2、3.2.28 从日志开始 操作系统日志 windows -日志管理器 linux-/var/log/messages 2013- 7-14 DATAGURU专业数据分析网站 2013.2.28 实例的日志 $ORACLE_HOME log racgclient racgimonracgmainracgeut racgmdb CRS在管理数据库时的trace信息,当用srvctl管理数据库(实例,监听器,ASM.)时, 会产生相应的trace信息。 2013- 7-14 DATAGURU专业数据分析网站 2013.2.28 CRS的日志 $ORA_CRS_HOME log crsdcssdevm

3、dracgclientalert.log racgimonracgmainracgeut 2013- 7-14 DATAGURU专业数据分析网站 2013.2.28 $ORA_CRS_HOME/log CRS用于故障诊断的信息日志 $ORA_CRS_HOME/log/hostname/crsd $ORA_CRS_HOME/log/hostname/client $ORA_CRS_HOME/log/hostname/cssd $ORA_CRS_HOME/log/hostname/evmd CRS home/log/hostname/racg 2013- 7-14 DATAGURU专业数据分析网站

4、 2013.2.28 RAC的日志 Cluster Ready Services Daemon (crsd) trace文件 CRS home/log/hostname/crsd 2013- 7-14 DATAGURU专业数据分析网站 2013.2.28 RAC的日志 Cluster Synchronization Services (CSS) trace文件 CRS Home/log/hostname/cssd 2013- 7-14 DATAGURU专业数据分析网站 2013.2.28 RAC的日志 Event Manager (EVM) trace文件 CRS Home/log/hostn

5、ame/evmd 2013- 7-14 DATAGURU专业数据分析网站 2013.2.28 RAC的日志 Oracle Cluster Registry (OCR) trace文件 CRS Home/log/hostname/client 2013- 7-14 DATAGURU专业数据分析网站 2013.2.28 RAC的日志 RACG trace文件 CRS home/log/hostname/racg $ORACLE_HOME/log/hostname/racg 2013- 7-14 DATAGURU专业数据分析网站 2013.2.28 CRS进程的log信息 $ORA_CRS_HOME

6、/crs/log $ORA_CRS_HOME/crs/init $ORA_CRS_HOME/css/log $ORA_CRS_HOME/css/init $ORA_CRS_HOME/evm/log $ORA_CRS_HOME/evm/init $ORA_CRS_HOME/srvm/log CRS资源的运行日志信息 2013- 7-14 DATAGURU专业数据分析网站 2013.2.28 CRS进程的log信息 $ORA_CRS_HOME/crs/log CRS资源的运行信息。 2013- 7-14 DATAGURU专业数据分析网站 2013.2.28 CRS进程的log信息 $ORA_CRS

7、_HOME/crs/init CRS进程启动时的相关信息。 2013- 7-14 DATAGURU专业数据分析网站 2013.2.28 CRS进程的log信息 $ORA_CRS_HOME/css/log CSS守护进程信息。 2013- 7-14 DATAGURU专业数据分析网站 2013.2.28 CRS进程的log信息 $ORA_CRS_HOME/css/init CSS的初始化信息 (OCSD)。 2013- 7-14 DATAGURU专业数据分析网站 2013.2.28 CRS进程的log信息 $ORA_CRS_HOME/evm/log evm守护进程信息。 2013- 7-14 DA

8、TAGURU专业数据分析网站 2013.2.28 CRS进程的log信息 $ORA_CRS_HOME/evm/init EVM初始化信息 2013- 7-14 DATAGURU专业数据分析网站 2013.2.28 CRS进程的log信息 $ORA_CRS_HOME/srvm/log Oracle Cluster Registry (OCR)日志信息。 2013- 7-14 DATAGURU专业数据分析网站 2013.2.28 RAC的故障分析 问题发生在哪个层次: Oracle Clusterware部分 CRS daemon CSS daemon HangCheckTimer Linux /

9、 Oprocd (Linux:10.2.0.4,Unix) EVM OCR Voting Disk RAC数据库部分 操作系统部分 硬件部分 2013- 7-14 DATAGURU专业数据分析网站 2013.2.28 RAC的故障分析 节点重启 导致节点重启的进程 CSSD 重起节点 OPROCD 重起节点 OS 重起节点 节点重启的可能原因 Vote disk 丢失或损坏 Interconnect 故障 修改节点时间 CPU 负载过高 2013- 7-14 DATAGURU专业数据分析网站 2013.2.28 RAC的故障分析 判断是那个进程引起的重起 根据问题发生的时间,将该时间点前后发生

10、的事件按顺序整理好,理清因果关系 检查OS log, cssd log, oprocd log 分析OS crash dump 文件 进一步分析相关日志 OS log cssd log, Core file stack OPROCD log 了解当时数据库状态 ASM, DB alert log RDA 2013- 7-14 DATAGURU专业数据分析网站 2013.2.28 RAC的故障分析 OCR磁盘故障分析 RAC网卡故障分析 RAC故障分析-网 卡问题.txt RAC故障分析-OC R磁盘故障.txt 2013- 7-14 DATAGURU专业数据分析网站 2013.2.28 RAC

11、的脑裂问题-EVICTION 当由于网络问题,RAC的节点间无法进行通信时,出现脑裂问题,RAC必须通过驱逐其中的一部分节 点来保护数据的一致性,被驱逐的节点将被强制重启。 当节点间无法探知对方的网络心跳时,必须通过voting disk来决定驱逐那个节点。 脑裂问题可能出现在2个层面 集群层 实例层 2013- 7-14 DATAGURU专业数据分析网站 2013.2.28 RAC的脑裂问题-EVICTION 集群层脑裂问题的处理方法 包含更多节点的集群保留下来,包含少节点的集训将被从集群中驱逐。 如果形成脑裂的2个集群包含相同的节点,节点号小的集群被好留,节点号大的被驱逐。 当由于由于负载

12、问题导致驱逐发生时,Oracle选择负载低的节点保留。 2013- 7-14 DATAGURU专业数据分析网站 2013.2.28 RAC的脑裂问题-EVICTION 数据库层的脑裂问题 为了保证数据的一致性,每个实例需要和其它实例通过网络心跳探知对方的健康情况,后台进 程LMON,LMD,LMS或者LCK都会探知其它实例的运行状态,如果出现请求超时,也会进入脑裂状 态,此时实例会使用控制文件来代替voting disk来决定其它实例的状态。 2013- 7-14 DATAGURU专业数据分析网站 2013.2.28 2013- 7-14 DATAGURU专业数据分析网站 2013.2.28

13、脑裂问题-brain spit 2013- 7-14 DATAGURU专业数据分析网站 2013.2.28 脑裂问题-brain spit 2013- 7-14 DATAGURU专业数据分析网站 2013.2.28 RAC的故障分析 故障诊断- 2节点RAC的Node 2重启 1 检查节点2 的OS messages /var/log/messages Feb 1 21:20:01 rac2 logger: Oracle CSSD failure 134. Feb 1 21:20:01 rac2 logger: Oracle CRS failure. Rebooting for cluster

14、 integrity. Feb 1 21:20:07 rac2 logger: Oracle clsomon failed with fatal status 12. Feb 1 21:20:08 rac2 logger: Oracle CRS failure. Rebooting for cluster integrity. Feb 1 21:22:26 rac2 syslogd 1.4.1: restart. 蛙玉2 圭天罪21:22:26 闲运闲运剑CSSD 持隐 2013- 7-14 DATAGURU专业数据分析网站 2013.2.28 RAC的故障分析 检查节点2的cssd日志 CS

15、SD2009-02-01 21:19:46.093 3039271824 WARNING: clssnmPollingThread: node rac1 (1) at 50% heartbeat fatal, eviction in 14.530 seconds . CSSD2009-02-01 21:19:58.089 3039271824 WARNING: clssnmPollingThread: node rac1 (1) at 90% heartbeat fatal, eviction in 2.530 seconds CSSD2009-02-01 21:19:59.090 30392

16、71824 WARNING: clssnmPollingThread: node rac1 (1) at 90% heartbeat fatal, eviction in 1.530 seconds . CSSD2009-02-01 21:20:00.627 3018292112 TRACE: clssnmCheckDskInfo: no de(1) mode(0) SYNC_MASTER, state 5 CSSD2009-02-01 21:20 :00.627 30182921 12 TRACE: clssnmCheckDskInfo: node has active disk heartbeat CSSD2009

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号