red_hat高可用集群原理、构建与排错

上传人:ji****en 文档编号:107706289 上传时间:2019-10-20 格式:PDF 页数:37 大小:1.39MB
返回 下载 相关 举报
red_hat高可用集群原理、构建与排错_第1页
第1页 / 共37页
red_hat高可用集群原理、构建与排错_第2页
第2页 / 共37页
red_hat高可用集群原理、构建与排错_第3页
第3页 / 共37页
red_hat高可用集群原理、构建与排错_第4页
第4页 / 共37页
red_hat高可用集群原理、构建与排错_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《red_hat高可用集群原理、构建与排错》由会员分享,可在线阅读,更多相关《red_hat高可用集群原理、构建与排错(37页珍藏版)》请在金锄头文库上搜索。

1、Red Hat High Available ClusterRed Hat High Available Cluster 集群原理、构建与排错 王基立 提纲提纲 ? R d H t集群套件(RHCS)简介? Red Hat集群套件(RHCS)简介 ? Red Hat高可用性集群(HA)简介 ? Red Hat高可用性集群工作原理与软硬件组成部分? Red Hat高可用性集群工作原理与软硬件组成部分 ? Red Hat高可用性集群的部署结构 ? Red Hat高可用性集群的构建方法? Red Hat高可用性集群的构建方法 ? 集群环境中辅助判断机制Quorum Disk用法 ? 集群环境中双机互

2、备的使用? 集群环境中双机互备的使用 ? 集群环境中逻辑卷的使用 ? 集群环境中NFS的使用集群环境中的使用 ? 集群环境中GFS的使用 ? 常见的集群错误与排除方法 什么是RHCS ? Linux Virtual Server(LVS)运行于主/备调度服务器上,提供基 于IP等多种负载均衡算法的集群软件;于IP等多种负载均衡算法的集群软件; ? Global File System(GFS)提供专用于集群并允许多台节点并 发访问的文件系统;发访问的文件系统; ? Cluster Logical Volume Manager(CLVM)提供基于逻辑卷存储 的逻辑卷管理工具; Gl b l N

3、tk Blk Di(GNBD)GFS的辅助组件之一,? Global Network Block Device(GNBD)GFS的辅助组件之一, 用于通过网络对存储进行规划和访问; 使用RHCS和RHGFS获得支持的条件使用和获得支持的条件 ? RHEL4: ? Red Hat Enterprise Linux 4 (AS/ES)x 2 ? Red Hat Cluster Suite x 2? Red Hat Cluster Suite x 2 ? Red Hat GFS x 2 (Option) ? RHEL5:? RHEL5: ? Red Hat Enterprise Linux 5 AP

4、 x 2 ? RHEL6:? RHEL6: ? Red Hat Enterprise Linux 6 x 2 ? High Availability (add on) x 2 ? Resilient Storage (add on) x 2 高可用集群的软件组成:高可用集群的软件组成 ? CCSCluster Configuration System ? 維護和管理集群配置文件,包括配置文件更改、升級以及在集群節點中相互分發。 ? CMANCluster management manages cluster quorum and cluster membership ? 運行在每個節點上的分布

5、式集群管理系統; ? 通过心跳跟蹤集群中的quorum狀態;? 通过心跳跟蹤集群中的quorum狀態; ? 管理、控制和通知集群中其他组件工作的动作; ? DLMDistributed Lock Management ? 運行在每個節點上的鎖管理機制; ? 实现集群中節點對共享文件系統的安全訪問; ? 為集群中的邏輯卷管理以及GFS提供鎖服務以及数据更新通知; ? Fencing Scripts & Fencing Agents電源管理機制 ? 对各种不同类型电源管理设备的调用? 对各种不同类型电源管理设备的调用; ? CMAN ? Fenced ? Fence Agent ? Service

6、 Failover ? RGMANAGERHigh-availability Service Management ? 建立和接管基於Cluster上的服務与资源及实现服务快速切换;? 建立和接管基於Cluster上的服務与资源及实现服务快速切换; ? Quorum Disk集群环境中通过磁盘计分来工作的辅助集群判断机制; ? CLVM集群环境中逻辑卷管理组件; 高可用集群的硬件需求 两个或者两个以上的集群节点? 两个或者两个以上的集群节点; ? Fence 设备 ?电源管理或者存储链路管理; ? Power Switch ? WTI ? Integrated Fence ? ILO,IPMI

7、,RSA,DRAC ? SCSI Channel Fence? SCSI Channel Fence ? Virtual Machine Fence (fence_xvm, fence_virsh) ? 网络交换机(无防火墙影响,无其他网络协议影响)网络交换机(无防火墙影响,无其他网络协议影响) ? 共享存储(可选) Red Hat HA 工作原理及软硬件组成Red Hat HA 工作原理及软硬件组成 工作原理流程:工作原理流程: ? Active/Backup模式 ? 产生并检查统一配置文件:cluster.conf ? 通过组播或者广播传递Heartbeat或totem :? Quorat

8、e:Votes=1/2 total votes ? 启动服务管理器rgmanager并控制用户服务 ? cman于整个集群运行中进行核心控制和监 测 意外处理: ? 失效判断: ?心跳失效和服务失效; ?心跳失效会启用fence,服务失效 仅切换服务;?心跳失效会启用fence,服务失效 仅切换服务; ?服务组中的资源失效会导致服务重启或切换; ? 电源管理: ?仅当心跳或者DLM出错时触发; ?电源管理指令由cman通过投票发出; ? 防止脑裂:? 防止脑裂: ?由正常工作的fence设备保障; ?务必确保fence设备工作正常; ? 服务接管: ?确认A关闭服务才会在B启动服务; ?Fen

9、ce不成功的情况下无法保证服务正常切换;?Fence不成功的情况下无法保证服务正常切换; Red Hat高可用性集群的部署结构Red Hat高可用性集群的部署结构 什么确的拓扑结构? 什么正确的拓扑结构? ? 集中式电源管理设备的使用场景: ? 服务器内置电源管理设备的使用场景? 服务器内置电源管理设备的使用场景: ? 单一心跳和bonding的使用: ? 什么是错误的拓扑结构? 什么是错误的拓扑结构? ? 心跳线直连的使用: ? 错误的fence设备连接:? 错误的fence设备连接: ? 可能出现的错误的心跳连接 正确的连接拓扑结构:正确的连接拓扑结构 错误的连接拓扑结构:错误的连接拓扑结

10、构: 部署和构建的步骤:部署和构建的步骤: 操作系统基本环境要求:? 操作系统基本环境要求: ?网络/主机名称(/etc/hosts): ?确认无防火墙影响/使用的kernel(XEN or SMP/PAE): ?所需安装包: ?RHEL4:ccs,cman,dlm,fence,rgmanager, cman-kernel,dlm-kernel,modcluster, tfiltsystem-config-cluster ?RHEL5:cman,modcluster,rgmanager, openais,system-config-clusteropenais,system config cl

11、uster ?Options:gfs,gfs-utils,kmod-gfs,lvm2-cluster 图形配置工具:system-config-clusteryg 最终产生的结果cluster conf:最终产生的结果cluster.conf: 的文件内容? /etc/cluster/cluster.conf的文件内容: _ ? 确保将 ltf同步到其他节点()? 确保将cluster.conf同步到其他节点(scp): 启动服务的方式:启动服务的方式: 启动服务和查看状态的方法:启动服务和查看状态的方法: 启动/关闭服务和查看状态的方法启动/关闭服务和查看状态的方法 ? 启动服务和测试的方法

12、? 启动服务和测试的方法: ? 启动服务的顺序: ? # service cman start ? # service rgmanager start ? # service clvmd start ? # service qdiskd start? # service qdiskd start ? # service gfs start ? 设置和检测服务自启动: ? # chkconfiglevel 345 on? # chkconfig -level 345 on ? # chkconfig -list ? 查看服务状态的方法: ? # clustat -l ? # cman_tool

13、status ? # ip addr list 启动/关闭服务和查看状态的方法启动/关闭服务和查看状态的方法 关闭 切换服务的方法? 关闭/切换服务的方法: ? 关闭服务的顺序: ? # clusvcadm d? # clusvcadm -d ? # rgmanager stop ? # service gfs stop ? # fence_tool leave -f ? # service qdiskd stop ? # service cman stop# service cman stop ? 切换服务的方法: ? # clusvcadm -r ? # clusvcadm -e 常用的工

14、具:常用的工具: l h? 用于在线更新集群配置以及相关操作? ccs_tool -h? 用于在线更新集群配置以及相关操作 ? cman_tool -h ? 集群在线管理工具 ? fence xxx -h ? fence agent,用于控制不同的fence设备工作? fence_xxx -h ? fence agent,用于控制不同的fence设备工作 ? fence_node -h ? 通过cluster.conf调用fence agent的工具 ? clusvcadm -h ? 用户服务控制工具 Quorum Disk的作用和用法Quorum Disk的作用和用法 ? Quorum di

15、sk ? qdisk ? 集群环境当中的辅助判断机制; ? 作用一:节点数最大化(多节点集群)? 作用:节点数最大化(多节点集群) ? 作用二:辅助cman进行判断 ? 应用场景:多节点集群和具有稳定参照的环境 节点集群建不使用? 双节点集群建议不使用qdisk ? Quorum disk 配置举例 = quorum ? Q:如何计算total votes? ? A:cluster中所有节点的票数,含节点票数和qdisk票数 ? Q:如何计算expect votes? 中默? A:可在cluster.conf中指定,默认为节点票数而不含qdisk票数 ? Q:如何计算quorum? ? A:q

16、uorum_1=(expect votes +2)/2 2 (t t lt+2)/2quorum_2=(total votes +2)/2 quorum=max(quorum_1,quorum2) 即quorum相当于quorum_1和quorum_2中的最大值 ? Q:集群中qdisk状态异常会导致什么现象?? Q:集群中qdisk状态异常会导致什么现象? ? A:* cman正常情况下若仅某个节点更新qdisk失败,该节点将退出并自动重启 * cman正常情况下若因存储导致整个qdisk失败,所有节点都可能退出集群并 可能导致inquorate状态出现可能导致inquorate状态出现 Quorum Disk的作用和用法Quorum Disk的作用和用法 的使用方法和注意事项? Quorum disk的使用方法和注意事项: ? /etc/cluster.conf中quorum disk部分的配置; ? 开启 di kd守护进程? 开启qdiskd守护进程; ? 使用qdisk的一些注意事项: ? 是否拥有稳定的参照与判断标准

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 电子/通信 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号