虚拟机日常维护手册

上传人:公**** 文档编号:557602268 上传时间:2023-07-06 格式:DOC 页数:16 大小:447KB
返回 下载 相关 举报
虚拟机日常维护手册_第1页
第1页 / 共16页
虚拟机日常维护手册_第2页
第2页 / 共16页
虚拟机日常维护手册_第3页
第3页 / 共16页
虚拟机日常维护手册_第4页
第4页 / 共16页
虚拟机日常维护手册_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《虚拟机日常维护手册》由会员分享,可在线阅读,更多相关《虚拟机日常维护手册(16页珍藏版)》请在金锄头文库上搜索。

1、.虚拟机日常维护手册1 目的为提高处理虚拟化服务器故障的能力,形成科学、有效、反应迅速的日常管理流程和应急处理机制,确保虚拟化平台的安全和稳定运行,最大限度地减小服务器故障对生产的影响,降低业务中断风险,特制定本手册。2 故障处理规范2.1 硬件维护平台服务器出现硬件告警需要停机维护,服务器责任人应立即通知相关人员,将业务虚机迁移到集群中其他服务器主机上,再将故障服务器切换至维护模式并从HA 集群中移除, 负责陪同硬件厂家现场更换至成功恢复。2.2 虚拟化平台故障发生平台故障后, 相关人员应及时查找、确定故障原因,进行先期处置。若故障在短时间内无法修复,相关人员应将业务迁移到备用平台环境中,保

2、持业务系统的正常运行;将故障服务器脱离网络,进行故障排除工作,并及时联系相关人员或厂商协助解决。.2.3 虚拟机软件系统故障(1)日常做好虚拟机的定时备份和快照,系统崩溃后,应能够及时恢复虚拟机。(2)发生虚拟机系统故障后, 相关人员应及时通知业务人员检查出现故障的原因并尽快排除。(3)如遇虚拟机系统需要启用备份系统进行恢复时,应在恢复后和业务管理员仔细检查业务是否恢复并做好恢复记录。2.4 虚拟化平台日常告警故障排除当虚拟化平台出现告警信息,通过以下步骤排除:(1)确定故障原因。查看已触发的警报内容, 确定故障前操作是否是引发该故障的原因, 对合规操作引起的告警, 进行消除。(2)对提示硬件

3、产生的告警, 应查看硬件状态信息, 对确认是硬件的问题按硬件维护预案处理。.( 3) 对提示因资源不足或性能引发的告警,因查看近期性能图表,找出原因,消除故障提示。(4)对于无法判断的故障,可导出系统日志发给厂家分析处理.3 虚拟化平台故障预防3.1 虚拟机实时状态备份在对虚拟机进行调整配制前,做快照,以防配置虚拟机后出现故障,如无问题, 可删除虚拟机快照,另外也可利用快照最为一种备份的方式,定期做虚拟机快照,当出现问题时,可恢复到最近的快照状态。6 虚拟化平台故障恢复虚拟化平台系统出现故障, 先对问题进行定位,按前述预案处理,若故障依然存在,通过以下步骤恢复:(1)用快照进行虚拟机恢复。 如

4、果虚拟机中包括数据库和实时状态信息,要在恢复后进行必要的数据库文件恢复,并还原系统实时状.态。(2)用 NBU 从备份系统中进行系统还原,还原后进行必要的状态信息检查( 3 )虚拟化操作系统恢复,通过重新安装虚拟化操作系统vsphere 还原底层平台,并重新部署到群集系统中。摘要:有时, VMware 管理员如走过场一样执行 日常维护 任务。他们做 X、检查 Y 然后把把 Z 的脉搏。但是很重要的一点是要弄明白这么做的目的。维护 工作不仅仅是要维持系统在线,它同样保证您可以从现有投资中获得最大收益。虽然ESX、 vSphere 、 vCenter 和 Workstation 都是成熟 和稳定的

5、虚拟化技术,但是它们依然需要进行 日常维护 。花费一些时间去了解您的架构,然后制定VMware 维护计划以满足您的SLA( service levelagreement )级别并尽量减少工作压力。下面的纲要中包含了一些最佳实践,但是每个虚拟化架构各有不同,您需要选择最适合的方式。VMware 维护 工作根据频率可以大致分解为:每天、每周和每月。VMware日常维护工作我每天要进行的维护 工作如下:. 查看报警邮件。邮箱监控是一种持续的、被动的、而且一旦正确设置后不需花费很多精力的监控方式。 当您逐渐熟悉系统架构后, 还可以区分出警报的不同类型, 识别哪些是紧急的需要立即处理,哪些是需要逐步去改

6、变的。假设某个特定的数据库在每天的固定时间发送 CPU 占用率过高的警报,那么最好调节一下报警设置的条件 和频率。不要忘了狼来了 的故事,避免因为过多无关紧要的警报而忽略了那些关键问题。 巡视服务器所在的房间。虽然我也设置了警报,但通过对主机所在的房间进行一次快速的巡视我可以马上判断出发生了什么,这非常有用, 尤其是忽略了某个警报的时候可以补救。所有的风扇都在运行吗?是否出现内存差错?SAN 系统中的磁盘驱动器正常吗?通过观察硬件上的指示灯我可以获得基本的状态信息。我还会快速检查一下不间断电源的供电电压,以及现在的运行时间。知道了这些, 一旦发生灾难, 我可以知道有多少时间可用来关闭设备。除了

7、这些快速观察外,我还经常使用HP 公司在宿主机上集成的Lights-Out端口来检测硬件状态 和温度,尤其在没有物理登陆宿主机或SAN 的时候,这么做非常有必要。 环视一圈vCenter/VirtualCenter。我会执行所有还未完成的任务,瞥一眼ESX主机的性能然后感受一下各个组件是否正常。当您对系统每天的性能表现足够熟悉的时候,就很容易看出问题。 相信我, 无论系统看起来多么协调,在某些时候都会出现问题。这个过程如同您很熟悉自己在静止时的心跳,同时还需要通过跑步机或骑自行车来定期检验一下。VMware每周维护工作每周我会执行如下动作: 备份 vCenter/VirtualCenter数据

8、库。我的现有系统变化不太频繁,因此一周执行一次数据库清理 和管理 服务器的全备份就可以了。如果您的系统处于不断地动态变化中,可以频率高一些。依然要强调那个老问题:如果您希望将来可以重建,拥有数据库的备份很重要。VMware每月维护工作每月我们进行如下的管理 行为:. 清理存储。如果存在过期的快照,最好尽快清理掉。如果无法确定是否存在,可以通过 VMware SiteSurvey 查看。 检查服务协议。您是否已经升级了售后服务?到了做新的预算来购买所需支持服务的时候了吗? 预想将来要做的升级。目前为止,所有的工作都在围绕保持系统正常工作上。让我们向后一步,闭上眼睛不妨从相反的角度来考虑:您希望系

9、统如何工作 ?怎样可以改善业务?然后找出一条正确的路来实现。 这听起来像在做白日梦, 不过或许这会成为您一天中最高效的一段时间。31、为主机应用 Host Profiles 提示 compliance 错误故障状态:为主机应用Host Profiles 失败,提示如下错误:01.Specification state absent from host: device state needs to be set to on02.Host state doesnt match specification: device needs to be reset03.Specification state

10、 absent from host: device Path Selection Policy needs to be set to VMW_PSP_FIXED04.Host state doesnt match specification: device Path Selection Policy needs to be set to default for claiming SATP故障分析:这是由于 PSA 组件导致的;解决方案:1、右击 Host Profiles 后点击 Enable/Disable Profiles配置选项;2、展开“Storage Configuration”选项

11、,展开“Pluggable Storage Architecture”这个uxanxiang ;3、去掉“PSA Device Configuration”;4、展开“Native Muti-Pathing(NMP)”这个选项后,接着展开“PSP and SATP configuration forNMP devi ”选项;5、去掉“PSP configuration for ”这个选项后点击 OK 即可。.33、分析、解决 IOPS 导致的虚拟机 / 存储性能下降和虚拟机磁盘延时较大的问题故障状态:1、虚拟机性能较低;2、在执行备份时磁盘延时很厉害;3、虚拟磁盘vmdk 延时较大;故障分析:这种问题基本都是由于虚拟机没有足够的IO Per Second ( IOPS),或者IOPS 低于 30;解决方案:在解决问题前,首先要解决以下两个问题:问题 1:什么是IOPS?IOPS 全称为 Input/Output Per Second,它是衡量一个磁盘(虚拟磁盘和物理磁盘)、存储的基本也是十分重要的标准。不同的磁盘、存储有着不同的IOPS。IOPS 的高低直接会影响着系统的性能。当前,VMwar

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 演讲稿/致辞

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号