自动化运维管理平台设计

上传人:ni****g 文档编号:506758466 上传时间:2024-03-13 格式:DOCX 页数:19 大小:190.09KB
返回 下载 相关 举报
自动化运维管理平台设计_第1页
第1页 / 共19页
自动化运维管理平台设计_第2页
第2页 / 共19页
自动化运维管理平台设计_第3页
第3页 / 共19页
自动化运维管理平台设计_第4页
第4页 / 共19页
自动化运维管理平台设计_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《自动化运维管理平台设计》由会员分享,可在线阅读,更多相关《自动化运维管理平台设计(19页珍藏版)》请在金锄头文库上搜索。

1、m鹄学吧自动化运维管理平台设计-PI-M台矗吧1. 基础数据2. 监控模块,监控管理平台3. 灾备管理平台4. 安全模块,安全管理平台5. 自动化运维平台6. 虚拟化与私有云7. 运维管理页面台胡学吧本文主要对运维管理平台的这几个模块做一个简单介绍,同时综合了我们平常运维遇到过的一些问题,计划优先完成的模块。具体如下:运维管理平台模块建立顺序自副化1基础数据和监控优先做运维管理平台一般会有一个优先度,因为很少有公司有充足的运维开发人力一下子同时开展好几个模块。 按照优先级快速迭代,永远是解决IT与业务部门矛盾的银弹。本人一直也在纠结建立运维平台的模块的优 先级排序。经过三思还是决定首先完成基础

2、数据的收集,这里的收集的目的是为了接下来要完成的监控平 台的建立。说到底第一步是监控,前提是收集好基础数据。为什么要这样?首先建立起监控平台,实现主动监控我们的业务系统、服务器、网络的情况、出现问题, 从而可以第一时间收到告警,这样在面对IT故障的时候,可以在与业务部门沟通中占据优先权,而非等业 务投诉了,才知道系统出现故障。很多公司可能没有运维开发的能力,此时利用Excel管理基础数据,Zabbix or其它做监控,也是可以很 快构建出基础监控平台来监控IT系统。2灾备紧跟做好数据采集与监控之后,接下来就要考虑做全局备份。完整、可用的备份集是保障企业数据不丢或是最 少丢失的最后一道保障。如何

3、做好备份策略,备份集如何验证,都必须要提前做好准备和计划。2自动化运维与安全并行在完成了监控和灾备之后,运维的冗余工作量会得到一定的减少。接下来可以进行自动化的运维工作,例 如自动装机,自动部署服务,利用自动化运维将日常的重复工作让系统完成,大大解放运维的劳动力。让 运维可以有更多的时间和精力保障整个IT系统的安全、稳定和高效。要完成自动运维的搭建,或是在构思自动化运维平台时,有一个工作不得不做,那就是:运维标准化和运 维流程化。系统安装版本、JDK、Tomcat部署版本、位置等等,只要提前做好了标准化,才能利用自动 化运维工具完成运维的自动化。运维的流程化是指涉及到某一运维主题如应用发布每一

4、步该如何操作,涉及哪些运维节点,先后顺序等。 明确的运维流程,可以有条不紊地保障系统的更新和发布。规范化、流程化的运维操作可以减少运维过程 中的失误,也可以在出现问题的时候,迅速找到问题节点,迅速恢复。安全一直是一个相对忽略的话题。网络安全、系统安全、应用安全、数据库安全等,一旦任何一个节点出 现安全漏洞或是故障,都将会给系统带来毁灭性的灾难。安全并不是购买了商业设备之后,就可以高枕无 忧。不断学习,不断研究系统的漏洞,最大程度地结合自身的专业深度和安全设备,为整个IT系统筑一道 厚重的高墙。4虚拟化和私有云虚拟化和私有云的搭建的最大目的是为了节省公司的IT成本。当然也有很多其他优点,例如做虚

5、拟机层面 的热备,利用私有云服务快速地搭建需要的服务等。虚拟化和私有云是未来运维的一个方向,一定要把握 好时机。给老板省钱,便是跟老板要钱的最佳理由。5运维管理集成平台在完成了基础数据采集、CMDB建立、监控平台、灾备、运维自动化、虚拟化和私有云之后,我们需要一 套IT系统来集成各个模块,统一管理,这便是我们的运维管理平台。后面将围绕上面几个部分做一个简单的概述,简单概述之后,会陆续推出各个模块的建设心得,技术方案 和踩过的坑等,敬请期待。基础数据巧妇难为无米之炊,基础数据便是我们运维管理平台的米。基础数据方面主要分一下几个部分:1CMDBCMDB在这里更多是偏向IT设备管理,因为这样可以更快

6、地完成。与传统的CMDB不同,我们把配置管 理放在了自动运维模块了。这里的CMDB主要是将整个IT部门的硬件资源,已有系统,服务包括供应商 做一个管理,为以后的监控和自动化运维等提供基础数据。该平台CMDB的建设思路主要是以产品线和 项目为导向,具体顺序说明如下。一、产品线和项目首先是确定整个公司的IT产品线。以某航空公司为例,涉及到的系统有运行控制系统、飞行排班系统、机 务管理系统、B2C官网系统、呼叫中心系统等。经过分析判断,可以确定该公司主要分为两大产品主线,即:运行相关系统主线和运营相关主线。运行相 关涉及到运行控制、飞行排班、机务等各个项目系统;运营相关系统主要有呼叫中心、B2C等。

7、为了更好地理解产品线和项目的划分再举一个B2B电商的例子,步及到的有买卖家管理系统、订单系统、 支付系统、物流系统、对账系统等。可以大概分为销售产品线:买卖家管理、订单管理;财务产品线:支 付系统、对账系统;物流产品线:物流系统、第三方物流接口等。产品线的划分一定要站在公司的角度进行,可以结合公司的主要部门,和大产品群进行划分。产品线划分 好后,接下来就是梳理整个公司的所有项目,将每一个项目,按照所属产品线进行归类。二IT资产管理经过产品线划分和项目归类之后,可以一目了然地看到目前公司所有的IT系统。接下来根据每一个项目梳 理项目中涉及到的服务器或是虚拟机。然后还需要从另一个维度去梳理:每一台

8、服务器或是虚拟机上面部 署的项目,服务(数据库、Tomcat、WebLogic等)。经过这一步,可以明确每一个项目涉及哪些服务器或 是虚拟机,每一台服务器或虚拟机上又关联多少个项目,部署了多少服务。虚拟机在哪些宿主机,宿主机又分布在哪些物理机上,而这些物理机又部署在哪个机房的哪个机柜;网络 连接是怎样,上行和下行分别是什么,都需要进行梳理和完善,这样可以从硬件层面去关注每一个系统的 硬件关联。如果硬件或是网路出现任何问题,可以快速地清楚知道涉及到的系统和影响度。三、供应商管理每一个公司的IT设备或是系统基本都会有供应商公司的参与。集中统一管理这些供应商的信息,可以在系 统出现问题的时候紧急联系

9、供应商,进行协助解决。2生产数据库生产数据库作为基础数据的重要一环,为业务数据监控提供主要途径。我们在监控模块中有一个业务监控, 主要依赖业务数据库中的数据,根据业务逻辑进行数据比对,判断业务的实时性和准确性。一般在监控和备份的时候,数据库都会作为单独的一个主题进行(因为太重要)。在基础数据模块,将所 有的生产数据库信息进行集中采集,可以很方便地为以后的数据库监控和备份等运维工作提供操作对象参 考,以免遗漏。生产数据库一般按照数据库的类型(MySQL、Oracle、SQL Server等)进行分类管理。数据库的名称一般 即业务系统的名称,简单标识,见名知意。日志数据是IT系统的重要数据之一,可

10、以很好地反映系统的运行状况,系统出现问题的时候,可以通过反查日志进行查因、排故。一、系统日志系统日志主要是包括操作系统级别的日志,包括物理机、宿主机、虚拟机等部署有操作系统的系统日志。 一般主要关注以下几种日志:系统操作日志、安全日志、定时任务日志等。系统操作日志可以看到什么用户什么时间登录了哪台操作系统,做了什么操作等;安全日志可以判断系统 是否已遭受或是正在遭受攻击,是否有过危险操作等;定时任务日志可以看到部署在系统中的定时任务是 否按时准确地执行完成。系统日志主要反映系统级别的运行情况,一定要做好备份和分析的工作。二、应用日志应用日志一般分应用服务日志和业务操作日志。应用服务日志指如To

11、mcat、Nginx运行时候产生的日志 等,通过其可以看到应用服务运行的健康情况;业务操作日志主要是业务系统将部分业务操作或是业务错 误写到日志中,可能单独一个日志文件也可能集成到应用服务日志中。业务操作日志是进行业务审计,业 务监控的重要数据源。三、数据库日志这个不多说,数据库中的数据往往是企业的核心资产。数据库日志反映着数据库的每一步每一个事务的操 作,以及数据库运行的监控状况,进行日志监控和分析时,数据库日志是不可缺少的。四、设备日志设备日志往往是比较容易忽略的。但设备日志可以直观地反映出设备运行的状况,以及设备出现问题的时 候,可以通过日志快速准确地找到原因。如交换机日志、防火墙日志等

12、。通过防火墙日志可以看出系统是 否遭受攻击,交换机日志可以看到网络流量是否呈现陡增陡降等突发状况。实时监控和管理设备日志是日 志管理的重要工作之一。在基础数据中,我们单独设立知识库这样一个模块,主要包含事件库、问题库、经典案例库、解决方案库事件库主要是在运维工作中遇到的一些运维事件或是事故,在事件库中详细记录事件的原因和处理过程。 如果涉及到需求变更或是需要修改系统进行解决的,此时由事件库进入到问题库。问题库涉及到问题解决流程,问题解决的过程中,可能涉及到应用变更发布等。通过问题库的统计可以侧 面反馈系统的状况。经典案例库记录了解决经典问题的方式和方法。例如记录了防火墙故障,交换机故障时如何从

13、查找原因到 排故到解决的过程,以供解决类似故障处理参考。解决方案库主要存放一些经典的解决方案如Nginx+Tomcat+Redis的部署方案、MySQL的HA、Oracle 的RAC等等解决方案。以便在构建新的系统的时候可以快速地选择解决方案。基础数据为以后的运维工作做铺垫,基础数据的收集一定要全面,不能遗漏,否则就是以后运维的一个潜 在问题点。监控模块监控模块主要分为以下几个部分:1系统监控主要监控系统层面的健康状况如内存、CPU告警、硬盘存储不足等等,系统层面的监控可以快速反应系统问题,运维工程师可以提前处理可能出现的系统问题。通过进行网络监控,包括网络的正常性,是否联通,网络访问量是否陡

14、增陡降等,来监控和预防网络问题 带来的故障。台讒字吧3应用监控主要监控应用的可用性如Tomcat的端口、Ngi nx的端口、错误日志等等。应用出现问题导致应用不可用, 都可以通过应用监控及时发现。4数据库监控主要监控数据库的可用性,通过监控数据库状态,日志是否有警告错误,表空间等方面来监控数据库可用 与否。5业务数据监控通过业务数据监控以监控系统中是否含有业务逻辑错误的情况。例如:每一笔订单支付成功都应该有对应 的支付流水号和物流流水号。通过监控数据库中的数据,来观察是否已经生成支付流水和物流流水。6全链路监控通过全链路监控可以明确地看到业务操作的每一步正确与否。7第三方监控以上6种监控基本都

15、是从公司内部进行监控的,如果是公司级别的网络问题或是服务器大面积故障,可能 就难以通过内部监控得到信息,此时需要借第三方云监控进行协助监控,如监控宝、听云等产品。通过监控可以主动及时地得到系统的故障信息,在与业务部门的沟通中,化被动告知为主动监控,也为解 决故障赢得宝贵的时间,这样可以把影响范围和影响时间降至最低。灾备管理平台灾备管理平台两地三中心实时延迟备份DBM虚拟机备份备份方案验证应急预案管理灾备管理,有条件的话可以两地三中心,即同城实时,异地延迟备份。注意一定不能全部都是实时备份, 否则在出现问题的时候,尤其是数据篡改实时同步到备份端的话,也将是错误的数据。所以一定要有实时 和延迟的策略。另外备份层面可以分数据库备份、文件备份(如应用程序包等)、虚拟机备份和存储级别的 备份。有备份就一定要有验证,而且验证要持续不间断,有计划地实施。只要通过验证可用的备份集才能保障系 统的可用性。在灾备管理模块存储各种系统的应急预案,这样在出现灾难性故障的时候,可以迅

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号