建设DevOps统一运维监控平台

上传人:鲁** 文档编号:491323925 上传时间:2023-08-21 格式:DOCX 页数:7 大小:16.29KB
返回 下载 相关 举报
建设DevOps统一运维监控平台_第1页
第1页 / 共7页
建设DevOps统一运维监控平台_第2页
第2页 / 共7页
建设DevOps统一运维监控平台_第3页
第3页 / 共7页
建设DevOps统一运维监控平台_第4页
第4页 / 共7页
建设DevOps统一运维监控平台_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《建设DevOps统一运维监控平台》由会员分享,可在线阅读,更多相关《建设DevOps统一运维监控平台(7页珍藏版)》请在金锄头文库上搜索。

1、日期:2017-03-14 17:20 浏览:100 评论:04 -刖言随着Devops、云计算、微服务、容器等理念的逐步落地和大力发展,机器越来越多,应用 越来越多,服务越来越微,应用运行基础环境越来多样化,容器、虚拟机、物理机不一而足。 面对动辄几百上千个虚拟机、容器,数十种要监控的对象,现有的监控系统还能否支撑的住? 来自于容器、虚拟机、物理机、网络设备、中间件的指标数据如何采用同一套方案快速、完 整的收集和分析告警?怎样的架构、技术方案才更适合如此庞大繁杂的监控需求呢?目录:一、统一监控平台架构解析二、系统监控的技术栈三、开源系统监控软件 Zabbix VS Nagios VS Ope

2、n-Falcon四、基于k8s容器云背景下的系统监控实践:cAdvisor+Heapster+Influxdb五、容器时代的监控利器:Prometheus一、统一监控平台架构解析先做一下回顾,统一监控平台由七大角色构成:监控源、数据采集、数据存储、数据分析、 数据展现、预警中心、CMDB(企业软硬件资产管理)。监控源:从层次上来分,大致可以分为三层,业务应用层、中间件层、基础设施层。业务应用层主要 包括应用软件、企业消息总线等,中间件层包括数据库、缓存、配置中心、等各种系统软件, 基础设施层主要有物理机、虚拟机、容器、网络设备、存储设备等等。数据采集:数据源如此多样,数据采集的任务自然轻松不了

3、。数据采集从指标上划分可以分为业务指标、 应用指标、系统软件监控指标、系统指标。应用监控指标如:可用性、异常、吞吐量、响应 时间、当前等待笔数、资源占用率、请求量、日志大小、性能、队列深度、线程数、服务调 用次数、访问量、服务可用性等,业务监控指标如大额流水、流水区域、流水明细、请求笔 数、响应时间、响应笔数等,系统监控指标如:CPU负载、内存负载、磁盘负载、网络IO、 磁盘IO、tcp连接数、进程数等。从采集方式来说通常可以分为接口采集、客户端agent采集、通过网络协议主动抓取(http、 snmp 等)数据存储:采集到的数据一般都会存储到文件系统(如HDFS)、索引系统(如elastic

4、search)、指标 库(如influxdb)、消息队列(如kafka,做消息临时存储或者缓冲)、数据库(如mysql) 数据分析:针对采集到的数据,进行数据的处理。处理分两类:实时处理和批处理。技术包括Map/Reduce 计算、全日志检索、流式计算、指标计算等,重点是根据不同的场景需求选择不同的计算方 式。数据展现:将处理的结果进行图表展现,在多屏时代,跨设备的支持必不可少。预警:如果在数据处理过程发现了问题,则需要进行异常的分析、风险的预估以及事件的触发或告 警。CMDB(企业软硬件资产管理):CMDB在统一监控平台中是很重要的一环,监控源虽然种类繁多,但是他们大都有着关系, 如应用运行

5、在运行环境中,应用的正常运行又依赖网络和存储设备,一个应用也会依赖于其 他的应用(业务依赖),一旦其中任何一个环节出了问题,都会导致应用的不可用CMDB 除了存储软硬件资产外,还要存储这样一份资产间的关联关系,一个资产发生了故障,要能 根据这个关系迅速得知哪些其他的资产会被影响,然后逐一解决问题。OK,回顾到此为止,进入正题,系统监控。二、系统监控的技术栈系统监控的部分技术栈如下图所示,监控技术众多,这里自然不可能列出所有的技术,选择 了部分比较经典、受欢迎的开源技术。系统监控不同于日志监控,有很多开源软件把数据库采集、数据存储、数据展现、事件告警 的任务都完成了,所以对于系统监控的技术栈中,

6、将这些开源软件暂且排除,待后面章节再 进行讲解。此处主要关注于如何自建一个统一系统监控平台。数据采集:系统监控数据采集一般分为两种方式:主动采集、客户端采集。主动采集一般是通过SNMP、 SSH、Telnet、IPMI、JMX等手段进行远程采集,客户端采集则是需要在每一个要监控的主 机中部署一个客户端进行数据采集并发送到远程服务端进行接收。数据缓冲: 和日志监控一样,在面临海量监控时,考虑到网络的压力和数据处理的瓶颈,可以在数据存 储前先经过一层数据缓冲,将采集到的数据先放置到消息队列中,然后再从分布式队列中读 取数据并存储。如果数据量不大的话,则可以不考虑此层。数据存储:对于系统监控数据,通

7、常采用时序数据库来存储,时序数据库全称为时间序列数据库。时间 序列数据库主要用于指处理带时间标签(按照时间的顺序变化,即时间序列化)的数据,带 时间标签的数据也称为时间序列数据。如influxdb和opentsdb,是其中翘楚。OpenTSDB是用hbase存储所有的时序(无须采样)来构建的一个分布式、可伸缩的时间序 列数据库,可以从大规模的集群(包括集群中的网络设备、操作系统、应用程序)中获取相 应的metrics并进行存储、索引以及服务,从而使得这些数据更容易让人理解,如web化, 图形化等。用JAVA语言实现,对于JAVA系的同学们是一个福音,不过其依赖hbase也许会 让一部分同学望而

8、却步,毕竟还要先去维护hbase。Influxdb是新兴的一个时序数据库,用go语言编写,无需外部依赖,发展很快,最新版本 已经到了。提供类sql的查询语法,安装方便,单点即可使用,虽然有集群的能力,不过该 特性是非开源的(不过单点性能基本也都能满足企业需求了)。提供Http API,便于调用 和封装。对于想基于influxdb自行进行数据处理和展现的同学们而言很是友好。数据展现:说到时序数据的图形化展现,Grafana是一个不得不提的利器。Grafana是一个开源的时序 数据的查询和展现软件,提供了灵活丰富的图形化选项;可以混合多种风格,有着功能齐全 的度量仪表盘和图形编辑器。支持与 Gra

9、phite、Elasticsearch、CloudWatch、Prometheus、 InfluxdbDB等众多数据存储对接,进行数据的查询和图表展现。一些开源的监控软件如 zabbix、Graphite、Prometheus也都有着自己的数据图形化展现能力,但是一般也都是建 议使用Grafana来代替它们的页面。可想而知Grafana的优秀。当然,Grafana的数据源都是来自时序数据库,在实际场景中,可能你想要查看的报表的一 部分数据还来自于业务系统,这就是Grafana或者其他的监控软件做不到的了,去扩展是一 种方式,另外一种方式就是结合自己的需求实现图表展现,通过对时序数据的计算分析以

10、及 结合业务数据,使用如echarts等开源图表前端框架进行展现。这时候Influxdb的优势就 体现出来了,对外提供http api非常适合自主封装图形化页面。告警:在日志监控的分享中,确实没有对告警进行说明。像Zabbix、Nagios、Open-Falcon、 Prometheus等开源监控软件,都是有些自己的告警能力的。如果你采用了他们作为监控平 台,实际上告警能力就已经有了。如果是纯自建统一监控平台的话,也可以自己实现告警中 心。我们自己的做法是,在数据处理时,根据配置的事件触发规则,生成相应事件扔到kafka 中,事件处理引擎监听kafka中的事件数据,进行解析并根据事件处理策略进

11、行告警通知等 处理。三、开源系统监控软件Zabbix VS Nagios VS Open-Falcon上面大致介绍了运维监控的技术栈,但是实际上已经有些开源监控软件功能都很全面,从数 据采集到数据展现都提供了支持,如果是小团队,不想自建监控平台的话,选择这些开源软 件其实是一个很好的选择。ZabbixZabbix是一个企业级的开源分布式监控解决方案,支持实施从数以万计的服务器、虚拟机、 网络设备等收集百万的指标数据,具备常见的商业监控软件所具备的功能(主机的性能监控、 网络设备性能监控、数据库性能监控、FTP等通用协议监控、多种告警方式、详细的报表图 表绘制)支持自动发现网络设备和服务器;支持

12、分布式,能集中展示、管理分布式的监控点; 扩展性强,server提供通用接口,可以自己开发完善各类监控。Zabbix重要组件说明:zabbix server:负责接收agent发送的报告信息的核心组件,所有配置、统计数据及操作 数据都由它组织进行;database storage:专用于存储所有配置信息,以及由zabbix收集的数据;web interface: zabbix 的 GUI 接口;proxy:可选组件,常用于监控节点很多的分布式环境中,代理server收集部分数据转发到 server,可以减轻server的压力;agent :部署在被监控的主机上,负责收集主机本地数据如cpu、内

13、存、数据库等数据发往 server 端或 proxy 端;优点:All in One:部署相当便捷Server对宿主机性能要求很低。自动发现服务器与网络设备分布式监控,以及WEB集中管理功能同时支持agent采集和无agent采集,主机通过agent或者ipmi采集数据,网络设备、存 储设备等通过SNMP客户端采集数据,agent支持常用的UNIX和Windows操作系统 功能全面,数据采集、数据存储、数据展现、事件告警。开放式接口,扩展性强,插件编写容易不足:数据库瓶颈,使用mysql作为底层存储,大数据读写的时候,对于数据库的压力非常大需要在主机中安装agent对容器监控支持不好,需要自己

14、扩展。NagiosNagios 全名为(Nagios Aint Goona Insist on Saintood),最初项目名字是 NetSaint。 它是一款免费的开源IT基础设施监控系统,其功能强大,灵活性强,能有效监控Windows、 Linux、VMware和Unix主机状态,交换机、路由器等网络设置等。Nagios核心功能是监 控报警,告警能力很不错,但是图形展示效果很差。同时nagios更加灵活,很多功能都要 通过插件化来实现,对于技术能力没那么强的同学,上手会有些困难。当然,对于运维老手, 上手会很快。Nagios的功能特性如下:监控网络服务(SMTP、POP3、HTTP、NNT

15、P、PING 等);监控主机资源(处理器负荷、磁盘利用率等);简单地插件设计使得用户可以方便地扩展自己服务的检测方法;并行服务检查机制;具备定义网络分层结构的能力,用parent”主机定义来表达网络主机间的关系,这种关系可 被用来发现和明晰主机宕机或不可达状态;当服务或主机问题产生与解决时将告警发送给联系人(通过EMail、短信、用户定义方式); 可以定义一些处理程序,使之能够在服务或者主机发生故障时起到预防作用; 自动的日志滚动功能;可以支持并实现对主机的冗余监控;可选的WEB界面用于查看当前的网络状态、通知和故障历史、日志文件等;Open-FalconOpen-Falcon是小米运维部门开

16、源出来的互联网企业级监控系统,目前包括小米、金山云、 美团、京东金融、赶集网等都在使用Open-FalconOpen-Falcon整体可以分为两部分,即 绘图组件、告警组件。“绘图组件”负责数据的采集、收集、存储、归档、采样、查询、展 示(Dashboard/Screen)等功能,可以单独工作,作为time-series data的一种存储展示 方案。“告警组件”负责告警策略配置(portal)、告警判定(judge)、告警处理 (alarm/sender)、用户组管理(uic)等,可以单独工作。架构如下:关键特性有:数据采集免配置:agent自发现、支持Plugin、主动推送模式容量水平扩展:生产环境每秒50万次数据收集、告警、存储、绘图,可持续

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号