OneAPM智能运维平台解决方案-v0.95

上传人:206****923 文档编号:88626739 上传时间:2019-05-05 格式:PPTX 页数:45 大小:16.99MB
返回 下载 相关 举报
OneAPM智能运维平台解决方案-v0.95_第1页
第1页 / 共45页
OneAPM智能运维平台解决方案-v0.95_第2页
第2页 / 共45页
OneAPM智能运维平台解决方案-v0.95_第3页
第3页 / 共45页
OneAPM智能运维平台解决方案-v0.95_第4页
第4页 / 共45页
OneAPM智能运维平台解决方案-v0.95_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《OneAPM智能运维平台解决方案-v0.95》由会员分享,可在线阅读,更多相关《OneAPM智能运维平台解决方案-v0.95(45页珍藏版)》请在金锄头文库上搜索。

1、OneAPM智能运维平台解决方案,用人工智能点亮您的IT数据,议题,议题,当前运维和业务团队面临的困境,不是没有数据,而是数据太多 不是不想分析,而是无从下手,从人工到人工智能,挖掘海量数据的业务价值 统一大数据分布式处理技术 智能算法与机器学习 业务系统将要发生什么? 主动响应的预防预测性管理,降低系统低效对业务的影响 多种分散独立监控工具 专业化专家型人才 业务系统已经发生了什么? 被动响应的故障恢复性管理,人工运维,AIOps,什么是AIOps,AIOps,即基于人工智能的IT运维(Artificial Intelligence for IT Operations) ,是由Gartner

2、定义的IT运维管理新类别。,AIOps将服务管理、性能监测、自动化结合在一起,以实现持续洞察和改进的目标,并由大数据和机器学习技术进行支撑。,机器学习,大数据,平台,AIOps,商业价值,监测 (观察),服务管理 (交互),自动化 (行动),From Gartners Report,AIOps的四个核心能力,对海量数据进行高效访问,AIOps的技术栈,可视化,机器学习,算法,分析,计算,大数据,数据源,事件,日志,监控,工单,任务,全量,海量,多样性,复杂性IT数据,集中统一管理,历史数据存储,实时数据存储,数据建模,模式识别,趋势识别,故障隔离,智能化选择,异常检测,异常定位,根因分析,算法

3、自我修改演进,新算法创建,多维度,个性化,角色化,场景化展示,数据清洗,去重,过滤,关联,生成新数据,AIOps的核心价值,故障发现,故障规避,故障止损,故障修复,异常检测,异常定位,根因分析,异常预测,AIOps将在5-10年内成为ITOM的主流技术,From Gartners Report,议题,2,用人工智能点亮您的IT数据,OneAPM智能运维平台解决方案,服务器数据,存储数据,网络数据,应用数据,用户体验数据,流量数据,日志数据,交易数据,任意IT数据,OneAPM AIOps,大数据实时多维分析,机器学习,大规模事务处理,海量数据实时接入,服务分析,深度挖掘,场景可视化,多维指标告

4、警,数据建模,OneAPM智能运维平台的五个能力层次,发现 接入,存储 整合,梳理 关联,智能 分析,多维 展示,从哪里来,到哪里去,IT数据,全栈IT数据发现与接入篇,全栈IT数据的采集范围,监控对象,采集数据,IT系统,客户端,数据库,虚拟化,中间件,SaaS,传统架构,业务层,应用软件层,基础设施层,业务系统,云架构,硬件设备,PaaS,IaaS,交易,业务流程,浏览器,移动APP,应用/微服务,应用代码,数据库服务,中间件服务,网络流量包,日志,虚拟化,网络,主机,机房环境,交易量 交易金额 交易成功率,页面加载时间 浏览器类型 用户IP 页面加载错误率 CDN质量 应用响应时间 应用

5、吞吐量 应用错误率 单个服务响应时间 单个服务吞吐量 单个服务错误率,交易错误率 交易处理时间 ,APP页面响应时间 APP崩溃率 APP网络请求时间 APP H5页面性能 JVM内存利用率 服务器时延 SQL语句执行时间 连接池数量 缓冲区命中率 告警 ,虚拟机数量 主机数量 CPU利用率 内存利用率 丢包率 平均建链时间,网络流量 磁盘可用容量 电源 处理器 配置项 ,业务逻辑,IT资产库,CMDB,全栈IT数据的采集方式,IT数据,SNMP、IPMI、WMI、SMI-S、JMX、 GlassFish、JDBC、SSH、Telnet等,Java、.Net、PHP、Python、Ruby、N

6、ode.js、Andriod、iOS等,Rsyslog、NXlog、Kafka、SDK、Restful API等,SFLOW、NETFLOW、IPFIX、SPAN、RSPAN、ERSPAN等,StatsD、 Web Service、 JSON等,URL、Host、Port、 HTTP 、RTSP、RTMP等,IT数据采集方式的选择,与已有ITOM工具的对接,JDBC,SNMP TRAP,Web Service,,OneAPM AIOps,海量数据处理与存储篇,海量IT数据处理的挑战,数据规模,高并发总量大 种类多样 格式各异,毫秒级延时 秒级处理响应 逻辑复杂,实效,海量IT数据处理平台,指标

7、、交易、详情,指标、事件,历史大数据服务,API 网关,搜索服务,消息服务,交易关联 / 拼接服务 / 异常检测服务等,历史数据处理,实时数据处理,数据采集器,数据采集器,数据采集器,指标、事件、日志、交易、详情、流量,业务交易、指标、告警、详情,时间序列 实时数据服务,指标、事件、日志、交易、详情、流量,业务交易、指标、告警、详情,数据接入,数据处理,数据存储,开发,运维,业务,海量IT数据处理平台的能力,OneAPM AIOps,实时数据管理 Streaming data management,历史数据管理 Historical data management,指标数据管理 Metric

8、data ingestion,文本数据管理 Document text ingestion,日志数据管理 Log data ingestion,流量数据管理 Wire data ingestion,通过NLP(自然语言处理)技术,对人类可读文档进行解析,从网络上直接捕获的数据包,兼容多种网络协议,任何软硬件设备生成的日志数据,并为访问分析建立索引,对实时数据进行标准化和索引化,以时间尺度实时展示数据,吸纳海量多样化历史数据,并进行索引和持久存储,直接捕获和使用数值型数据,例如时间序列数据,IT数据梳理与关联篇,通过数据模型(Data Module)梳理IT数据,CPU利用率 %,数据库服务错误

9、数,数据库服务请求数,数据库平均响应时间,数据库死锁率,内存空闲率 %,存储空闲率 %,数据库连接池利用率 %,数据库服务健康指数,JDBC,SNMP,数据库实例,操作系统,主机,应用,指标及阈值,接口/协议,依赖关系/拓扑,数据模型 Data Module,开箱即用的数据模型和自定义扩展,应用服务器,关系型数据库,存储,操作系统,Web服务器,虚拟化,应用性能管理,用户体验管理,开箱即用,扩展,自定义,新增指标及阈值,新增接口/协议,修改依赖关系/拓扑,自定义指标及阈值,自定义接口/协议,自定义依赖关系/拓扑,数据模型 Data Module,深度挖掘多个指标对于服务质量的影响,服务分析,深

10、度挖掘,如何从IT数据中获得洞察?,人工智能算法与分析篇,结合领域知识的人工智能算法,人工智能算法,聚类、决策树、随机森林、卷积神经网络,运维领域知识,异常检测、多维分析、根因分析、故障预测,行业运维经验,金融、运营商、互联网、政府、大型企业,AI Ops,OneAPM人工智能算法与分析平台,基础数据层,机器学习算法层,RMDB,事件,指标,日志,工单,作业,监控,MQ,NoSQL,TSDB,HDFS,MPPDB,ARIMA,卡尔曼,时序数据分解,Holt-Winters,奇异谱变换(SST),DiD,DBSCAN,Pearson关联分析,J-Measure,Two-sample test,A

11、priori,FP-Growth,分类,聚类,决策树,逻辑回归,DNN,CNN,LSTM/RNN,NLP,AIOps 算法层,指标分布预测,指标聚类,KPI联动分析,KPI事件关联,日志事件序列提取,日志事件模板提取,技术能力层,数据源异常标记,单指标异常检测,多指标异常检测,关联分析,故障拓扑图,故障树,根因分析,调用链,告警压缩,单故障止损,灰度版本止损,配置优化,成本分析,容量规划,资源调度,发现问题,定位问题,解决问题,其他,应用层,自适应异常检测,多维异常问题定位,故障根因分析,异常预测,什么是KPI异常检测,KPI(Key Performance Indicator):用于反映服务

12、的健康程度。 如:服务请求数、拒绝数、响应时间、流 、订单等 如:服务 CPU、内存、 络、磁盘等 KPI 异常行为:潜在的风险、故障、bugs、攻击 KPI 异常检测:用于识别 KPI 时序曲线上的异常行为。 及早发现风险,防止其发展为故障 及时发现故障,进行止损、诊断和修复 运维的重要基础,OneAPM自适应KPI异常检测的特点,普适性检测算法,动态基带算法,适用更多不同特点曲线,基于迁移算法学习,自动适配场景变化,依据反馈,对算法和参数进行优选,减少人工干预,对比14种常用检测算法,准确度排名第一,算法自我容错,场景动态适配,异常精准检测,OneAPM自适应KPI异常检测结果展示,某大型

13、互联网公司的KPI检测效果,什么是多维分析,交易时间、失败率、闪退率、销售额、 订单数、PV、转化率、用户数、 用户增速、留存率、 投诉率,运营商、省份、城市、移动设备类型、软件版本号、移动端模块、浏览器版本、无线网络参数、服务器端模块、后台负载、用户年龄、用户性别,发现业务“关键指标KPI”瓶颈,为正确决策提供依据。例:“响应时间”在什么条件下会慢?,OneAPM多维异常问题分析的特点,自动识别瓶颈条件,基于决策树分析,从大量多维度数据中,自动确定影响属性,基于历史数据的AB测试,在历史数据中对比实验组和对照组的性能差别,预测可能的优化方案效果,预测优化效果,便捷的可视化系统,人员可对过程和

14、结果进行核对,排除可能的干扰数据,重新分析,得到正确结果,过程和结果可视化,OneAPM多维异常问题分析结果展示,如何从IT数据中获得洞察?,多维数据场景展示篇,面向场景的多维数据分析和可视化,场景化和可视化封装,什么人 什么时间 什么问题 如何处理,面向不同场景的多维仪表盘,面向不同场景的多维指标告警,面向不同人员的场景可视化示例,OneAPM智能运维平台解决方案的特点,All IT Data,One Analytics Platform,More Intelligence,议题,3,迈出AIOps的第一步,如果您认同以下问题,那么AIOps将非常适合您,您已在使用一些运维工具,但它们分散独

15、立,您总是需要在不同工具间来回操作 您期望在更短的时间(如,30分钟)内定位故障发生根因 您期望拥有自己的工作台,将职责范围内的信息聚焦在一个界面 您总被不准确的告警信息所干扰,急切希望提升告警的准确度 您觉得您的应用系统存在优化空间,却找不到优化的切入点 您期望在故障发生前尽早发现系统潜在问题 您期望能灵活的生成工作报表,并通过炫酷的大屏幕展示IT运维成果 您期望通过更加智能便捷的工具,代替日常繁琐重复的基础工作,自上而下的方法解决自下而上的问题,要监控的服务是什么?,有什么问题需要解决?,服务由哪些组件组成?,如何评价这个服务(KPI是什么)?,明确每个KPI的数据来源,展现平台价值,通过平台进行数据分析挖掘,绘制场景化视图,创建故障深度挖掘关联关系,创建服务的KPI和数据源,OneAPM,AIOps,挑选日常工作中一个有价值的运维难题,分析挖掘,与专家一同进行问题分解,将分解后的信息导入平台,建立数据模型和视图,THANK YOU,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 其它中学文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号