大型系统AIOps技术实践之路

上传人:I*** 文档编号:152583851 上传时间:2020-11-24 格式:PDF 页数:29 大小:2.24MB
返回 下载 相关 举报
大型系统AIOps技术实践之路_第1页
第1页 / 共29页
大型系统AIOps技术实践之路_第2页
第2页 / 共29页
大型系统AIOps技术实践之路_第3页
第3页 / 共29页
大型系统AIOps技术实践之路_第4页
第4页 / 共29页
大型系统AIOps技术实践之路_第5页
第5页 / 共29页
点击查看更多>>
资源描述

《大型系统AIOps技术实践之路》由会员分享,可在线阅读,更多相关《大型系统AIOps技术实践之路(29页珍藏版)》请在金锄头文库上搜索。

1、G O P S 全 球 运 维 大 会 2 0 1 8 深圳 站 GOPSGOPS 全 球 运 维 大 会2 0 1 8 2018.4.13-4.14中国广东深圳南山区 圣淘沙大酒店(翡翠店) G O P S 全 球 运 维 大 会 2 0 1 8 深圳 站 亿级用户百TB级数据的AIOps实践之路 (一) 周荣 华为消费者BG云运维部 G O P S 全 球 运 维 大 会 2 0 1 8 深圳 站 目录 华为消费者业务介绍 1 云服务运维面临的挑战 2 AIOps 实践之路:数据价值(业务监控) 3 AIOps 实践之路:数据平台 4 AIOps 实践之路:数据智能 5 G O P S 全

2、 球 运 维 大 会 2 0 1 8 深圳 站 华为消费者BG业务介绍 消费者 BG 业务持续增长 17年,消费者BG(CBG)收入较16年增幅57%+,占华为总收入 43%+; 17年,华为与荣耀品牌手机发货 1.53亿台,全球份额突破10%; 全球 TOP100 品牌 BRANDZ #49 Forbes #88 Interbrand#70 Brand Finance #25 华为&荣耀手机笔记本&平板 穿戴设备智能家居软件应用 G O P S 全 球 运 维 大 会 2 0 1 8 深圳 站 华为消费者BG云服务业务介绍 帐号 应用 市场 云服务 华为 图库 天际通 华为 主题 游戏 中心

3、 华为 钱包 华为 穿戴 运动 健康 智能 家居 华为 视频 华为 阅读 华为 音乐 华为 浏览器 生活 服务 会员 服务 合作 伙伴 华为消费者云服务业务(17年,较16年) 华为帐号,注册用户 3.3亿,增长 57% 云存储,照片&视频,195 PB,增长 108% PUSH在线,2.5亿并发,增长 221% 应用市场,下载 5.2亿/日,增长 61% 华为主题,用户数2.7亿,增长 99% 运动健康,用户数4600万,增长 113% 3162 130 210 330 0 50 100 150 200 250 300 350 20132014201520162017 华为帐号数(百万)华为

4、帐号数(百万) G O P S 全 球 运 维 大 会 2 0 1 8 深圳 站 目录 华为消费者业务介绍 1 1 云服务运维面临的挑战 2 2 AIOps 实践之路:数据价值(业务监控) 3 AIOps 实践之路:数据平台 4 AIOps 实践之路:数据智能 5 G O P S 全 球 运 维 大 会 2 0 1 8 深圳 站 快速发展下给运维带来的挑战 业务运 行稳定 故障快速 恢复 成本管 理 保障用户 体验 尽快解 决问题 运营活动运 维保障 产品 运维 用户数据隐 私安全 可靠性要高 每天版 本变更 客户体验 1. 业务多、形式多样 存在100+存量业务(外部、内部); 业务场景不同

5、,存量大,数据形式和格式多种多样; 2. 数据价值与数据成本间的平衡 监控指标“熵”减严重,问题难以察觉; 采集端统计指标,数据变更成本高; 3. 数据规模大,增长速度快 数万+主机、千亿/天数据量 17年实时处理数据从4T/天增到120TB/天; 随着数据增加,人找数据的成本越来越大; G O P S 全 球 运 维 大 会 2 0 1 8 深圳 站 业界的趋势 数据驱动运维(AIOps) AIOps:Gartner在16年发布的报告中首先提出了基于大数据及算法(Algorithmic IT Operations)的 IT运维概念。随着人 工智能的快速兴起,Gartner 在17年将 AIO

6、ps 概念从基于大数据及算法,扩充为基于人工智能(Artificial Intelligence for IT Operations,AIOps),认为通过大数据、机器学习及高级分析技术,提供具备主动性、人性化及动态可视化的能力,直 接或间接地提升目前传统IT运维(监控、自动化、服务台)的能力。 AIOps当前 发展阶段 知 识 信 息 数 据 G O P S 全 球 运 维 大 会 2 0 1 8 深圳 站 我们的对策 数据驱动运维(三板斧) 1. 降低数据接入成本,做好业务监 控,体现业务数据价值 2. 围绕数据价值,分步打造高性 能、低开发成本的运维数据平台 3. 随着运维数据的应用场景

7、,分步 构建智能化运维服务能力(学件) 知 识 信 息 数 据 1. 业务多、形式多样 存在大量存量业务; 业务场景不同,数据形式和格式多种多样; 2. 数据价值与成本不成正比 监控数据“熵”减严重,问题难以察觉; 采集端统计指标,数据变更成本高; 3. 数据规模大,增长速度快 数万+主机、千亿/天数据量 17年实时处理数据从4T/天增到120TB/天; 人找数据的成本随着数据的增加,越来越 大; G O P S 全 球 运 维 大 会 2 0 1 8 深圳 站 目录 华为消费者业务介绍 1 1 云服务运维面临的挑战 2 2 AIOps 实践之路:数据价值(业务监控) 3 3 AIOps 实践

8、之路:数据平台 4 AIOps 实践之路:数据智能 5 G O P S 全 球 运 维 大 会 2 0 1 8 深圳 站 AIOps 实践之路:从哪来,到哪去 1. 数据 到 价值 产品 运营 Dev Ops 主管 设备 业务 用户 用户体验质量分析 下载时长、下载完成率、卡顿比、起播时延等 产品内容数据 内容达到率、内容服务质量、页面跳转等; 业务稳定性 运行保障、灰度发布、高可用、有损服务等 故障分析处理 异常检测、故障诊断、故障预测、故障自愈等 成本 IT成本报表、瓶颈分析、资源优化、容量管理、性能优化等; 流程效率 智能规划、智能决策、智能问答等; 分析 执行 感知 G O P S 全

9、 球 运 维 大 会 2 0 1 8 深圳 站 质量保障 成本管理 异常检测 v1.0v2.0v3.0v4.0v5.0 业务指标监控 成本指标监控 故障诊断故障自愈 资源优化容量规划性能优化 故障预测 数据感知智能分析智能执行 AIOps 实践之路:核心价值与演进 流程效率流程数据可视智能问答 异常检测 异常检测智能决策智能变更 G O P S 全 球 运 维 大 会 2 0 1 8 深圳 站 业务侧 业务服务器B 服务器日志 接口/访问/自定义日志 采集Agent 端采集服务器 端采集服务 采集Agent Front-End Kafka Back-End Kafka 数据分析处理平台(批、流

10、) 数据存储层 缓存数据库OLAP数据库索引型数据库 主机资源数据 运维大数据应用服务 端侧业务数据 运维可视化 日志检索服务 数 据 分 析 处 理 层 DashBoard自定义报表自定义 开 放 服 务 层运维可视化仪表仓库 数据源 管理 数据生命 周期管理 运维数据模型 数 据 资 产 层 数据任务 管理 运维数据治理 数据租户 管理 运维分析定制 分析查询引擎ETL 运维算法库 洞 察 应 用 层 IT成本报表业务监控大盘调用链分析 关系型数据库关系型数据库 调用链 模型 基础指标 模型 磁盘/网络 故障数据 云侧业务数据中间件数据 异常检测 故障诊断故障预测资源优化容量规划性能优化

11、服务器 zabbix HCW 第三方(外部) CDN厂商 Data Loader AIOps 实践之路:架构总览 业务数据 模型 拓扑关系 模型 分布式文件系统 PC/大屏运维监控手机端运维监控 G O P S 全 球 运 维 大 会 2 0 1 8 深圳 站 AIOps 实践之路:业务监控 业务系统的运行情况了如指掌 G O P S 全 球 运 维 大 会 2 0 1 8 深圳 站 目录 华为消费者业务介绍 1 1 云服务运维面临的挑战 2 2 AIOps 实践之路:数据价值(业务监控) 3 3 AIOps 实践之路:数据平台 4 4 AIOps 实践之路:数据智能 5 G O P S 全

12、球 运 维 大 会 2 0 1 8 深圳 站 AIOps 实践之路:数据平台 对策 1. 存量业务大,业务场景多 低成本、灵活数据接入 2. 亿级用户,数据量大 1年,4TB-120TB 3. 原始数据信息查询要求 多维分析,即席查询,实时 1. 数据后端清洗、入库 SparkStreaming(Kettle? Talend?) 2. 支撑海量数据处理框架 Kafka、Spark、Hive、MPP DB; 3. 实时可视化、OLAP数据引擎 Vue(Angular)、Druid、Prometheus G O P S 全 球 运 维 大 会 2 0 1 8 深圳 站 AIOps 实践之路:数据平

13、台 (数据分析) 服务侧日志 Front-End Dispatcher FI-Kafka 单条数据过滤、切分、扩展、格式化必选 FI-SparkStreaming 统计计算可选 FI-SparkStreaming Zabbix、HCW等数据 ETL 数据集市 单条粒度运维数据 ElasticSearch5.0 Back-End Dispatcher FI-Kafka 日志检索 Kibana 探索报表 Kibana 时间序列多维度量数据 Druid 数据分析 数据仓库 数据视图 FI-MPPDB 数据展示 监控大盘/仪表盘运维报表 日志原始文件 FI-HDFS 单条运维数据路由检索查询 FI-F

14、lume 单条运维数据存储离线分析 FI-Flume 离线数据分析 FI-Hive 数据汇聚服务 批量数据 数据源 数据导入服务 DataLoader 成本管理 AIOps质量保障 AIOps 端侧实时日志 运维数据治理 数据租户管理 数据源管理 数据生命周期管理 数据任务管理 占位 占位 占位 占位 G O P S 全 球 运 维 大 会 2 0 1 8 深圳 站 AIOps 实践之路:数据平台 OLAP数据引擎 Druid 开源实时大数据分析引擎:面向列存储、shared-nothing架构、高效索引结构,来达成在秒级对十 亿行级别的表进行多维探索分析查询。 部分来源:http:/drui

15、d.io/druid.html G O P S 全 球 运 维 大 会 2 0 1 8 深圳 站 目录 华为消费者业务介绍 1 1 云服务运维面临的挑战 2 2 AIOps 实践之路:数据价值(业务监控) 3 3 AIOps 实践之路:数据平台 4 4 AIOps 实践之路:数据智能 5 5 G O P S 全 球 运 维 大 会 2 0 1 8 深圳 站 AIOps 实践之路:数据智能(业务背景 质量) 云服务当前的主机规模,业务数,数据量,复杂度都达到了新的高度,随之给业务团队带来了显著挑战:传统以人工为主的运维手段, 面对异常检测、故障定界定位、故障预测以及故障自愈的质量保障方面,不仅力

16、不从心,而且难以做好。 越来越精细、复 杂的运维场景 云服务当前 已有近100 个服务(含 内部) 业务维度组 合后指标项 1000000+ 云服务 30000+主 机 海量数据, 每天2000+ 亿条, 120TB+ 异常检测故障诊断故障自愈故障预测 数据源异常干扰 异常检测漏报、 误报 异常检测人工配 置费效比不理想; 海量数据,疲于分析 诊断准确性与效率与 个人能力相关,不稳 定; 新增疑难故障难以识 别 人工难以长期评估 海量数据的故障预 测; 人工分析滞后,风 险变为问题,导致影 响用户体验; 自愈决策的准确 性与人经验相关; 人工处理无法确 保7*24小时随时可 立即决策与自愈; 说明:截止17年底 数据感知智能分析智能执行 业务规模增长带来运维数据的爆发式增长运维数据的爆发式增长背景下,传统人工运维方式的痛点与问题 G O P S 全 球 运 维

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > IT计算机/网络 > 云计算/并行计算

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号