DataOps数据驱动的智能运维

上传人:I*** 文档编号:148403832 上传时间:2020-10-19 格式:PDF 页数:28 大小:4.04MB
返回 下载 相关 举报
DataOps数据驱动的智能运维_第1页
第1页 / 共28页
DataOps数据驱动的智能运维_第2页
第2页 / 共28页
DataOps数据驱动的智能运维_第3页
第3页 / 共28页
DataOps数据驱动的智能运维_第4页
第4页 / 共28页
DataOps数据驱动的智能运维_第5页
第5页 / 共28页
点击查看更多>>
资源描述

《DataOps数据驱动的智能运维》由会员分享,可在线阅读,更多相关《DataOps数据驱动的智能运维(28页珍藏版)》请在金锄头文库上搜索。

1、DataOps-数据驱动的智能运维 对运维的初始印象 背锅侠消防员7*24守卫 echo pssh /usr/local Shell程序员 阿里巴巴大数据运维 阿里云大数据计算平台 10万+台世界最大的计算平台 单日数据处理量超过600PB 大规模全球布局 遍布全球19个地理区域的数据中心 实时性 实时产出的双十一大屏 阿里巴巴大数据运维 阿里云大数据计算平台 大规模全球布局 实时性海量任务 日均运行任务 2万+ 5000万+ 数据工程师 数据助力运维智能化 阿里云大数据计算平台 大规模全球布局实时性海量任务 世界级 挑战 DataOps ? 稳定性 效率成本 01 稳定性 稳定性 效率成本

2、01 稳定性 【GOC】监控告警 * * * 【GOC】监控告警 * * * 【GOC】监控告警 * * * 传统监控 噪音多 规模化 多种异常类型 01 稳定性 智能算法 异常检测 稳定准确 可解释 无监督 实时 统计分布原理 配置门槛低 周期性问题 窄脉冲问题 大小规模问题 01 稳定性 智能算法 异常检测 指标接入 ? ? ? ? ? ? 噪音黄金指标 方差(抖动频率)变化 检测尖峰 (深谷) 断崖式跌落 均值变化 趋势预测 告警线 01 稳定性 智能算法 异常检测 指标接入 评价反馈 有效率+覆盖率 01 稳定性 智能算法 异常检测 指标接入 评价反馈 根因分析 实体A 实体B 实体C

3、 指标事件日志 维度下探 关联分析 01 稳定性 智能算法 异常检测 指标接入 评价反馈 根因分析 维度下探 关联分析 集群诊断 基于图模型的推断 自愈闭环 感知决策执行 02 成本 稳定性 效率成本 02 成本宏观视角 地域X 集群A 集群 资源要素 计算 存储 文件数 应用A1 应用A2应用An 集群B 应用B1 应用B2应用Bn 带宽资源 地域Y 集群C 应用C1 应用C2应用Cn 跨域带宽资源 数据依赖 数据依赖数据依赖 02 成本宏观视角 地域X 集群A 集群 资源要素 计算 存储 文件数 应用A1 应用A2应用An 集群B 应用B1 应用B2应用Bn 带宽资源 地域Y 集群C 应用

4、C1应用C2 应用Cn 跨域带宽资源 数据依赖 02 成本宏观视角 运筹优化模型 优化目标最小化跨域带宽资源消耗 约束条件集群资源、带宽资源 节省长途带宽 *Tb, 减少*PB存储冗余 决策变量应用a是否迁往集群X 02 成本微观视角 公共云客户 预付费 预付费 资源池 运筹优化 二级资源组的划分各资源组配额分配 时序预测 客户资源使用用户满意度 等待时长 满足率 不公平度 反馈调整 02 成本微观视角 等待时长 资源满足率 不公平度 机器数 用户满意度 资源申请量 资源申请量 03 效率 稳定性 效率 成本 03 效率运维侧智能答疑提效 人工答疑 ChatOps机器人 海量作业 报错日志 解

5、决方案 日志聚类 03 效率运维侧智能答疑提效 海量作业 报错日志 结构化特征 Log Parser 实体提取 语义特征 Log Clustering 自然语言处理 专家标注解决方案智能答疑 实时在线聚类 03 效率用户侧同步任务提效 ? ?1?2 两个BU同步速度分布 占比 同步速度 用户经验 参差不齐 算法赋能? 同步任务 属性 聚类算法 参数推荐 0 2 4 6 8 10 12 14 16 18 12 ? 平均速度提升7倍 03 效率用户侧同步任务提效 同步速度真的越快越好吗? 流量尖峰提升错峰运行同步任务 DataOps智能运维实践 稳定性 效率成本 异常检测根因分析集群诊断 感知决策

6、执行 宏观微观 跨域 应用排布 公共云 资源管理 运维侧用户侧 日志聚类 智能答疑 任务聚类 参数推荐 DataOps背后的数据链路 数据规范 DWS/ADS层 (汇总应用级数据) DWD层(明细层) ODS层(度量)DIM层(维度) 数仓建设 计算存储 离线 在线 MaxCompute RealtimeCompute MaxCompute OSS AnalyticsDB RDSTSDB 数据采集 SLSDataHubTT 数据服务 CMDB (实体管理) PMDB (指标、事件、日志) 知识图谱 (实体+关系) 数据工具 数据地图 质量管理 开发IDE 数据分析算法部署 实时算法Alink离

7、线大规模算法PAI 深度学习PAI on Tensorfl ow DataOps背后的数据中台 阿里云公共服务 MaxcomputeRealtimeComputeDataworksOTSSLS日志服务 通用分析层 异常检测日志聚类通用诊断运筹优化 运维业务层 流式计算通用计算算法平台数据工厂数据通道交互式分析 大数据运维中台 作业平台 自愈平台ChatOps 流程平台 运筹优化机器学习统计分析 算法层 深度学习 CMDBPMDB 数据服务层 统一数仓 数据规范知识图谱 抽象数学问题 业务需求沟通 算法模型 数据ETL 算法性能评估和运作机制 解决方案产品化 研发流程 系统架构设计 数据服务化 业务落地 运维 PD 架构师 研发 用户 DataOps落地挑战 业务理解鸿沟 算法性能 架构稳定性 可解释性泛化能力 用户体验 产品设计 数据获取

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 云计算/并行计算

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号