企业AIOps智能运维方案白皮书

上传人:壹****1 文档编号:561512293 上传时间:2023-02-09 格式:DOCX 页数:34 大小:435.22KB
返回 下载 相关 举报
企业AIOps智能运维方案白皮书_第1页
第1页 / 共34页
企业AIOps智能运维方案白皮书_第2页
第2页 / 共34页
企业AIOps智能运维方案白皮书_第3页
第3页 / 共34页
企业AIOps智能运维方案白皮书_第4页
第4页 / 共34页
企业AIOps智能运维方案白皮书_第5页
第5页 / 共34页
点击查看更多>>
资源描述

《企业AIOps智能运维方案白皮书》由会员分享,可在线阅读,更多相关《企业AIOps智能运维方案白皮书(34页珍藏版)》请在金锄头文库上搜索。

1、企业AIOps智能运维方案白皮书目录背景介绍4组织单位4编写成员5发起人5顾问5编审成员5本版本核心编写成员61、整体介绍82、AIOps 目标103、AIOps 能力框架114、AIOps 平台能力体系145、AIOps 团队角色175.1 运维工程师175.2 运维开发工程师175.3 运维 AI 工程师176、AIOps 常见应用场景196.1 效率提升方向216.1.1 智能变更226.1.2 智能问答226.1.3 智能决策236.1.4 容量预测236.2 质量保障方向246.2.1 异常检测246.2.2 故障诊断256.2.3 故障预测256.2.4 故障自愈266.3 成本管

2、理方向266.3.1 成本优化266.3.2资源优化276.3.3容量规划286.3.4性能优化287、AIOps 实施及关键技术297.1数据采集297.2数据处理307.3数据存储307.4离线和在线计算307.5面向 AIOps 的算法技术30说明:31附录:案例33案例1:海量时间序列异常检测的技术方案331、案例陈述332、海量时间序列异常检测的常见问题与解决方案333、总结34案例2:金融场景下的根源告警分析351、案例概述352、根源告警分析处理流程353、根源告警分析处理方法374、总结39案例3:单机房故障自愈压缩401、案例概述402、单机房故障止损流程403、单机房故障自

3、愈的常见问题和解决方案414、单机房故障自愈的架构435、总结44背景介绍AIOps即智能运维,其目标是,基于已有的运维数据(日志、监控信息、应用信息等),通过 机器学习的方式来进一步解决自动化运维所未能解决的问题,提高系统的预判能力、稳定性、降 低IT成本,并提高企业的产品竞争力。Gartner在2016年时便提出了 AIOps的概念,并预测到2020年,AIOps的采用率将会 达到50%。AIOps目前在国内外领先的互联网企业开始被逐渐应用,也是近年来国内外被普遍看好 的新技术。为了让国内众多互联网中小企业、特别是传统企业可以共享、复用国内外顶尖互联网的 AIOps 技术和能力,并能够更快

4、捷的进行 AIOps 相关产品选型,因此开展国内外第一个 AIOps 白皮书及相关标准制定工作。AIOps标准将分成两大类,分别适用于企业内部的IOps能力建设与评估、及企业购置相 关AIOps产品的认证评估,使得AI真正落地应用于运维,造福于企业。1、整体介绍AIOps,即 Artificial Intelligence for IT Operations,智能运维,将人工智能应用 于运维领域,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来 进一步解决自动化运维没办法解决的问题。早期的运维工作大部分是由运维人员手工完成的,这被称为手工运维或人肉运维。这种 落后的生产方

5、式,在互联网业务快速扩张、人力成本高企的时代,难以维系。自动化运维因此应运而生。其基于用可被自动触发的、预定义规则的脚本,来执行 常见 的、重复性的运维工作,从而减少人力成本,提高运维效率。总的来说,自动化运维可以认为 是一种基于行业领域知识和运维场景领域知识的专家系统。随着整个互联网业务急剧膨胀,以及服务类型的复杂多样,“基于人为指定规则”的专 家系统逐渐变得力不从心。自动化运维的不足,日益凸显。DevOps 的出现,部分解决了上述问题。其强调从价值交付的全局视角,端到端打通软件 生命周期,建立基于微服务的单件流式的流水线。但 DevOps 更强调横向融合及打通,较低阶 段的 DevOps

6、无力改变“基于认为指定规则”的既定事实。AIOps 是 DevOps 在运维(技术运营)侧的高阶实现,两者并不冲突。此部分可具体参 考研发运营一体化能力成熟度模型。AIOps 不依赖于人为指定规则,主张由机器学习算法自动地从海量运维数据(包括事件 本身以及运维人员的人工处理日志)中不断地学习,不断地提炼并总结规则。AIOps 在自动化运维的基础上,增加了一个基于机器学习的大脑,指挥监测系统采集大 脑决策所需的数据,做出分析、决策,并指挥自动化脚本去执行大脑的决策,从而达到运维系 统的整体目标。AIOps 基于自动化运维,将 AI 和运维很好的结合起来,其需要三方面的知识:1)行业领域知识:应用

7、的行业,如互联网、金融、电信、物流、能源电力、工业制造 和智慧城市等,并熟悉生产实践中的难题;2)运维场景领域知识:如指标监控、异常检测、故障发现、故障止损、成本优化、容 量规划和性能优化等;3)机器学习:把实际问题转化为算法问题,常用算法包括如聚类、决策树、卷积神经 网络等。AIOps和DevOps两者并不冲突,企业级DevOps涵括包括运维在内的整个软件生命周期,AIOps是企业级DevOps在运维(技术运营)侧的高阶实现。AIOps是运维的发展必然,是自动化运维的下一个发展阶段。Gartner相关报告预测AIOps 的全球部署率将从 2017年的 10%增加到 2020年的 50%。其应

8、用行业,除了互联网以外, 还包括高性能计算、电信、金融、电力网络、物联网、 医疗网络和设备、航空航天、军用设备 及网络等领域。本白皮书综合国内领先的互联网公司、金融企业及 AIOps 解决方案提供方的相关经验, 给出了一种企业级AIOps的AIOps理论方法和生产实践,希望能帮助贵司快速、成功实施 AIOps。本白皮书聚焦AI应用到Ops领域,不涉及自动化运维相关内容。2、AIOps 目标AIOps,通俗的讲,是对规则的AI化,即将人工总结运维规则的过程变为自动学习的过 程。具体而言,是对我们平时运维工作中长时间积累形成的自动化运维和监控等能力,将其规 则配置部分,进行自学习的“去规则化”改造

9、,最终达到终极目标:“有 AI 调度中枢管理的, 质量、成本、效率三者兼顾的无人值守运维,力争所运营系统的综合收益最大化”。AIOps 的目标是,利用大数据、机器学习和其他分析技术,通过预防预测、个性化和动 态分析,直接和间接增强 IT 业务的相关技术能力,实现所维护产品或服务的更高质量、合理成 本及高效支撑。3、AIOps能力框架AIOps的建设可以先由无到局部单点探索、再到单点能力完善,形成解决某个局部问题的运 维AI“学件”,再由多个具有AI能力的单运维能力点组合成一个智能运维流程。AIOps能力框架基于如下AIOps能力分级。AIOps能力分级可具体可描述为5级(图-2):1)开始尝试

10、应用AI能力,还无较成熟单点应用2)具备单场景的AI运维能力,可以初步形成供内部使用的学件3 有由多个单场景AI运维模块串联起来的流程化AI运维能力,可以对外提供可靠的运 维AI学件 主要运维场景均已实现流程化免干预AI运维能力,可以对外提供可靠的AIOps服务。5 有核心中枢AI,可以在成本、质量、效率间从容调整,达到业务不同生命周期对三3开始尝试应用蛊甜钛还无较成粘单扁应用貝需单场聚兀说维能力r初歩形鹿做2割隹用的学仲个方面不同的指标要求,可实现多目标下的最优或按需最优。、-沁却袴压零个单还燈AI运堆更块由联起躱的就程化阳曲皑力主鏗言烦實均已枫汽程化労干颈占麵维能力-:论Fgg -有中驱A

11、J ,可以在成本、质趾效難勵店洞鑫.达卸业筲不同生弗焉期魁三乍疗面不同的掲新蟹號,实现券口無F的最秋誌抜需最就图3-1 AIOps能力分级学件,亦称AI运维组件,类似程序中的API或公共库,但API及公共库不含具体业务数 据,只是某种算法,而AI运维组件(或称学件),则是在类似API的基础上,兼具对某个运维 场景智能化解决的“记忆”能力,将处理这个场景的智能规则保存在了这个组件中。这个智能规则是在一定量的数据下学习而来的,且具有“可重用”,“可演进”,“可 了解”的特性,既可共享由专家利用数据训练的算法,又可保护数据和隐私。“学件(Learnware) 词由南京大学周志华老师原创,学件(Lea

12、rnware)=模型(model)+规约(specifica tion),具有可重用、可演进、可了解的特性。很多人可能在自己的应用中已经建立了类似的模型,他们也很愿意找到一个地方把这些 模型分享出去。这样一来,一个新用户想要应用,也许不用自己去建立一个,而是先到“学件” 市场上找一找有没有合适的,拿来直接或修改后使用。学件基于专家基础上建立,所以比较容 易得到专家级的结果,又因为共享出来的是模型,所以避免了数据泄露和隐私泄露的问题。基于上述AIOps能力分级,对应的AIOps能力框架如下。多目标自调整AIOPS大脑主场景均实踮辭优免干预AB鐸能力串联A直维应用如故障自愈效率k质最AI运堆组件学

13、件)库 智能陋 智能变更 问 OLSA 变更般人 建议机器人psiAB建蝴件悖件膵 畀常檢测 异常预测 根因分析 舆情监控A1E维组件厚件)库 性强化城 碎片擁 容量ifflP 数据清洗:PT特征工程相关关键运维场景的AIOps演进如下。:| KOp护1團小Ml TaAt.*圖w-srttSF熾rEKnutlvntfJMMWff*k pmnPlannlvifi i.i叱AIR人 f 81.AK3WWPf.貝沁JR ffiSfLA仙唤.生a村斗寿可啊*WteSWM.丽 迅听iL槓矿可紳?1taui:远殖.知斷.* A.忙越?的冃顾R.A2丄-TisaptinQ.( rtsn ontL 3.皿辛

14、i- 1 *弐硏r.咗4”迂丄吓予CSX丘 aiVKHt:tswwSEAHTT旳口 ZB.上 */a!V 雀nt=戊ann=T巨HrJO古IlLW Bll=lrUEfchM+M FFH痢PTfi;韩寄: 3X33刃MBs蛊WfcCCWLL讪址応浹丹叩临曾Oh古羽酒帳.心Z-E* . LUhrity*1网5 I 罰鼻 I . rtTSTT-fc-.ftA-* I WU 冃r?E佃ijlBSSH*供用毎4聖蓟 侏刊7眾和图 3-3 关键运维场景的 AIOps 演讲2 “可重用”的特性使得能够获取大量不同的样本; “可演进”的特性使得可以适应环境的变化;可了解”的特性使得能有效地了解模型的能力。4、AIOps平台能力体系AIOps工作平台能力体系主要功能是为IOps的实际场景建设落地而提供功能的工具或

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号