基于事件和知识图谱技术的智能运维实践方案

上传人:I*** 文档编号:148920477 上传时间:2020-10-23 格式:PPTX 页数:38 大小:3.10MB
返回 下载 相关 举报
基于事件和知识图谱技术的智能运维实践方案_第1页
第1页 / 共38页
基于事件和知识图谱技术的智能运维实践方案_第2页
第2页 / 共38页
基于事件和知识图谱技术的智能运维实践方案_第3页
第3页 / 共38页
基于事件和知识图谱技术的智能运维实践方案_第4页
第4页 / 共38页
基于事件和知识图谱技术的智能运维实践方案_第5页
第5页 / 共38页
点击查看更多>>
资源描述

《基于事件和知识图谱技术的智能运维实践方案》由会员分享,可在线阅读,更多相关《基于事件和知识图谱技术的智能运维实践方案(38页珍藏版)》请在金锄头文库上搜索。

1、技术创新,变革未来基于事件和知识图谱技术的智能运维实践方案,目录,AIOps 面临的挑战 指标?还是事件? 算法?还是数据? 以事件为切入点 用好知识图谱 打造基于事件和知识图谱的智能运维平台,当今企业IT 环境给运维管理带来了更大的挑战,建转运,IT架构重构,80%,50%,基础设施云化 运行环境容器化 业务系统微服务化,运维难度 提升4 - 5 倍,更多的工具,更复杂的 规范和流程,更多的人员,知识分散 - 缺乏将故障手册、厂 商文档、告警处理意见 等知识进行沉淀和检索 的手段,定位困难 - 在分布式环境下, 当 发生致命问题, 难以准 确定位根因节点和相关 事件,告警风暴 - 庞大的I

2、T 架构意味着 大量的告警和事件, 无 法聚焦和分析需要关注 的事件,Gartner认为,AIOps平台综合了大数据、机器学习和可视化技术, 通过可扩展的提取和分析IT不断增 长的数据量、种类和速度来更深入的洞察和增强IT运营。 AIOps对于企业运营的核心价值 降低噪音( 如误报或冗余事件); 提供更好的因果关系, 这有助于确 定事故的可能原因; 捕获超出静态阈值的异常, 以主动 检测异常情况; 推断未来事件以防止潜在的故障; 启动解决问题的操作( 直接或通过 集成)。,AIOps是企业实现精细化高效运营的基石,AIOps 的建设路线图,基于Gartner AIOps 技术栈衍生出来的AIO

3、ps 技术派,别,可视化,机器学习,算法,分析,计算,大数据,指标,日志,文本,流量,API,集中统一管理,历史数据存储,实时数据存储,数据建模,模式识别,趋势识别,故障隔离,智能化选择,异常检测,异常定位,根因分析,算法自我修改演进,新算法创建,多维度,个性化,角色化,场景化展示,数据清洗,去重,过滤,关联,生成新数据,数据源,全量,海量,多样性,复杂性 IT 数据,社交媒 体情绪,算法派:以自主算法研发为核心,提供针对运维场景下时 序指标、文本日志、系统调用链信息、第三方告警、配置文 件等数据处理的算法集,降低用户使用开源算法自行尝试的 时间和能力成本。 指标派:以传统运维监控工具指标数据

4、采集和加工为基 础,结合指标类人工智能算法实现异常检测、关联分析、趋 势预测等能力,重点解决告警阈值设置、容量预测等运维场 景问题。 日志派:以日志采集和处理技术为基础,结合文本处理类 人工智能算法对海量日志数据的再加工和分析,降低运维团 队日志阅读量,解决异常检测、日志聚类、时序预测、根因 分析等运维场景问题。 事件派:以复杂事件处理和知识图谱技术为基础,从事件 出发解读海量的 IT 运行数据。运用自然语言处理技术,提供 事件发现、事件分析、事件分类、事件聚类等能力,结合基 于运维知识图谱的解决方案推荐和根因分析能力,形成智能 运维闭环。,事件, 是对事物状态变化或不变状态的描述信息。,志数

5、据 (Log/Event),告警(Alert),KPI 指标,单数据,络数据包,SNMP Trap,数据库特定字 段的数据,系统输出 (STDOUT),API 输出,动环数据,消息队列,何谓事件?,事件数据,复杂事件处理,基于事件和知识图谱的核心算法和典型应用场景,自然语言处理,知识卡片,知识地图,业务影响分析,知识检索,运维知识图谱,聚类,发现,预测,定位,检索,辅助,事件模式转换路径,事件根因定位,因果推断,应用智能调参,运维知识问答,事件分类,事件聚类,事件降噪,异常事件发现,新奇事件发现,核心算法和 数据层,基础应用层,生产场景层,双向预训练表征,知识图谱,行业运维知识,自然语言处理在

6、事件管理中的应用,文本聚类 模式发现 新奇事件发现 异常事件发现,告警根因分析,样本数据准备,注意,力机制模,式识别,自然语言处理 几种常用的算法,基于距离文本相似度聚类 适合小数据量场景 算法执行效率低 缺少确定的相似度标准 需要人工进行相似度参数调整,基于Hash的相似度聚类 适合大数据量场景 算法执行效率高 需要人工进行参数调整 聚类效果存在不确定性,Hash位的调整 对聚类结果影响较高 基于注意力机制的文本聚类 无需人工参与 没有不确定性 需要积累样本语料数据 算法执行效率高,自然语言处理 通过文本外观进行聚类,通过文本间的外观进行文本的聚类 有 100条事件 聚类成 30条 压缩率

7、70% 但是漏掉一条!,有 100条事件 聚类成 50条 压缩率 50%,但是一条没漏!,VS,自然语言处理 通过文本外观进行聚类,为什么表面文本相似度聚类的方法不行?因为告警文本并不是线性可分的。,Editbased = Hamming:0.36363636363636365 Mlipns:0.0 Levenshtein:0.7272727272727273 DamerauLevenshtein:0.7272727273 JaroWinkler:0.8084415584415584 StrCmp95:0.8962049062049062 NeedlemanWunsch:0.714285714

8、28 Gotoh:0.7142857142857143 SmithWaterman:0.714285714285,Tokenbased = Jaccard:0.72 Sorensen:0.83720930232 Tversky:0.72 Overlap:0.8571428571428 Cosine:0.837435789358623 MongeElkan:0.0411255411 Bag:0.8181818181818181,Sequencebased = LCSSeq:0.727272727272 LCSStr:0.363636363635 RatcliffObershelp:0.74418

9、604,Compressionbased = ArithNCD:0.0632911392405 RLENCD:0.0 BWTRLENCD:0.0869565217391 SqrtNCD:0.4823249039319015 EntropyNCD:0.9672831249478 BZ2NCD:0.7674418604651163 LZMANCD:0.7575757575757576 ZLIBNCD:0.6071428571428572,Phonetic = MRA:1.0 Editex:0.772727272727,表面文本相似度聚类算法结果:,content A = zabbix sender

10、 is busy content B = zabbix process is busy,这组事件相似吗?,content A = BJa_VGC-RTM-FBU-QA-DB-MongoDB-Node2Availability_ping:100% content B = BJa_VGC-Aud-QA-Env10-CoreApp002Availability_ping:100%,这组呢?,自然语言处理 通过文本外观进行聚类,我们是怎么做的?,l 模仿人类 的阅读习惯,引入注意力机制 l从 14个G的原始数据 里预训练出来的模型 l 2亿条 线上告警数据作为实验集验证,自然语言处理 场景一: 模式发

11、现,使用场景 l 日志分析 l 告警模式发现,在文本聚类之后,我们可以进一步进行模式发现,聚焦某个模式,快速了解这一类数据 想要表达的内容,大大降低阅读量。,自然语言处理 场景一: 模式发现,使用场景 l 日志分析 l 告警模式发现,在文本聚类之后,我们可以进一步进行模式发现,聚焦某个模式,快速了解这一类数据 想要表达的内容,大大降低阅读量。,自然语言处理 场景一: 模式发现,使用场景 l 日志分析 l 告警模式发现,文本聚类后,根据事件出现的先后计算出事件模式关系图,快速了解事件的来龙去脉。,自然语言处理 场景一: 模式发现,l告警风暴抑制 通过统一模板, 给某类告警配置告警压缩或者告警宽限

12、期。 l新奇事件发现 近一个周期都没有出现, 但是现在突然出现了的事件是需要我们关注的。 l异常事件发现 出现频率和上个周期不一样: 例如ConnectRefuse 的错误日志, 发版前出现的次数为10 , 而发版后 出现的次数为100 。 出现模式和以往不一致: 从历史的事件上下文中进行学习, 然后推断A 的下一行是否为B , 假如不是, 则为异常事件。 l事件根因分析 通过匹配模式的上下文, 对模式进行二次训练, 生成马尔可夫链进行事件根因分析。,基于模式发现的延展功能,自然语言处理 场景二: 事件智能分类,为什么需要事件智能分类?,自然语言处理场景二:事件智能分类,2亿 线上数据,经过文

13、本聚类和模式发现之后,事件 数量被压缩至 23W,对这批数据进行标记、训练, 形成模型库。,我们是怎么做的?,自然语言处理场景二:事件智能分类,JZ-A-SW-02 Interface Ethernet1/0/7: Operational status:down (2),网络状态 10% interface | 50% ethernet | 10% operational | 10% status| 20% down,原文,分词,标注,Zabbix server CPU iowait time:89.94%,Zabbix agent is unreachable time:5,网络状态inte

14、rface | ethernet | operational | status | down 硬件处理器 zabbix| server | cpu | iowait | time 网络状态 zabbix | agent | unreachable | time,硬件处理器 10% zabbix | 15% server | 40% cpu | 30% iowait | 5% time,网络状态 10% zabbix | 40% agent | 40% unreachable | 10% time,特征选择,数 据 准 备,模型训练,使 用 反 馈,分词算法,停用词字典,特色词字典 告警分类模型 分类算法 磁盘 参数调整,Free disk space is less than 20% on volume /ldisk 人工标注,自然语言处理 场景二: 事件智能分类,基于文本聚类的事件智能分类结果展示:,自然语言处理 场景三: 异常模式识别,4 G网络连接正常断开场景: 1 . 8 点3 1 分用户从家里出发上班, 断开w i f i , 连接4 G网络。 2 . 8 点3 1 分到9 点2 9 分一直使用4 G网络, 运营商计费。 3 . 9 点2 9 分用户断开4 G网络, 连接w i f i 。,2019-07-20 08:31:00 INFO 0114720019

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > IT计算机/网络 > 云计算/并行计算

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号