《企业IT智能化统一运营管理解决方案》由会员分享,可在线阅读,更多相关《企业IT智能化统一运营管理解决方案(33页珍藏版)》请在金锄头文库上搜索。
1、企业IT智能化统一运营管理解决方案-企业IT系统监控运维管理平台2目录目录/ContentsContents业务背景概述业务背景概述0101解决方案概述解决方案概述0202业务背景概述14 4IT运维趋势我们正在走入万物互联的数据时代运维在人类未来的生产生活中的作用会越来越重要。预计到2020年全球将有500亿到1000亿的IT设备,这些设备会承载无数的服务,涵盖互联网、金融、物联网、智能制造、电信、电力网络、政府等等的生产生活的方方面面。运维要做的是保障业务能够可靠高速高效安全的运转,因为它会直接影响到业务的收益和成本。万物互联万物互联&数据时代数据时代5 5IT运维重要性运维是企业业务发展
2、的基础保障IT系统架构机房环境硬件设备网络中间件业务数据系统应用IT监控运维业务运营人员方法流程工具可用性成本连续性性能体验设备故障系统异常系统故障系统变更企业企业ITIT监控运维是企业业务正常与高效运转的基础保障监控运维是企业业务正常与高效运转的基础保障系统监控维修更新业务保障应用反馈6 6IT运维现状被动救火式运维模式,业务风险高、运维人员疲于奔命基础设施网络存储服务器虚拟化数据库中间件业务应用IT设备规模大且分散、管理非常困难缺少可视化管理&自动化管理手段IT环境异构、业务系统繁多无法快速适应复杂环境设备的监管运维人员能力层次不齐,服务范围广缺少规范的、自动的IT运维流程化管理业务负载逐
3、年增加,无法确定功能完整可用性业务形态更加多种多样,部署环境愈加复杂为了适应发展的需求,业务调整日趋频繁大数据、云计算、物联网、人工智能等技术的快速演进以及应用,对运维团队提出了更高的要求7 7IT运维挑战随着技术以及企业信息化与数字化的迅猛发展,给IT运维带来了全新的挑战l业务变化越来越快l系统变更越来越频l新系统上线越来越多l业务访问量快速增长l用户体验要求越来越高l业务处理时效性更高l业务中断容忍度更低l高层对IT部门考核更严l系统架构越来越复杂l故障类型越来越多l系统负载更大、故障风险高l故障排查、修复更难l技术快速演进与新技术应用l人员技术能力与经验不足l人员成本越来越高l知识经验无
4、法沉淀外部挑战内部挑战规模更大要求更高变化更快排障更难&8 8IT运维需求企业对IT运维提出新的需求运维视角研发视角业务视角l技术栈越来越复杂,越来越难于监控l各产品线频繁发布,各层面问题不断,传统的监控系统无法提供问题定位能力l多种类型的监控、告警不统一,反而引出额外的关注点l提供开箱即用的监控平台,不需要挤占研发成本l提供应用层面的监控能力,帮助研发团队提高业务平台质量l提供基于日志、链路的监控、告警能力,从而能无侵入的添加业务监控埋点l面对激烈的市场竞争,希望业务系统更加稳定、迭代更加快速l提供业务监控、告警能力,从而及时获取业务增长、业务异常情况l提供异常问题的全生命周期查看、跟踪,从
5、而评估业务损失等后续改进措施l提供统一的标准,用于衡量业务平台的质量,从而有针对性的提出规范l提供统一、开放、开箱即用的监控、告警平台,减少重复投资、提高监控覆盖面,提升整体运维质量,从而提高企业竞争力企业视角9 9因此,构建智能化、主动式的IT监控与运维能力将成为企业的必然选择被动救火式维护智能主动式监控定时粗略巡查等待故障报告人工故障处理实时全面监控分散维护系统集中监控系统自动故障处理提前故障预警u随着业务对IT运维提出的要求越来越高,原来传统的被动救火式的IT运维模式已经不能满足企业的要求,无法为业务的发展提供保障u只有借助当前先进的技术,构建主动巡防式的IT监控与运维体系,能够提前预防
6、并智能化处理系统的各类故障,才为业务的快速发展保驾护航,满足企业对IT的要求高风险低评价离散化人工化低风险高价值一体化智能化解决方案概述21111设计思路通过体系化-自主化-自动化-智能化设计,助力IT运营降本增效企业IT统一智能运营管理平台一期一期二期二期远期远期业务网管日志平台Zabbix大数据平台机器学习平台l基于故障告警自动执行修复命令l周期性任务脚本执行l基于趋势自动运维l基于趋势扩容缩容l基于历史重大事件的自动运维l基于历史数据分析的主动运维智能化自主化自动化一体化基于告警及任务指令基于技术与业务规则基于机器学习模型根据故障告警及所配置的周期性任务等明确的指令自动执行运维工作基于趋
7、势型等规则,根据指标数据自动发现故障并自动执行修复工作基于历史故障与日志等数据,通过自学习模型发现潜在问题与风险并自行处理构建IT一体化运营能力构建从基础设备、系统、业务的统一监控,实现业务系统全面运营CMDB云管平台工单系统一期一期1212管理体系构建面向业务的主动式统一运营理体系构建统一IT运营管理体系,对基础设备、系统、业务进行统一运营管理,提供IT运维监控、业务可视化监控、业务端到端管理、应用质量保障等多个领域的综合运维管理能力,促进中心IT运营降本增效。统一资源管理能力资源数据采集日志统一监控管理能力监控规则告警推送统一运维操作能力流程工具操作配置运维人员综合保障&精细化运维能力业务
8、级可视化运维用户感知统一运维流程管理能力流程规范流程监控全流程业务管理能力业务级运维管理管理人员构构建建面面向向业业务务的的数数据据驱驱动动的的主主动动式式运运维维以数据驱动运营管理,辅助运营运维决策;利用数据可视化技术展示综合运营情况,提供统一运营管理视图,掌握运营态势。构建闭环运维管理,明确职责分工,保障系统稳定运行;固话化运维流程、实现运维流程电子化、移动化;全链路质量管控,业务服务实时监控与分析,保障业务服务稳定运行。对物理、逻辑、应用、业务资源的全面管理;实现对设备、数据、系统等统一监控运营保障;对日常运维操作通过编排,任务定制形成操作场景,实现自动化处理故障恢复。决策人员统一运营分
9、析管理能力运营分析统一运维监控管理视图管理视图综合视图个人视图数据挖掘日常报表流程管理业务链管理1313建设目标实现IT运维工作目标与组织业务目标的融合管理组织制度工具建设目标统一监控智能运维IT运营管理制度IT运营管理流程IT运营管理技术规范标准IT服务台服务支撑组服务协调组通过监控运维人员组织、制度及工具的建设和完善,构建面向“设备-系统-业务”的主动式统一IT运营管理体系,保障各信息系统稳定性和业务的连续性,实现IT监控运维工作目标与组织业务目标的融合管理。l运维目标:系统稳定性、数据完备性保障l业务目标:业务持续、稳定、高效运转1414总体定位利用大数据与AI技术,通过IT设备与系统运
10、行指标数据的深度挖掘,实现智能化IT监控与运维预防查找潜在风险,提供主动预防策略预测构建模型,预测未来趋势分析分析历史数据辅助根源问题分析整合整合历史监控数据,辅助IT系统综合管理监控监控当前IT系统整体运行的状态企业IT统一智能运营管理以大数据分析能力支撑的智能IT监控运维管理平台机器数据分析传统ITSM、APM、NPM、SOC、CloudManagement保障业务、降低风险、提升效率构建智能化运维体系自主化智能化多维度精细化一体化可视化1515总体蓝图IT统一智能运营管理IT物联网大数据云计算智能故障分析大屏统一监控快速故障修复信息推送与告警故障报告数据汇集深度分析发现故障/风险数据分析
11、可视化展示信息推送报表管理资源管理智能监控运维流程管理操作管理运营分析调整算法查收报告整体监控信息配置处理告警处理故障设置任务数据采集主动探测告警、修复识别、预测实时任务定时全面多维智能基础能力CPUCPU、存、存储、网络储、网络资源数据资源数据中间件、中间件、数据库、数据库、应用服务应用服务企业IT统一智能运营管理方案基于大数据技术,参照ITSS、ITIL等技术与行业标准,为企业(单位)注入业务化、规范化、智能化的系统运营与维护能力,助力构建完善、科学的平台运维体系,以确保整个业务的高效运营。统一门户设备网络存储主机中间件应用日志链路业务1616总体架构基于“统一技术+业务中台”架构设计,支
12、撑“统一规划+分步实施“的建设模式监管对象设备网络系统中间件业务/应用日志后台计算资源存储资源网络资源标准接口中台基础能力核心能力平台管理组织管理用户管理角色管理权限管理配置管理日志管理运维管理中心智能监控中心资源管理中心运营分析中心告警管理中心AI算法引擎流程管理引擎分布式框架分布式存储搜索引擎分布式缓存服务调度流处理引擎消息引擎数据共享服务前台统一门户PC端移动端大屏统一运维管控平台采用中台技术架构,整个架构核心由基础能力平台、核心能力平台及统一门户组成。管理人员管理人员运营人员运营人员运维人员运维人员普通普通人员人员1717功能架构用户管理系统管理权限管理参数配置流程管理日志管理消息管理
13、指标采集数据管理数据清洗探伤管理数据管理数据模型算法管理任务调度设置配置管理清洗规则配置监控模型配置告警规则配置诊断知识配置运维知识配置业务管理监控应用管理资源管理监控系统管理监控对象管理监控设备管理监控任务管理监控管理监控模型管理监控记录管理监控指标管理告警消息管理告警管理告警事件管理告警处理分派告警规则管理诊断任务管理诊断管理诊断知识确认诊断结果确认诊断知识管理运维任务处理运维管理自动运维管理运维记录管理运维知识管理故障处理管理故障管理人工故障登记故障汇总管理告警故障确认监控告警处理应用门户故障管理分析运维任务管理大屏监控大屏监控数据统计1818总体流程系统具备智能化的IT设备与系统(故障
14、/风险)智能化监控,及自主化运维能力,不仅可以及时发现各类故障以及潜在的故障风险,还可以在确诊故障后进行主动的故障修复处理,实现IT运维工作的智能化与自主化。监控数据采集指标数据清洗故障告警监控设备故障告警故障风险告警智能故障诊断故障原因确诊自动故障修复人工故障修复人工风险确认告警事件库故障库人工故障处理发现发现故障故障识别识别风险风险智能风险诊断故障原因疑诊人工执行修复任务任务派送派送自动执行自动执行任务派送任务派送任务任务派送派送确认确认故障故障按照给出的解决方案执行即可原因诊断,处理建议原因诊断,处理建议原因诊断,处理建议原因诊断,处理建议清清洗洗规规则则监监控控模模型型诊诊断断知知识识
15、库库机器学习素材库自动生成监控等规则指标数据库诊诊断断知知识识库库1919统一门户面向不同角色与场景,提供可视化的集中监控应用,全面感知系统健康度统一门户以使用角色和场景展现统为主线,面向不同使用者特定场景,实现对业务、系统资源或能力的“可视”、“可控”、“可追溯”,分角色分权限向决策层、管理、基层维护人员提供统一的运维视图。而数据可视化支持PC、大屏、手机等多端展示,让不同人员可以实现随时、随地的可视化的平台运维管理。01统一门户提升效率02数据可视化,全面感知03移动APP,随时随地高效办公2020资源管理对系统资源进行全面、全过程规范管控,实现平台资源的可控、可视、可靠平台资源管理中心通
16、过构建CMDB,将企业/单位所涉及的资源数据集中、统一标准化管理,实现资源数据全生命周期的唯一性、准确性、完整性和可维护性,为IT运维提供准确的基础资源数据,为业务的高效运行与维护奠定基础。Hypervisor虚拟化网络中间件存储服务器数据库进程资源各类IT与系统资源对象资源配置维护资源配置维护资源自动发现资源自动发现资源关系自动发现资源关系自动发现资源关系维护调整资源关系维护调整CMDB标准化唯一性准确性完整性资源配置管理资源基线管理资源下线、报废资源上线管控流程资源状态变更管控资源自动稽核资源准确性稽核资源合规性稽核2121智能监控-多维监控从多个维度进行运行监控,保障应用与业务的可用和连续性系统A系统B系统C系统D系统E系统F系统主机操作系统数据库中间件应用服务部门A部门B部门C部门主管业务骨干技术专家技术业务管理T T从技术角度发现问题从技术的角度来对系统运行状态进行分析,识别、预测并排除故障,保障系统可用。B B从业务视角排除故障从业务的视角来分析故障带来的影响,排除故障,确保系统业务的可用与连续性。M M从管理视角分析风险从管理的视角来检查使用状态与分析问题和风险,确保系统