探针式BOSS业务监控系统

上传人:枫** 文档编号:433156418 上传时间:2024-01-11 格式:DOC 页数:30 大小:8.33MB
返回 下载 相关 举报
探针式BOSS业务监控系统_第1页
第1页 / 共30页
探针式BOSS业务监控系统_第2页
第2页 / 共30页
探针式BOSS业务监控系统_第3页
第3页 / 共30页
探针式BOSS业务监控系统_第4页
第4页 / 共30页
探针式BOSS业务监控系统_第5页
第5页 / 共30页
点击查看更多>>
资源描述

《探针式BOSS业务监控系统》由会员分享,可在线阅读,更多相关《探针式BOSS业务监控系统(30页珍藏版)》请在金锄头文库上搜索。

1、 中国移动通信科技进步奖励申报书项目名称:探针式BOSS业务监控系统的研究及应用 申报单位:中国移动通信集团浙江有限公司中国移动通信集团公司2009年11月4日一、项目基本情况项目名称中文探针式BOSS业务监控系统的研究及应用英文The Research and Practice of BOSS Applications Monitor System Based on Probe主要完成人主要完成单位中国移动通信集团浙江有限公司主 题 词业务监控、BOSS监控、探针、业务预警、健康度、故障定位任务来源A . 中国移动通信集团公司计划 项目起止时间 起始: 2007 年 7月 5 日 完成: 2

2、009 年 6 月 1 日二、项目简介(不超过800个汉字)有别于通信网,中国电信运营商的运营支撑系统(BOSS)从诞生的那天起,就存在一个“可监控性差”先天性软肋。从02年开始中国移动业务支撑系统(BOSS)全面实施以省为单位的集中化建设,各省BOSS系统规模和能力不断扩大,BOSS系统已成为一个通信运营商的核心竞争力之一。然而,BOSS系统的运营监控能力提升不明显,IT模式的支撑系统建设,导致BOSS缺乏有效的监控。懦弱的BOSS维护三部曲模式:客户投诉-发现故障-故障修复。BOSS监控存在核心问题是:没有一种好的BOSS系统运营评价机制,没有能力提前“预知”故障的发生。传统的BOSS监控

3、仅能简单的收集主机、数据库的参数状态,未能从业务应用的整体有机的进行监控和管理。为解决以上问题,我们建设了探针式BOSS业务监控系统:首先它针对BOSS的核心业务,建立能够反映业务运营状态的CI/KQI指标体系,如:一分钟充值笔数;然后在BOSS系统上部署主动式探针采集各项业务指标值;接着进行业务监控度指标健康度模型,全面表征BOSS系统业务运营状态,实现了业务运营的提前预警;最后应用BOSS系统的资源配置,快速定位故障(或即将发生故障)所在环节点。同时还提供了大量翔实准确的业务活动综合分析功能,帮助运维人员进行主动式的业务运营管理,真正做到了“防患未然,御变于先”,最大化业务价值,提升最终用

4、户满意度。本项目建设过程中实施了多项创新技术,已申报了五项国家专利,并在2009年全国业务支撑工作会议上专题介绍推广。主要特点是:一是突破传统以设备监控为主的BOSS监控定式,解决了设备状态表征业务运营的不准确性,开创了BOSS业务应用监控新时代;二是通过建立业务健康度评价模型,有效发现潜在业务威胁,自此BOSS业务运营的好坏有了一个客观的评估标准模型;三是采用BOSS业务探针实现BOSS业务信息数据采集,确保信息采集对BOSS零改造、零影响、全自动、全再现;四是突破性的解决了业务可用性的预警难题,实现BOSS端到端的业务监控,通过建立实用简洁的预警模型,解决了业务端到端“软故障”的监控盲点问

5、题;五是通过巡航式坐标导向,实现BOSS故障原因快速定位与查找;六是建立了三维立体业务监控视图,提供了BOSS运管的基础平台,实现用户业务体验的立体监控运营管理。在本项目试运行以来,系统效果相当显著,月均成功预警业务问题29次,预警有效率和覆盖率均达到96以上,预警时间点比传统模式告警和客服报障平均提前42分钟,方便维护人员提前介入,避免了故障的发生,每月减少BOSS核心系统故障37分钟。通过业务故障快速定位,使业务故障处理时长平均缩短了42%。充分实现了提前预警避免故障为主,故障发生后快速定位修复为辅的项目目标。三、项目详细内容1、 立项背景(不超过800个汉字)BOSS系统集中化建设完成后

6、,BOSS系统的运营维护的重要性是不言而喻的。BOSS系统故障会引起营业厅关门、客户升级投诉等重大问题发生,严重影响公司业务的正常运营。为此,每年各省公司投入近百人员、上千万元资金进行BOSS运营维护管理。由于BOSS系统一直以来采用IT模式建设,可靠性、可维护性离电信级产品差距较远。目前BOSS运营维护管理面临的主要问题有:(1)业务应用监控困难,BOSS业务状态缺乏评估模型缺乏对业务“软故障”的监控手段,对渐进式的业务故障很难做到及时发现,缺乏有效的指标表征业务应用的运营状态,不知不觉中,故障已发生,目前业界没有一个模型可评估BOSS的运营状态,对业务支撑系统应用的实时有效监控一直是世界性

7、难题。(2)BOSS监控被分块割裂,无法实现端到端的监控 BOSS网管只能独立地进行设备状态的监控,但因BOSS系统是由主机、存储、中间件软件、数据库、应用软件联合组成的,每个环节问题都会造成BOSS故障,现有分块式监控无法实现BOSS整个业务链、整体式监控。(3)故障发生时,无法快速故障定位缺乏业务与后台资源关联模型,发生系统故障后不能准确定位业务影响;系统后台处理仍处于“黑盒子”状态,得知业务故障后也无法快速定位故障原因,造成发生业务故障后不能快速定位故障原因,客观上延长了故障处理时间。(4)运营信息分散,分析不到位业务实时效率、办理量、成功率和服务投诉等数据,分散存放在各自生产系统中,维

8、护人员为获得这些信息,需不断到生产系统的后台上提取数据,严重影响生产系统的安全性。BOSS运维人员一直希望能有一站式运维界面,全面掌握各种运营信息。 (5)为获得BOSS业务信息,需大规模改造BOSS,造成巨大的风险和财务成本为了解决BOSS系统的业务监控问题,集团公司下发了相关业务技术规范。业界曾有尝试尝试在BOSS系统中直接增加维护代码模式,但因与BOSS系统捆绑太密切,无法推广到其他省。本系统是在集团公司规范基础上,采用了探针式提取、指标引导、建模驱动方式,打造一站式端到端BOSS业务监控系统,从传统的以主机、存储等硬件监控为主要手段,转变为以BOSS业务应用监控为核心,满足BOSS运营

9、管理需要。 本系统07年开始了BOSS的停机复机、开户销户等三个核心业务模型试点监控建设,目前已逐步推广到整个BOSS的门户、渠道、综合查询等子系统;在采集的具体技术应用上,从最初的BPM模式探针,发展到RUM网络采集探针。2、 详细技术内容(不超过1000个汉字)(1) 系统架构 探针式BOSS业务监控系统整个系统由五层组成(图1):数据采集层、业务建模层、数据聚集层、告警管控层、分析展示层。数据采集层是基础,对于采集难度最大的应用数据,本次创新性使用探针模式。在业务建模层方面,应用CI模型,建立业务应用的监控度模型和可用性模型。各层的具体功能如下:业务建模层数据聚集层告警管控层分析展示层C

10、I模型KPI模型健康度模型可用性模型全量数据监控业务探针模拟业务体验数据采集配置数据趋势阈值告警告警通知拓扑分层视图状态维度视图自动运维报告生成业务多维度分析耗时细分环节定位业务逻辑拓扑物理关联关系综合数据集成应用平台性能告警数据预警管理告警定位处理全路径资源定位业务全景展示业务分析报告数据采集层业务应用数据库中间件主机存储/备份网络图1:系统架构图(2) 数据采集层在业务健康度建模和可用性建模中,业务应用数据采集是基础。本系统数据采集采用了3种探针(图2):探针A直接模拟BOSS前台业务操作,采集到BOSS门户各应用的可用状态;探针B将BOSS后台数据操作日志统计值发送业务监控系统,采集到B

11、OSS后台系统运营状态;探针C从BOSS接入交换机中全量采集BOSS交易记录,第一时间采集到实际BOSS运营的状态。 建模和故障诊断所需要的其他数据库、主机、中间件的数据信息采用SMNP协议采集。图2: 三种监控信息采集模式图2:三种探针采集资费配置相关BOSS门户渠道系统综合查询其他子系统BOSS系统BOSS客户端BOSS业务监控系统A式探针B式探针C式探针BOSS维护人员(3)业务建模层BOSS业务监控可量化是本系统的一个创新,而量化管理的根本就是实现指标管理。在业务建模层中统涵盖了几乎所有的BOSS管理资源要素,包括业务、应用、服务及其他平台类资源,这些信息都建立并实时更新于企业集中的C

12、MDB中。基于CMDB中动态调整的实时CI项以及CI关系,本项目以结构化的模型框架为指导,建立了完整的业务CI/KPI指标体系,并绘制以业务为中心的BOSS系统地图。本项目与传统系统监控最大的区别就在于监控的角度不同,从原来自下而上评估业务状态和影响,变成以结构化模型框架的为指导,以对体系化的CI/KPI指标监控来了解业务状态和定位业务故障。指标体系的建立是以业务为主线的,按照业务-应用-平台的分层结构,针对每一层设定了支撑域、运营域和服务域的指标分类标准,并在这些指标基础上通过关系推导和加权计算实现创新的业务健康度量化模型。目前CI/KPI指标体系已包括337个CI,1020个KPI,涵盖了

13、业务、服务、应用、进程、数据库、Web服务器、中间件和主机等各个方面。(4)数据聚集层在确定的CI/KPI指标模型基础上,系统汇聚了与业务相关的各类用户体验指标:业务监控数据(业务可用性、业务量、业务办理时长、业务的后台服务器负载情况等)、配置数据(从CMDB中定时同步配置项信息和配置关联信息),业务感性数据(业务量、积压量和投诉等信息),使得运维人员不仅能直观得到客户层面的业务使用感知,还能从IT支撑角度掌握业务运行情况。(5)告警管控层本系统通过采集了业务全方位数据,了解了比其他系统更多,更全的数据。综合这些数据并按照历史数据和运维经验,通过设定灵活的提前预警条件形成预警模型。当预警模型条

14、件都满足的情况下,通过工单系统发出相关的预警工单,使运维人员及时处理,避免实际的业务中断。本系统通过提供了基于逻辑拓扑的全路径故障资源定位和基于业务操作耗时细分的故障环节定位功能。通过对逻辑拓扑中WEB、中间件和数据库层的全路径业务模拟,都能将故障具体到集群中的某个服务器和某个应用端口;通过包括网络耗时和后台耗时等的业务操作耗时细分,究竟是网络问题还是后台问题也就能清晰的展现在运维人员面前。(6)分析展示层BOSS业务监控系统包含了多个采集了各类业务运营情况的特征值,获取了综合性反映业务状态的指标,同时为了使运维人员直观方便的全面了解业务运营情况变化,构建了业务全景视图以支持对各类指标的一站式

15、查看。在丰富的图表展示基础上,系统提供钻取方式层层进入非常详细的原始数据,方便运维人员分析业务与支撑之间的关系,从而不断改进系统支撑短木板,提高总体的业务支撑服务水平。3、主要技术创新点(不超过800个汉字)(1)突破传统以设备监控为主的BOSS监控定式,开创了BOSS业务的整体式监控模式 由于没有合适的工具,各省BOSS网管系统一直只能采用监控BOSS的硬件设备运营状态来判断BOSS是否可用,如:数据库是否吊死、主机的CPU使用率、内存使用率。这种粗放的监控存在很大的弊端,实际工作中经常发现硬件系统各项指标完好,但BOSS系统应用已故障。 本系统采用在BOSS业务系统中设置应用探针方式,通过探针提取业务应用信息指标,通过硬件、中间件、数据库及应用联合指标建模,实现了BOSS业务的整体式监控。(2)通过建立业务健康度模型,解决BOSS难以量化管控难题针对业务运营情况缺乏有效的分析指标,这主要是因为业务层层嵌套

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号