《数据库中间件运维管理方案.doc》由会员分享,可在线阅读,更多相关《数据库中间件运维管理方案.doc(46页珍藏版)》请在金锄头文库上搜索。
1、湖南烟草商业系统数据库中间件平台运维管理方案北京中软国际信息技术有限公司目 录1.1 前言11.2 名词界定11.3 运维管理框架21.4 服务组织管理31.5 集成服务内容51.5.1 建立主机档案51.5.2 日常监测与维护服务61.5.3 巡查服务71.5.4 值班服务91.5.5 现场技术支持服务101.5.6 软件升级与系统安装服务101.5.7 参与主机系统重建服务101.5.8 系统问题响应服务101.6 集成运维服务流程121.6.1 日常检查与维护流程121.6.2 周巡查例会管理流程151.6.3 周运维报告提交流程161.6.4 月管理例会流程161.6.5 软件升级与系
2、统上线流程171.6.6 问题响应流程191.7 服务质量管理251.7.1 服务质量监督251.7.2 服务质量问题响应261.7.3 服务质量考核与评价271.8 集成工作分工界面291.9 系统安全访问管理311.10 集成运维管理工具311.11 附件331.1 前言随着湖南烟草应用集成平台的建成和应用集成工作的开展与逐步完善,统一、规范的运维管理成为了湖南烟草应用集成后续工作的又一项重要工作。即通过流程化的管理机制,借助一些专门的软件工具,对企业信息网络和应用软件进行实时监控,并通过建立指标阀值在故障发生前的萌芽状态就发出警报、排除故障,从而使企业整个信息网络保持高效、稳定和安全的运
3、行。规范、统一的IT运维管理是确保湖南烟草公司信息系统稳定运行,核心业务正常运转的一项重要的信息化工作。湖南省烟草公司业务与应用集成平台分布在省烟草公司及其下属的14家分市公司,运维管理工作有着维护面广、管理难度大、技术复杂的特点,需要有一套规范的管理流程和规范来确保运维工作的高效率和可操作性。1.2 名词界定l 用户:湖南省烟草公司及其下属14家分市公司。l 应用集成商:集成产品和系统软件的供应商,并负责集成产品和系统软件的安装、调试和运维。l 系统集成商:负责网络主机系统的安装、调试和运维。l 系统软件厂商:数据库系统、Web应用服务器原厂商。l 集成产品厂商:集成平台产品的原厂商。l 硬
4、件产品提供商:主机、存储设备的供应商或原厂商。l 业务系统开发商:专卖等业务系统的开发商。l 平台主机:湖南省烟草公司及其下属14家分市公司安装有集成平台的主机服务器。l 测试主机:湖南省烟草公司安装有集成平台的、用于业务系统上线测试的主机服务器。1.3 运维管理框架现代IT运维管理是在配置、监测、分析、远程作业等现代化手段支撑下,实现分布式信息资源的统一监控、统一管理、统一维护,确保在分散和高度复杂的应用环境下关键应用的稳定运行。数据和应用是湖南烟草的核心IT资源。它们分布在14家分市公司和省公司信息中心主机机房,通过网络联系在一起。对于分布式系统资源,统一、标准和集成性使管理可以在统一的技
5、术标准与管理规范下通过各种技术手段实现全省的集中管控,达到运维管理效能的最大化。1.4 服务组织管理1)组织结构2)人员要求a) 运维技术小组应有至少一名管理负责人,负责管理运维技术小组工作,同时也是与用户的固定接口人,这样便于用户任务的下达、落实和工作中的问题协调;b) 运维技术小组至少要有一名技术负责人要全面掌握集成工作,在小组成员缺席的情况下,仍能够解决问题,确保系统正常运行;推荐技术负责人与管理负责人为同一人,便于协调管理;c) 运维技术小组成员要有独立完成某项技术工作的能力,要有工作经验。技术能力主要体现在Web应用服务器方面、数据库方面、集成中间件产品方面、以及烟草业务与企业管理方
6、面;另外,技术能力应有侧重,最好具有其中某个方面的技术认证;但是,三人又要具有三个方面的基本知识,能胜任日常的运维工作;d) 运维技术小组成员要能够使用IBM Tivoli 系统监控工具,通过Tivoli监控系统实现系统关键指标预警、完成日常检查、做出系统运行情况分析、提出系统调优方法、扩容建议等;3)运维技术小组成员要分工明确、责任清晰;小组技术人员的任务分配要有方向性,任务与技术能力相匹配,即偏重于网络与操作系统方面、数据库方面或中间件产品方面中的任何一个方向上;但是,小组技术人员都要胜任日常的运维工作;4)运维技术小组的人员更换或撤离现场,必须要经过用户确认;5)湖南烟草集成平台产品分布
7、在省烟草公司及14个分市公司,因为主要采用在省公司集中维护方式,建议运维技术小组人数在3至5人,人员数量可以随着集成平台稳定运转的时间推移而减少。1.5 集成服务内容1.5.1 建立主机档案建立平台主机档案,对平台主机进行编号,记录平台主机以及其上的集成产品的基本信息,便于查询和管理。平台主机的编号如下:单位主机编号省烟草公司SHENGGS1、SHENGGS2长沙市公司CHANGSHA1、CHANGSHA2绍阳市公司SHAOYANG1、SHAOYANG2岳阳市公司YUEYANG1、YUEYANG2益阳市公司YIYANG1、YIYANG2衡阳市公司HENGYANG1、HENGYANG2株州市公司
8、ZHUZHOU1、ZHUZHOU2郴州市公司CHENZHOU1、CHENZHOU2永州市公司YONGZHOU1、YONGZHOU2常州市公司CHANGZHOU1、CHANGZHOU2湘潭市公司XIANGTAN1、XIANGTAN2娄底市公司LOUDI1、LOUDI2怀化市公司HUAIHUA1、HUAIHUA2张家界市公司ZHANGJIAJIE1、ZHANGJIAJIE2湘西自治州局XIANGXI1、XIANGXI2主机档案记录主机基本信息如下:1)主机品牌、机型2)主机硬件配置(CPU、内存)3)主机网址4)数据库系统配置(产品版本、安装位置、分区、内存分配等)5)应用服务器配置(产品版本、安
9、装位置、数据库连接数等)需要说明的是14家分市烟草公司的主机配置完全相同。配置信息只需要记录一套。主机档案会随着未来系统产品的升级、调试而发生改变。1.5.2 日常监测与维护服务业务系统与集成环境的运行监测检查是应用集成运维管理的基础性的日常工作。具体监测检查对象包括湖南省烟草公司及其下属14家分市公司的数据库系统、应用服务器系统和集成平台中间件产品。运维技术小组每日对检查对象进行例行检查,一日四次,检查各种技术指标。具体指标参见下表。检查工作是通过IBM Tivoli工具完成的。该工具可以实时、准确的监测到平台主机、及其上层的应用系统和数据库系统的运行状况。这样不仅可以避免直接接触主机系统而
10、且可以实现全省的集中管理。具体监测指标见下表。监测类型监测指标系统监测CPU user usage空闲内存空间用户内存空间磁盘IO数据库监测Instance状态数据库的连接数死锁数量数据库RESTORE PENDING状态最近的数据库备份时间DMS表空间使用率SMS表空间使用率表空间状态应用服务器监测监控WAS Application Server的状态监控Websphere 数据库连接池的性能监控JVM Runtime的性能监控HTTP会话的性能运维技术工程师每次会填写检查日志,记录下监测结果,作为历史追踪和未来系统运行风险分析和资源利用率分析的基础指标。检查日志模板参见附件。1.5.3 巡
11、查服务巡检是将问题和故障消灭在萌芽期的主要手段,事实上90%以上的故障都是有前兆的,能否尽早及时发现这些故障的前兆,是提高维护效率的主要途径,通过巡检,将被动服务转为主动服务。巡查服务是例行检查服务的补充,从管理上更好的督促检查工作的落实,提高云维质量。具体的巡查服务项目如下:1)每周,现场运维技术人员与14家分市公司信息中心召开电话会议,通报一周监测情况、解答技术问题。为了提高会议效率和质量,14家分市公司分为四个小组,每周一、周二、周三、周四组织不同小组开会交流;会后编写会议纪要,回传给各地信息中心相关人员;会议纪要模板参见附件。分组分组编号市烟草公司会议时间第一组HNZHY1长沙市公司周
12、一绍阳市公司岳阳市公司益阳市公司第二组HNZHY2衡阳市公司周二株州市公司郴州市公司永州市公司第三组HNZHY3常州市公司周三湘潭市公司娄底市公司第四组HNZHY4怀化市公司周四张家界市公司湘西自治州局会议内容主要包括:a)运维技术小组向与会分市公司就近七天的系统运行情况进行分析说明,指出系统运行问题或运行风险,引起各地信息中心注意;b)解答各分市公司有关集成平台的技术问题;c)与分市公司交流下周工作重点。2)每周,现场运维技术人员向总部上报周运维报告,由总部技术负责人和项目管理办公室检查工作情况,对现场工作和现场问题做出明确批示,回复现场技术人员并转发用户方领导;3)每月,现场维护小组与省烟
13、草公司信息中心召开一次任务分配与总结会,向省烟草公司信息中心汇报工作,听取下月信息中心的工作安排;4)每季度,公司派出项目管理办公室成员和集成技术负责人到湖南烟草公司现场进行巡视工作。1.5.4 值班服务因为卷烟销售业务在节假日期间不休息,考虑到节假日期间的系统需要照常运转,所以运维技术小组要提供值班服务。值班工作主要是沿用“日常监测与维护服务”,遇到系统出现问题将转入“问题响应服务流程”。1.5.5 现场技术支持服务运维技术小组负责向省烟草公司及其下属分市公司信息中心解答关于应用集成方面的技术架构问题、接口实现问题、软件部署问题,以及关于集成标准规范方面的问题。1.5.6 软件升级与系统安装
14、服务运维技术小组要在烟草公司信息中心的授权下,负责安装平台主机和测试主机上的集成平台产品、数据库系统和应用服务器系统的补丁包程序以及升级产品;负责湖南烟草业务系统的部署和参数配置。1.5.7 参与主机系统重建服务平台主机系统是湖南烟草核心业务的运行平台,平台主机的重建工作需要一个严格的管理过程。运维技术小组必须在用户的许可下,配合系统集成商,完成平台主机的重建工作,具体包括安装WEB应用服务器、数据库系统和应用集成平台产品,部署业务系统;1.5.8 系统问题响应服务监测、巡查等运维工作是为了预防系统出现问题,而一旦出现问题快速响应服务就成为运维工作的一项重要内容。问题响应服务具体包括:1)简单
15、问题响应服务。当问题反映给运维人员后,运维技术工程师首先要填写问题记录单(参见附件),然后对问题的原因和造成的影响做出初步判断,判断出问题的严重程度和复杂程度。对于那些可以快速解决的简单问题,比如误操作引起的错误,与信息中心汇报后可以立即解决;2)重大问题响应服务。当系统问题导致业务不能运转或关键数据丢失等问题发生时,属于重大问题事件。重大问题一般属于突发事件。当重大问题发生时,运维技术小组应立即组织人员定位问题,提出解决方案。如果远程不能解决,应立即派工程师现场解决;3)复杂问题响应服务。复杂问题是指难于解决的问题,包括问题难于定位,问题难于解决两种情况。复杂问题多由综合原因导致,需要找出导致问题的关键因素,一