《IT服务管理的实践与总结》由会员分享,可在线阅读,更多相关《IT服务管理的实践与总结(52页珍藏版)》请在金锄头文库上搜索。
1、 IT服务管理的实践与总结光大银行IT服务管理建设的回顾与发展内容提要内容提要p背景介绍背景介绍nIT建设背景、ITSM项目背景、运行资源背景p初步建设初步建设n项目启动、项目实施、收益与问题p持续完善持续完善n工具挖潜、流程落实、人员转变、制度配套p当前状态当前状态nITSM基础、人员专业分工、流程的细化、ITSM成本问题背景介绍背景介绍IT建设背景、ITSM项目背景、运行资源背景背景介绍pIT生产系统背景n2000年-4套,开始集中建设n2005年-35套 初步形成规模,带来运行管理压力n2008年-150套 ITSM建设的急迫性pITSM项目背景n2003年开始登记整理故障记录等n200
2、4年开始ITSM理论接触n2005年6月启动(一次故障启动)p运行资源背景n2005年前操作员、系统管理员,被动式管理n2006年开始,人员细分,主动式管理(投产审批及标准)初步建设初步建设项目启动、项目实施、收益与问题IT系统的快速发展与变化系统的快速发展与变化p初期目标:初期目标:nIT运行信息控制运行信息控制(CMDB):以运行维护为导向,配置内容:服务器、以运行维护为导向,配置内容:服务器、网络端口、操作信息、文档、帐户、备份介质、监控体系网络端口、操作信息、文档、帐户、备份介质、监控体系.;n完备监控体系的建设:统筹考虑监控工具、人员、制度及流程,充分完备监控体系的建设:统筹考虑监控
3、工具、人员、制度及流程,充分利用监控环节的各类信息;利用监控环节的各类信息;n事件处理的初步控制:对事件进行分类、登记、跟踪,并做事后分析事件处理的初步控制:对事件进行分类、登记、跟踪,并做事后分析与评估,促进优化监控、系统管理等工作(无细化的处理流程)与评估,促进优化监控、系统管理等工作(无细化的处理流程) ;n变更的管理:对各类变更事件首先以变更的管理:对各类变更事件首先以CMDB为核心进行评估与控制,为核心进行评估与控制,为后续阶段的质量管理等奠定基础;为后续阶段的质量管理等奠定基础;n操作环节的控制:对操作环节的控制:对56套生产系统的每日套生产系统的每日300个操作任务进行自动化个操
4、作任务进行自动化控制与调度;控制与调度;p按需建设:按需建设:n按照当时的需要,只针对配置、事件、控制与监控进行建设,解决当按照当时的需要,只针对配置、事件、控制与监控进行建设,解决当前矛盾;前矛盾;nITIL的其它部分在初期不加以实施,但做总体考虑(如:的其它部分在初期不加以实施,但做总体考虑(如:SLA););n实施的计划要充分考虑各类成本以及自身资源(如:人员的内部培养、实施的计划要充分考虑各类成本以及自身资源(如:人员的内部培养、外部聘用、专业服务购买)外部聘用、专业服务购买)IT系统的快速发展与变化系统的快速发展与变化p简洁实用简洁实用n对于各类流程根据实际情况先简单实现,不按照IT
5、IL模型照搬;(如:事故处理流程,人员矩阵式配置)n人员角色采取有重点逐步过渡的方式;(如:一线监控人员)n各类制度是推动ITSM建设的关键,保证制度具有可操作性,具备:人员角色、职责、流程、考核等关键要素;(如:作业调度使用管理规定)n责任到人、考虑与待遇配合,有专人负责流程并提出修改意见;(如:运行主管、交接班管理)p持续演变持续演变n事件、变更与配置等是一个循序渐进的过程,分阶段由简单到复杂;(一期项目做,二期可能还需要做)n人员、制度、流程与工具都要根据情况不断调整;(如:监控的四个流程自检、调整、判断、分析及一个报告重点、隐患、解决)IT服务管理建设的初步目标服务管理建设的初步目标日
6、常运维有效管理日常运维有效管理日常运维管理的核心内容日常运维管理的核心内容企业企业ITIT基础部件基础部件主机等硬件存储设备各类系统软件 各类应用软件 各类通讯线路 各类文档流程 各类配置参数日常运维有效管理的目标日常运维有效管理的目标 保障ITIT系统的稳定与效率从容应对各类紧急事件合理的ITIT系统架构设计流程控制流程控制工作流程控制操作流程控制全面的监控体系全面的监控体系IT基础环境监控应用系统检查系统性能管理 总体运行情况分析总体运行情况分析总体运行情况分析总体运行情况分析CMDB、事件、配置、变更事件、配置、变更CMDB配置管理从项目开始的理想设计到实际应用的逐渐过度CMDB初期的理
7、想化初期的理想化CMDB的实用化的实用化以系统运行为主导、考虑以系统运行为主导、考虑ITIT审计等需要;审计等需要;每类每类CICI都要考虑相关的责任人;都要考虑相关的责任人;CICI之间的关系更重要;之间的关系更重要;每类每类CICI都对应一定的流程都对应一定的流程CMDB的实用化的实用化既是软件的架构也是监控信息既是软件的架构也是监控信息监控体系的建设系统监控在运行管理中的功能系统监控在运行管理中的功能p运行运行管理管理架构的建设架构的建设建立IT运行的预警机制:提高故障主动发现的比率建立系统的评估机制:基于数据对系统性能、容量评估建立IT运行质量控制机制:问题的预先解决、质量把关p是是I
8、TIT服务管理体系的基础服务管理体系的基础奠定数据基础:真实的运行数据奠定控制基础:事故发现、定位、处理的基础奠定知识基础:监控消息的“消化”,形成知识库(专业服务)奠定人员基础:监控环节不仅仅是一类人员的工作奠定流程基础:是各类流程的起点,也是监视环节Page 14监控在监控在ITSM中的功能中的功能n以以OVO为基础的监控工具体系为基础的监控工具体系OVO服务器服务器LOGLOGIC对对SYSLOG日志的搜集日志的搜集过滤、报警过滤、报警SNMP转发转发OVO的各类的各类AGENT各类设备的各类设备的SNMP应用自定义的服务应用自定义的服务检查流程检查流程ECC、ISEE加密机加密机专用设
9、备专用设备各各类类报报警警消消息息故障工单故障工单OVSD:1.控制故障解决;控制故障解决;2.控制监控部署;控制监控部署;3.控制监控策略;控制监控策略;4.控制故障判断;控制故障判断;质量控制质量控制安装配置标准安装配置标准测试的标准测试的标准检查的标准检查的标准控制的标准控制的标准OVSD与与OVO的配合(日常工作流程)的配合(日常工作流程)与与IT服务管理中其他功能的关系服务管理中其他功能的关系n与事故处理的关系与事故处理的关系p对于事故的发现与定位,主要依靠监控体系,同时对于没有在监控体系发现与定位的事故,必须认真评估,查找原因后不断修补监控体系,提高OVSD中故障主动发现的比例;n
10、与变更管理的关系与变更管理的关系p在变更过程中必须考虑监控和检查手段;p在发现监控体系漏洞后必须通过变更环节协调CMDB中CI修改;n与配置管理的关系与配置管理的关系p在配置管理数据库(CMDB)建立应用系统监控信息,针对任何投产的应用系统,能够明确其构成结构及对应监控手段,建立完整的应用架构档案(可考虑SN的展现);n与系统开发的关系与系统开发的关系p在应用开发阶段,逐步按照应用系统投产文档建立规范完善架构设计、容灾、容错、性能等环节,并最终产生移交文档;(质量控制)(质量控制)p将移交文档在监控、配置管理等环节实施;监控系统有效运行流程监控系统有效运行流程_(新系统投产)(新系统投产)开发
11、人员开发人员 建立应用可用检查清单按照:按照:1)IT基础环境;基础环境; 2)应用可用检查;)应用可用检查;两个项目形成投产两个项目形成投产监控档案监控档案在在OVO中部署各节点及层面的中部署各节点及层面的监控模板,设置特定阀值监控模板,设置特定阀值实施应用可用的:实施应用可用的:1)特定检查;)特定检查;2)服务检查;)服务检查;系统管理员系统管理员 建立应用IT基础环境检查清单监控管理员监控管理员依照以往经验建立应用可用基础检查清单1)通过)通过OVSD变更流程登记;变更流程登记;2)变更)变更OVSD问题库协调一线问题库协调一线监控人员;监控人员;3)统一报警到)统一报警到OVO平台;
12、平台;一线监控人员一线监控人员监控监控OVO 对:1)IT基础环境严重报警;2)应用可用严重报警;发起事故工单协调责任人处理按授权启动应急流程监控系统有效运行流程监控系统有效运行流程_ (持续维护)(持续维护)OVO监控平台监控平台一线监控人员一线监控人员监控监控OVO对: 1)IT基础环境严重报警;2)应用可用严重报警;发起事故工单协调责任人处理按授权启动应急流程 OVSD平台平台开发人员开发人员 建立应用可用检查清单系统管理员系统管理员 建立应用IT基础环境检查清单监控管理员监控管理员依照以往经验建立应用可用基础检查清单按管理规定监控并发起报警用户投诉用户投诉检查:检查:1)所有事故来源为
13、监控体系)所有事故来源为监控体系的有效性;的有效性;2)未被监控体系发现的事故,)未被监控体系发现的事故,确认监控检查方式;确认监控检查方式;事故管理ITSM建设初期目标建设初期目标_事故处理事故处理事故的分类,由值班人员统一跟事故的分类,由值班人员统一跟踪踪ITSM建设初期目标建设初期目标_事故处理事故处理事故来源的详细定义,统计分析事故来源的详细定义,统计分析的基础的基础ITSM建设初期目标建设初期目标_事故处理事故处理提高故障主动发现的比率提高故障主动发现的比率变更管理ITSM建设初期目标建设初期目标_变更管理变更管理CMDB是变更的基础,变更与监是变更的基础,变更与监控协调一致控协调一
14、致ITSM建设初期目标建设初期目标_操作的控制操作的控制操作的变更首先在操作的变更首先在CMDB实现实现ITSM建设初期目标建设初期目标_操作的控制操作的控制作业调度的实现作业调度的实现ITSM建设初期目标建设初期目标_操作的控制操作的控制作业执行情况的监控作业执行情况的监控IT服务管理建设的收获与问题服务管理建设的收获与问题n流程控制、全面监控、主动管理n人员转化、流程制度、工具支持IT服务管理建设的收获服务管理建设的收获_初期建设思路初期建设思路p理论产生的背景理论产生的背景nIT系统故障的危害巨大;n有效维护IT系统超出了纯粹的技术范畴;n基于技术的复杂管理体系;p理论的意义理论的意义n
15、总体描述了管理的范畴,细化各个环节;n科学的划分了各个管理控制层次;p利用理论指导的思路利用理论指导的思路n首先:统计分析企业自身各类IT事故、事件,找出最近、威胁最大的问题;n其次:分析企业已有的IT参与人员、制度及流程;n再次:参照企业对IT部门的责权利定义;n最后:制定IT服务管理的基础建设方案;IT服务管理建设的收获服务管理建设的收获主动式系统管理p通过变更等流程控制CMDB进而控制IT架构的关键环节;p根据OVSD的事件、变更管理,控制IT服务质量;p根据系统的变更,及时定义修改对应的各类流程;p依照各类控制流程、IT架构设计策略,逐步完善应用系统设计规范,保证系统的效率与安全全面监
16、控体系p完善配置OVO等IT基础环境监控工具,首先保障IT基础环境健康,做到及时排除事故隐患;p积极利用各类系统优化工具及专业分析排除故障隐患p制定标准,设计应用检查规范p充分搜集整理以上三个渠道的系统运行数据,为系统管理环节提供系统设计规范素材完善的流程控制p根据系统管理环节的定义,在iEAI实现所有操作流程的控制,对操作的执行过程保留完整的执行现场数据;p实现项目流程的管理,保证投入运行系统的质量;p在OVSD实现ITSM的工作流程控制(人员角色间配合)过渡到完善的过渡到完善的IT服务管理架构是一个渐变的过程,借鉴服务管理架构是一个渐变的过程,借鉴理论,结合实际,在理论,结合实际,在IT系
17、统日常运营管理工作中,首先系统日常运营管理工作中,首先努力做好以下三个方面的工作,为后续努力做好以下三个方面的工作,为后续ITSM建设打下坚建设打下坚实的基础实的基础IT服务管理建设的收获服务管理建设的收获主动系统管理主动系统管理p涵盖范围涵盖范围n应用系统日常变更、配置、事故处理策略与流程;n应用系统各类检查与应急处理流程;n应用系统的持续优化;n应用系统规范的细化以及与开发环节的衔接;n针对系统运行的各类统计分析报表;p参与人员角色划分参与人员角色划分n运行主管、监控管理员、系统管理员、变更管理员、项目开发人员p关键问题关键问题n能够控制各类CI之间的关联关系;n能否有效的实施各类流程及管
18、理制度;p主要职责主要职责n保证日常变更的完整与准确(与监控,处理流程的关系)n依据运行中的各类事件和要求,调整应用系统规范,做到预先控制n控制对关键配置信息的更改与维护IT服务管理建设的收获服务管理建设的收获主动系统管理主动系统管理数据库主机、服务器存储文档组织人员厂商服务网络应用操作流程CMDB纳入范围、专人管理纳入范围、专人管理帐户IT服务管理建设的收获服务管理建设的收获主动系统管理主动系统管理通过分析抓住重点,消除故障通过分析抓住重点,消除故障根源根源IT服务管理建设的收获服务管理建设的收获全面的监控体系全面的监控体系p涵盖范围涵盖范围n生产系统的IT标准组件监控(OS/DB/MW/硬
19、件/网络);n关键应用进程及其日志,应用与外部的关联,应用特定配置、特殊设备;n应用批作业的特定监控(批处理状态检查等);p参与人员角色划分参与人员角色划分n监控人员、运行主管、监控管理员、系统管理员、变更管理员、应用开发人员p监控的不同部分监控的不同部分n监控广泛概念的IT标准工业组件(IT基础环境监控);n可灵活自定义系统主动检查流程(特定应用监控);n深入分析与优化能力(性能分析);p主要职责主要职责n通过监控体系主动发现事故,通过分析报告发掘隐患;n通过自检、调整、判断、分析自检、调整、判断、分析四个流程保证监控系统的不断自我完善;n通过监控系统的积累,逐步建立知识库 ;IT服务管理建
20、设的收获服务管理建设的收获全面的监控体系全面的监控体系 全面全面监控体系的概况监控体系的概况应用前端应用服务进程、专用设备存储操作系统中间件数据库主机网络应用外部连接专业诊断工具及性能管理OVO IT组件标准监控主动检查流程应用维护流程(批作业等)此部分主要监控构成应用系统的标准IT组件,针对标准的协议、资源、服务、日志等进行监控,考虑各应用系统的不同特点,定义不同的监控模板,被动大范围的监控各类事件发生,同时搜集系统运行性能数据,这类故障约占系统故障的3040此部分主要是针对应用系统的特定配置、维护操作、应用的关联、专用设备等进行监控,是一个灵活修改、主动检查的体系,主动发现应用系统故障的6
21、070IT服务管理建设的收获服务管理建设的收获人员的流程化人员的流程化事件发生事件发生:多渠道一线登记一线登记:分类,发起呼叫,跟踪二线解决二线解决:系统系统管理员总负责管理员总负责,首先定位问题,其次解决三线支持三线支持:项目组,系统工程师,厂商监控监控/问题问题:确认监控漏洞、修订标准IT服务管理建设存在的问题服务管理建设存在的问题人员转化人员转化p人员分工的细化与流程整体的协调;pITSM人员角色与目前IT部门人员所属部门的协调;p人员角色的责权利与企业人力资源部门的协调;p各层次人员的持续培训问题;p发挥各层面人员主动性的问题;IT服务管理建设存在的问题服务管理建设存在的问题流程制度流
22、程制度p流程修改的成本控制;p流程与管理制度的配套;p流程制定过程中各层面人员的参与;p流程的实现问题(没有好的控制手段就难以深化、落实);p流程与部门分工的协调;IT服务管理建设存在的问题服务管理建设存在的问题工具支持工具支持p对CMDB的修改的有效控制(变更的可操作性);p对CMDB的展现问题(在评估中发挥作用);p对CMDB中数据的报表展现(无法利用CMDB数据生成各类管理报表);IT服务管理持续建设服务管理持续建设流程驱动、范围扩展、标准建设流程驱动、范围扩展、标准建设质量管理、全面考虑、框架建立质量管理、全面考虑、框架建立 项目之后的持续改进项目之后的持续改进IT服务管理持续建设服务
23、管理持续建设(目前以流程控制主)(目前以流程控制主)p流程驱动流程驱动n完善已有流程(事故、变更、投产等),实现真正控制;n流程涉及的范围逐步扩展(运行、开发、商务);n流程既要满足IT安全运行的要求也要考虑IT审计要求;n系统运行架构的建立,实现人员间协同配合,有效利用专业资源;p工具配置工具配置n充分利用已有工具;n基于前期经验引入新工具;p标准建设标准建设n推进应用系统投产标准、系统安装标准等建设,做到预先解决,防止隐患进入生产环节;需求设需求设计计系统系统实现实现测试测试阶段阶段投产投产评估评估lIT架构控制l数据设计l容灾设计l资源评估l安全设计l审计考评l代码性能;l压力性能;l承
24、载性能;l破坏测试;l。l操作控制;l监控评估;l备份协议;lSLM实施;l安装检查;投入运行投入运行l监控调整;l性能评估;l故障管理;l运行分析;l专业服务;在在IT管理平台实现流程控制管理平台实现流程控制_质量控制的流程立项立项阶段阶段运行项目管理(移交、投产标准)运行项目管理(移交、投产标准)运行管理、监控、评估运行管理、监控、评估运运 行行 体体 系系开开 发发 体体 系系在在IT管理平台实现流程控制管理平台实现流程控制_流程控制的标准标准#文档代码文档代码文档名称文档名称内容说明内容说明优先程度优先程度1SFS应用系统服务说明(应用系统服务说明(Service & Function
25、 Summary)中英文名称:功能概述:服务时间说明、交易峰值预测:用户类型、数量、访问方式:2ASA应应 用用 系系 统统 软软 件件 架架 构构 ( Application Software Architecture)客户端、表示层、应用层、数据层、通讯层等各层、各类软件功能及软件产品说明3HBC设设 备备 及及 灾灾 备备 配配 置置 ( Hardware & Backup Configuration)软件架构各层次对照的硬件配置、容灾方式及硬件配置4AIC应应 用用 软软 件件 安安 装装 配配 置置 说说 明明 ( Application Software Installation&
26、 Configuration)软件架构各层次的应用软件名称、安装方法、配置说明5SIC系系统统软软件件安安装装配配置置说说明明(System Software Installation& Configuration)操作系统、数据库、中间件及其他产品软件的安装、配置说明6FSL文件系统清单(文件系统清单(File System List)软件架构各层次文件系统清单、空间大小、余量要求7BPG批处理指南(批处理指南(Batch Process Guide)批处理内容、时间、条件说明、操作方法8HBA历历史史数数据据/文文件件备备份份及及清清理理协协议议(Historical Data/File
27、Backup & Remove Agreement)数据库、文件系统、应用程序、报表、日志等备份、清理要求和方法9APM应应用用进进程程管管理理手手册册(Application Process Management Manual)软件架构各层次服务进程的清单、功能、停起方法、监控手段10AUL应应用用/数数据据库库用用户户清清单单(Application/Database User List)应用和数据库用户名称、功能、权限和口令变动说明11UQA常见问题及处理(常见问题及处理(Usual Question & Answer)在在IT管理平台实现流程控制管理平台实现流程控制_流程控制的制度制度
28、制度的集中登记与控制制度的集中登记与控制在在IT管理平台实现流程控制管理平台实现流程控制_流程控制的实现实现p标准、制度、人员是流程的基础;p以工具等手段加以控制,实现流程的落实;p流程过程中涉及的标准、资料、配置等是动态的,如何有效协调是关键;p复杂流程具有计划性,事先计划、设计,然后由系统自动调度执行,以达到协调多种角色人员完成复杂工作;p流程的执行过程历史必须清晰记录,满足监管与IT审计要求;当前状态当前状态ITSM基础、人员专业分工、流程的细化、ITSM成本问题ITSM的基础情况的基础情况p基础工具平台:监控、ITSM、性能p人员角色基础:由初期状态实例化的ITILp制度基础:p管理流
29、程基础:各类控制表格p报表基础:各类ITSM相关报表人员分工的细化人员分工的细化p工具、人员、流程交替促进ITSM流程细化的实施流程细化的实施p根据人员角色及控制的变化细化流程p以细化的流程控制推动人员工作专业化p流程与CMDB的紧密结合pCMDB在各类决策中发挥真正作用IT审批管理场景审批管理场景_投产审批流程投产审批流程根据根据ITIT实际环境及自身实际环境及自身人员分工,设计投产安人员分工,设计投产安装检查清单,做为审批装检查清单,做为审批流程的设计依据流程的设计依据以工具实现投产审批流程的控以工具实现投产审批流程的控制,并配属角色、设计界面制,并配属角色、设计界面在实际投产审批工作中,
30、工具自动在实际投产审批工作中,工具自动按流程控制实施过程按流程控制实施过程CI分层策略分层策略组合式关系管理组合式关系管理设备类设备类CICI资源类资源类CICI控制类控制类CICICiRCoRCoRCiRCiR类似类似FK在变更过程当中,由专在变更过程当中,由专业人员按照业人员按照CiR关系的关系的提示,依据人的专业知提示,依据人的专业知识及逻辑维护两个识及逻辑维护两个CI之之间的数据一致性间的数据一致性在变更过程当中,由系在变更过程当中,由系统按照预先定义的统按照预先定义的CoR关系,自动更新两个关系,自动更新两个CI之间指定字段的值以保之间指定字段的值以保证数据准确证数据准确系系系系 统
31、统统统 运运运运 行行行行 体体体体 系系系系 架架架架 构(各类流程的控制)构(各类流程的控制)构(各类流程的控制)构(各类流程的控制)系统监控系统监控系统监控系统监控资源管理资源管理资源管理资源管理数据文档数据文档数据文档数据文档灾备管理灾备管理灾备管理灾备管理外包服务外包服务外包服务外包服务访问管访问管访问管访问管理理理理投产变更投产变更投产变更投产变更操作管理操作管理操作管理操作管理系统故障监系统故障监系统故障监系统故障监控控控控常规操常规操常规操常规操作作作作故障管理故障管理故障管理故障管理网络系统监网络系统监网络系统监网络系统监控控控控资源使用监资源使用监资源使用监资源使用监控控控
32、控交易行为监交易行为监交易行为监交易行为监控控控控机房环境监机房环境监机房环境监机房环境监控控控控巡巡巡巡 检检检检批处理批处理批处理批处理备份操备份操备份操备份操作作作作系统变更系统变更系统变更系统变更应用变更应用变更应用变更应用变更用户管用户管用户管用户管理理理理网络访问控网络访问控网络访问控网络访问控制制制制数据变更数据变更数据变更数据变更硬件管理硬件管理硬件管理硬件管理软件管理软件管理软件管理软件管理补丁管理补丁管理补丁管理补丁管理操作变更操作变更操作变更操作变更系统软件系统软件系统软件系统软件应用软件应用软件应用软件应用软件 服务器服务器服务器服务器 磁盘磁盘磁盘磁盘 专用设备专用设
33、备专用设备专用设备机房设备机房设备机房设备机房设备网络管理网络管理网络管理网络管理介质管理介质管理介质管理介质管理数据访数据访数据访数据访问问问问灾备策略灾备策略灾备策略灾备策略灾备切换灾备切换灾备切换灾备切换应急流程应急流程应急流程应急流程服务采购服务采购服务采购服务采购服务评估服务评估服务评估服务评估外包管理外包管理外包管理外包管理机房访机房访机房访机房访问问问问网络设备网络设备网络设备网络设备上架管上架管上架管上架管理理理理网段管理网段管理网段管理网段管理网址管理网址管理网址管理网址管理文档管理文档管理文档管理文档管理VPNVPN访访访访问问问问问题管理问题管理问题管理问题管理维修变更维修变更维修变更维修变更网络变更网络变更网络变更网络变更系统运行部门体系架构的内容系统运行部门体系架构的内容质量管理、标准维护、知识库维护质量管理、标准维护、知识库维护质量管理、标准维护、知识库维护质量管理、标准维护、知识库维护