202X年运维工程师述职报告

上传人:tang****xu6 文档编号:137122450 上传时间:2020-07-05 格式:DOCX 页数:41 大小:43.84KB
返回 下载 相关 举报
202X年运维工程师述职报告_第1页
第1页 / 共41页
202X年运维工程师述职报告_第2页
第2页 / 共41页
202X年运维工程师述职报告_第3页
第3页 / 共41页
202X年运维工程师述职报告_第4页
第4页 / 共41页
202X年运维工程师述职报告_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《202X年运维工程师述职报告》由会员分享,可在线阅读,更多相关《202X年运维工程师述职报告(41页珍藏版)》请在金锄头文库上搜索。

1、运维工程师述职报告篇一:运维工程师岗位报告运维工程师岗位报告 运维工程师对一个公司来说是非常重要的岗位,它本身 所覆盖的运维职责就很重要,所以,运维对其它关联工种必 须非常了解熟悉:络、系统、系统开发、存储,安全,DB等 作为一个运维工程师我认为是集合络、系统、开发工作于一 身的“复合型人才” ,就如有些公司把一些合同采购都纳入 了运维职责范围,还有如 IDC 络规划也纳入运维职责。一 . 运维工程师岗位职责1、参与设计、审核、优化公司 IT 系统以及各应用系统 的体系架构;2、全面负责公司运维项目的系统升级、扩容需求与资 源落实,配合开发需求,测试、调整运维平台;3、负责络以及服务器的络设置

2、、维护和优化、络的安 全监控、系统性能管理和优化、络性能管理和优化;4、建立面向开发部门,业务部门的服务流程和服务标 准;5、负责 IT 运维相关流程的规划、设计、推行、实施和 持续改进;6、响应及解决客户的技术要求、疑问以及系统使用过 程中遇到的各种问题;7、负责日常络及各子系统管理维护。8、负责设计并部署相关应用平台, 并提出平台的实施、 运行报告。9、负责配合开发搭建测试平台, 协助开发设计、 推行、 实施和持续改进。10、负责相关故障、 疑难问题排查处理, 编制汇总故障、 问题,定期提交汇总报告。11、负责络监控和应急反应,以确保络系统有7*24 小时的持续运作能力。12、负责日常系统

3、维护,及监控,提供IT 软硬件方面的服务和支持,保证系统的稳定。13、负责服务过程中问题现象和处理方案的收集撰写, 形成知识库,并对知识库进行维护更 新;14、及时反馈技术处理过程中的异常情况,及时向部门负责人、服务开发 PM客户经理等相关人员报警;同时,主 动协调资源推动问题解决;15、定期对所有服务问题进行分析,并对服务效率有影 响的问题提供反馈意见,提升服务支持团队专业度;二. 怎样才算是一个合格的运维工程师1、保证服务达到要求的线上标准, 如 %;保证线上稳定, 这是运维工程师的基本责职所在。2 、不断的提升应用的可靠性与健壮性、性能优化、安全提升;这方面非常考验主动性和创新思维。3、

4、站各层面监控、统计的覆盖度,软件、硬件、运行 状态,能监控的都需要监控统计,避免监控死角、并能实时 了解应用的运转情况。4、通过创新思维解决运维效率问题;目前各公司大部 份运维主要工作还是依赖人工操作干预,需要尽可能的解放 双手。5、运维知识的积累与沉淀、文档的完备性,运维是一 个经验性非常强的岗位,好的经验与陷阱都需积累下来,避 免重复性范错。6、计划性和执行力;工作有计划,计划后想法设法达 到目标,不找借口。7、自动化运维;能对日常机械化工作进行提炼、设计 并开发成工具、系统,能让系统自动完成的尽量依靠系统; 让大家更多的时间用于思考、 创新思维、 做自已喜欢的事情。 以上只是技术上的一些

5、层面,当然个人意识也是很重要的。三 . 运维管理注意事项1、配置管理(1) it 资产配置管理:对 it 资产生命周期进行管理, 包括分类统计、预购、选购审核、转移审核、报废审核,保 证配置管理正确率达标 ;2)建设案例库:累积和提炼工程师的事件处理经验 制作成案例,并持续丰富运维案例库供查询,案例覆盖已知 事件的比率达标,不断提高运维工程师工作效率 ;(3) it 系统配置信息管理:定期更新络及应用系统描 述信息及技术支持信息配置,保证最新; 将配置文档上传至服务器端,方便团队其他运维人员进行查看和操作。2、监控 主要包括故障监控和性能、流量、负载等状态监控,这 些监控关系到集群的健康运行,

6、及潜在问题的及时发现与干 预;(1)、服务故障、状态监控:主要是对服务器自身、上 层应用、关联服务数据交互监控; 例如针对前端 web server , 我们就可以有很多种类型的监控, 像 zabbix ,nagios ,cacti 等监控程序。(2)、其它就是集群状态类的监控或统计,为我们合理 管理调优集群提供数据参考、包括服务瓶颈、性能问题、异 常流量、攻击等问题。3、故障管理(1)、硬件故障问题;对于成百上千或上万机器的N 多集群,服务器死机、硬件故障概率是非常大的,几乎每时每 刻都有服务硬件问题,死机、硬盘损坏、电源、内存、交换 机。针对这种情况,我们在设计站架构时需要充分考虑到这 些

7、问题,并将其视为常态;更多的依靠应用的冗余机制来规避这种风险,给系统工程师足够宽裕的处理时间。 (如 google不是号称同时死 800 台机器,服务不会受到任何影响吗) ; 这就是考验运维工程师及站架构师功能的地方了,好的设计 能达到 google 所描述自恢复能力, 如 gfs ,糟糕的设计那就 是一台服务器的死机可能会造成大面积服务的连锁故障反 映,直接对用户拒绝响应。( 2)、应用故障问题;可能是某一 bug 被触发、或某一 性能阀值被超越、攻击等情况不一而定,但重要的一点,是 要有对这些问题的预防性措施, 不能想当然, 它不会出问题, 如真出问题了,如何应对?这需要运维工程师平时做足

8、功夫, 包括应急响应速度、 故障处理的科学性、 备用方案的有效等。4、问题管理 对事件进行统计分析,找出疑难、重复发生的事件,纳 入问题管理流程,分析问题产生的根本原因,确定可能解决 的方案,需要修改络或应用系统配置时提交变更申请触发变 更管理流程。5、安全管理 (1)、操作人员随时监控中心设备运行状况,发现异常 情况应立即按照应急预案规程进行操作,并及时上报和详细 记录。( 2)、未经批准,不得在机房设备上随意编写、修改、 更换各类软件系统及更改设备参数配置;3)、服务器系统的维护、增删、配置的更改,必须按规定详细记入相关记录,并对各类记录和档案整理存档。 (4)、机房工作人员应恪守保密制度

9、,不得擅自泄露信 息资料与数据。( 5)、严禁在机房计算机设备上做与工作无关的事情 (如 聊天、玩游戏) ,对外来存储设备(如 U 盘、移动硬盘等) , 做到先杀病毒后使用。(6)、机房严禁乱拉接电源,应不定期对机房内设置的 消防器材、烟雾报警、恒温设备进行检查,保障机房安全。6、自动化运维 自动化:简而言之,就是将我们日常手动进行的一些工 作通过工具,系统自动来完成,解放我们的双手及枯燥的重 复性劳动,例如:没有工具前,我们安装系统需要一台一台 裸机安装,如XX台,可能需要10人/10天,搞烂N张光盘, 人力成本更大,而现在通过自动化工具,只需几个简单命令 就能搞定、还有如机器人类程序,自动

10、完成以往每天人工干 预的工作,使其自动完成、汇报结果,并具备一定的专家系 统能力,能做一些简单的是 / 非判断、优化选择等,这些好 处非常明显不再多说。应该说,自动化运维是运维工程师职 业化的一个追求, 利已利公, 虽然这是一个异常艰巨的任务: 不断变更的业务、不规范化的应用设计、开发模式、络架构 变更、 IDC 变更、规范变动等因素,都可能会对现有自动化 系统产生影响,所以需要模块化、接口化、变因参数化等因 此,自动化相关工作,是运维工程师的核心重点工作之一, 也是价值的体现。四、总结 综上所述,做一个好的运维工程师,除了具备良好的综 合技能水平,还要有一个负责任的工作态度,这也是优秀运 维

11、工程师具备的素质。因为对于运维工程师而言,每一次故 障的发生都不是小事,很可能会影响公司线上业务的稳定性, 甚至直接导致公司的经济损失,所以我认为对待工作中发生 的故障以及事件要秉着一个“小事件,大处理”的原则,将 发生的故障扼杀到摇篮里,慢慢地积累故障处理经验,这样 当真正的大事件来临时,我们可以采取有效的措施及时应对。 除了处理好发生的故障事件,我觉得运维工程师还应具备可 预见性,故障随时可能发生,如何防患于未然,这将是对我 们做好运维工作的一个考验。古人云: “不积跬步无以至千 里,不积小流无以成江海”运维之路就是由一次次故障事件 中拼接出来的,作为其中的一份子,任重而道远! 篇二:系统

12、运维工程师年终个人工作总结及下年工作计 划* 公司系统运维工程师年终个人工作总结及下年工作 计划时间一晃而过,弹指之间, XX 年悄然而至,自从 XX 年 3 月份刚进入公司,我是第一次接触公司、接触通信行业、 接触公司络管理及维护。虽然跟我的专业和技能都一致,但 所有的实际经验都是第一次,让我没有任何准备,同样也打 消了任何顾虑,人生就是这样,所有的一切都是要从第一次 开始,没有接触过、干过并不可怕,领导给了我机会,让我 有了一次尝试、一次展现自己的平台,那么我一定会更加倍 的努力做好工作才是最大的回报。并且也是对自己的一次肯 定。经过一段时间的工作及陌生环境的磨合,专心钻研业务 知识,努力

13、提高理论知识和业务工作水平。遵纪守法,踏实 工作认真完成领导交办的各项工作任务,使自己渐渐的融入 和适应到新的工作环境中。过去的大半年里在领导和同事们 的悉心关怀和支持帮助下 , 通过自身的不懈努力,在思想、 学习和工作等方面取得了新的进步。现总结如下 :一、公司电脑日常维护工作 刚一开始接手工作的时候,发现公司大部分工作电脑都 没有安装安全防护软件和升级系统补丁;员工随意安装系统 及应用软件,致使公司局域内病毒隐患严重、工作不稳定和 系统崩溃,工作秩序被打乱,员工不严格要求自己,上班时 间聊QQ玩农场、看娱乐站等;为此公司和个人工作经常受 到影响 , 工作效率降低。 针对这种情况, 我采取了

14、以下措施:1、先对公司员工进行一次基本知识培训,让员工了 解到计算机的正确使用方法, 病毒防范, 重要文件的备份等 从而大大提高了员工对电脑使用的熟练程度。2、先恢复良好的秩序。电脑使用时如发现故障和需更 改设置,必须先报告公司运维人员,由专门人员来进行专业 及针对化的操作,个人不能私自进行改动,进行这样做的目 的避免由于人为的盲目操作使某一台电脑的故障影响整个 局域内的其它工作,使故障扩大化,并延长了解决问题的周 期。3、使员工使用统一的、经过安全测试的系统及应用 软件,安装、设置统一的杀毒软件、 防火墙等安全防护软件, 且经过努力实践,并在每台机器上设定了自动系统补丁升级 及定期查杀规则。

15、4、对于个人的关键性数据资料、邮件进行路径转移 备份,使这些数据远离危险故障点,避免意外丢失所带来的 严重后果。操作系统进行常规定期备份,便于事后的还 原。5、对于络管理进行了监管工作,公司所有电脑安装 了行为管理软件后,员工工作效率逐步提高,自觉性得到明 显改进,从而净化了公司络办公环境。经过一段时间的贯彻和工作,先前的混乱现象得到有 效控制,现公司的十余台电脑,工作状态稳定,没有出现大 面积的系统崩溃和故障。二、络的日常维护路由器及交换机的维护管理,确保公司络运行正常, 员工正常利用络资源。 加强路由器的规则设置, 优化外接口, 内部员工合理地分配带宽流量,使公司的络能稳定有效地工 作。三

16、、公司络制度管理和完善 公司经过一段时间的运转,各个部门的规章制度通过 大家一起研究、探讨、立会并完善制定了各项规章制度,计 算机管理也形成了制度,大家按章办事,使之成为一种工作 习惯。同时公司的资产管理及日常的文书表格非常混乱和环 节上的缺失。为此特地制作了一批表格、登记申请单及统计 表。使得公司资产和资源得到有效的管理和控制,杜绝管理 上的失控和资产流失。四、公司服务器平台管理与维护工作 公司发展逐步扩大,对于公司所有的业务支撑平台- 服务器,为重中之重;本年度我司服务器相应出现几次重大故 障,分别如下:1、 络故障七次,重大一次,因服务器遭DDOS攻击,导致我司服务器无法正常工作。事后通过紧急处理后得以恢复 正常。其它几次分别为机房断电、络升级、电信与联通 DNS 解析故障影响到

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号