一人运维一万台服务器的奥秘

上传人:I*** 文档编号:148672513 上传时间:2020-10-22 格式:PDF 页数:34 大小:16.16MB
返回 下载 相关 举报
一人运维一万台服务器的奥秘_第1页
第1页 / 共34页
一人运维一万台服务器的奥秘_第2页
第2页 / 共34页
一人运维一万台服务器的奥秘_第3页
第3页 / 共34页
一人运维一万台服务器的奥秘_第4页
第4页 / 共34页
一人运维一万台服务器的奥秘_第5页
第5页 / 共34页
点击查看更多>>
资源描述

《一人运维一万台服务器的奥秘》由会员分享,可在线阅读,更多相关《一人运维一万台服务器的奥秘(34页珍藏版)》请在金锄头文库上搜索。

1、D e v O p s D a y s2 0 1 7 上 海 站 D e v O p s D a y s2 0 1 7 上 海 站 一人维护一万台服务器的奥秘 梁定安腾讯 D e v O p s D a y s2 0 1 7 上 海 站 个人简介 r梁定安(大梁),硕士,10余年互联网运维经验 r腾讯织云负责人(前腾讯社交类业务运维负责人) r腾讯课堂专家讲师,GOPS金牌讲师,复旦大学客座讲师,腾讯云布道师 D e v O p s D a y s2 0 1 7 上 海 站 目录 01 “令人向往”的运维工作 02 精挑细选的DevOps运维方法论 03 自动化运维平台“织云”的实践 D e

2、v O p s D a y s2 0 1 7 上 海 站 目录 01 “令人向往”的运维工作 02 精挑细选的DevOps运维方法论 03 自动化运维平台“织云”的实践 D e v O p s D a y s2 0 1 7 上 海 站 运维主要做些什么? 别人眼中的运维? 运维眼中的运维? 老板眼中的运维? 现实中的运维? D e v O p s D a y s2 0 1 7 上 海 站 运维主要做些什么? 计划外任务 中断,效率低 计划内任务 专注,单件流 20% 80% D e v O p s D a y s2 0 1 7 上 海 站 运维的精益思想 r减少浪费,提升资源效率 中断上下文切

3、换中断上下文切换 被频繁打断的工作 一气呵成的工作 D e v O p s D a y s2 0 1 7 上 海 站 对运维工作的反思 计划外 任务 开发写 死IP 无法调 度 单机故 障 紧急响 应 无日志 规范 手动查 日志 紧急故 障 手动捞 日志 无变更 规范 无经验 传承 新人变 更 变更故 障 无预警 手段 业务量 陡增 容量不 足 紧急扩 容 D e v O p s D a y s2 0 1 7 上 海 站 产品生命周期与IT价值链 产品 开发 测试 运维 用户 规划与设计 功能实现 度量验收 发布与交付 监控与运营 客服 投诉与建议 Bug修复 故障处理 D e v O p s

4、 D a y s2 0 1 7 上 海 站 传统交付的困局 D e v O p s D a y s2 0 1 7 上 海 站 Dev与Ops的冲突之源 D e v O p s D a y s2 0 1 7 上 海 站 目录 01 “令人向往”的运维工作 02 精挑细选的DevOps运维方法论 03 自动化运维平台“织云”的实践 D e v O p s D a y s2 0 1 7 上 海 站 为什么是DevOps? Evolution of IT 传统的软件工程方法 -系统的应用工程方法 -基于预测性 -重管控、结构化 -有时避免或拒绝合理变更 VUCA新常态下,IT的目标 -需要最大化业务产

5、出 -强调适应性 -快速交付价值 -灵活响应变化 图片来源: DevOps is not enough ufried IT已经从企业内部的一种运营工具,逐步演进为一种竞争优势 D e v O p s D a y s2 0 1 7 上 海 站 DevOps的CALMS文化精髓 Culture(文化)-是指拥抱变革,促进协作和沟通 Automation(自动化)-是指将人为干预的环节从价值链中消除 Lean(精益)-是指通过使用精益原则促使高频率循环周期 Metrics(指标)-是指衡量每一个环节,并通过数据来改进循环周期 Sharing(分享)-是指与他人开放分享成功与失败的经验,并在错误中不

6、断学习改进 D e v O p s D a y s2 0 1 7 上 海 站 r为软件的发布创建一个可重复且可靠的过程 r将几乎所有事情自动化 r把所有的东西都纳入版本控制 r提前并频繁地做让你感到痛苦的事情 r内建质量 r“DONE”意味着“已发布” r交付过程是每个成员的责任 r持续改进 DevOps持续交付原则 标准化发布操作,建立可靠的 脚本/工具,并用自动化流程 实现编排 分场景,将计划内任务实现自 动化运维 可描述、可度量、可监管,并 纳入运维平台管理。 功能:代码的质量管理; 非功能:运维的质量管理。 交付到用户受众才是完成。 协同合作,减少等待的浪费。 闭环,优化,不断提升能力

7、。 让错误尽早的暴露,并修复它。 体系化:规范与标准。 D e v O p s D a y s2 0 1 7 上 海 站 目录 01 “令人向往”的运维工作 02 精挑细选的DevOps运维方法论 03 自动化运维平台“织云”的实践 D e v O p s D a y s2 0 1 7 上 海 站 腾讯织云简介 D e v O p s D a y s2 0 1 7 上 海 站 腾讯织云简介 D e v O p s D a y s2 0 1 7 上 海 站 腾讯织云简介 D e v O p s D a y s2 0 1 7 上 海 站 如何定义标准化? 非功能性规划 技术架构选型 运维标准化规范

8、 可运维性checklist 标准运维系统体系 质量、效率、成本、 安全 检检查查项项 程序安装路径 Crash率 公共组件选型 路由服务 可用性探测 模调上报 多维监控 可可运运维维要要求求检检测测方方案案 进程自检重启机器,检测进程状况 log占用空间可控持续运行1周,对比硬盘空间 硬盘清理策略检测策略工具是否为空 标准化应用管理工具检查指定目录是否存在管理工具 操作审计检查机器是否接入操作审计 时间设置检查ntpdate配置 域名解析配置检测/etc/resolv.conf 系统log设置Syslogd设置是否符合要求 coredump限制ulimitc限制文件句柄 dmesg监控检测d

9、mesg异常方法 端口范围检查进程端口符合标准 配置文件格式检查配置格式符合ini/yaml/xml 系统用户检测/etc/passwd用户 密码安全性检测密码强度与过期机制 运运维维系系统统 CMDB 包系统 CC CIS 织云 考考核核指指标标 监控系统 质量考核 事件管理 容量管理 舆情分析 D e v O p s D a y s2 0 1 7 上 海 站 运维对象标准化 网络资源层 设备资源层 系统资源层 接入层 业务层 逻辑层数据层 机型 命名 运营状态 重要级别 监控 Buff池 机房 机柜 网段规划 容灾 波分 监控 OS/内核 初始化 用户/密码管理 基础agent 组件选型

10、监控 容量 包管理 配置管理 测试工具 架构 分布 容灾 监控 D e v O p s D a y s2 0 1 7 上 海 站 基础资源层 应用层 人工维护自动发现 人工维护自动发现 数据入库 数据入库 数据入库数据入库 自动化之始:CMDB D e v O p s D a y s2 0 1 7 上 海 站 统一应用管理节点 模块包 标准硬件 节点 标准软件 管理节点 统一管理门户 SVN版本管理 标准化目录结构 通用的管理脚本 一键安装、升级、回滚、卸载 通用的启动、停止、重启命令 自监控能力(进程异常自愈) 自清理能力(硬盘空间自动清理) 包文件防篡改监控 自定义前后置脚本管理 一致性

11、统一机型 资产配置 硬件配置 软件配置 运营配置 分布信息 资源配置 权限配置 流程配置 测试用例 变更记录 D e v O p s D a y s2 0 1 7 上 海 站 资源 PKG 配置 脚本 权限 传输执行 部署 测试 灰度 上线 可重复的运维操作 D e v O p s D a y s2 0 1 7 上 海 站 抽象运维操作并自动化 设备上架 连通性测试密码入库权限回收参数初始化划入buff池改运营状态 版本部署 获取资源集校验一致性传输与执行部署验证变更体检灰度计划 设备下线 停软件包改状态预隔离抓包校验划入buff池重装/销毁 异常确认 回滚操作 D e v O p s D a

12、 y s2 0 1 7 上 海 站 业务模块业务模块 一键变更操作 CMDB 生产环境 一致性对比 标准化用户权限 配置化流程化 体检审计统计监控 传承经验的变更管理 D e v O p s D a y s2 0 1 7 上 海 站 智能:给自动化加点料 决策API 容量系统 需求 突发高负载 预测高负载 低负载30天 自定义事件 事件策略执行流程 策略树流流程程系系统统 白名单 通知中心平平衡衡木木 调平 决决策策树树(高高负负载载) 1.平均负载 2.设备总数 3.高负载设备数 4.最高负载 5.高负载阀值 6.路由一致 7.上线时间 决决策策树树(低低负负载载) 1.平均负载 2.设备总

13、数 3.持续天数 4.路由一致 5.最低负载 worker worker worker rabbitMQ L5 cmlb tgw D e v O p s D a y s2 0 1 7 上 海 站 自动触发部署流程 申请设备获取资源发布部署 业务测试发布自检灰度上线 自自 动动 执执 行行 流流 程程 1.获取参数列表 2.屏蔽负载事件通知 3.查询设备调度接口 4.根据模块ID查域名 5.获取资源配置 6.申请权限接口 7.获取设备IP地址 8.屏蔽告警 9.安装程序包 10.同步文件 11.获取CC参数 12.发配置 13.执行脚本 14.主调扩容 15.启动软件包 16.进程端口扫描 17

14、.上报变更日志 18.查询授权结果 19.自动化测试 21.L5被调扩容 22.变更体检监测 22.告警屏蔽解除 23.开启负载事件通知 D e v O p s D a y s2 0 1 7 上 海 站 再“智能” 一点:进程自愈 安装/启动 包 注册 CMDB 基础监控 服务 监控agent ps检 测进 程 重启进程 ps检 测进 程 自 愈 上报包状 态 卸载/停止 包 上报包状 态 下发监控配置 正常 告 警 统一告警 平台 异常 自动化流程 本地决策 标准操作流程会联动监控, 非标准流程则会触发告警! D e v O p s D a y s2 0 1 7 上 海 站 再“智能” 一点

15、:硬盘自动清理 配置磁盘清 理策略 应用到模块 下所有IP 执行默认清 理策略 执行个性清 理策略 df检 测 df检 测 自 愈 告 警 D e v O p s D a y s2 0 1 7 上 海 站 自动化调度实战案例 自动扩容会被调度决策执行 7x24 自动化支持 当突发流量到来时 D e v O p s D a y s2 0 1 7 上 海 站D e v O p s D a y s2 0 1 7 上 海 站 会议 8月18日 DevOpsDays 上海 全年 DevOps China 巡回沙龙 11月17日 DevOps金融上海 培训咨询 EXIN DevOps Master 认证培训 DevOps 企业内训 DevOps 公开课 互联网运维培训 企业DevOps 实践咨询 企业运维咨询 商务经理:刘静女士 电话 / 微信:13021082989 邮箱: D e v O p s D a y s2 0 1 7 上 海 站 谢谢聆听 欢迎关注

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 云计算/并行计算

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号