网易云音乐稳定性保障体系

上传人:I*** 文档编号:157511563 上传时间:2020-12-24 格式:PPTX 页数:31 大小:3.31MB
返回 下载 相关 举报
网易云音乐稳定性保障体系_第1页
第1页 / 共31页
网易云音乐稳定性保障体系_第2页
第2页 / 共31页
网易云音乐稳定性保障体系_第3页
第3页 / 共31页
网易云音乐稳定性保障体系_第4页
第4页 / 共31页
网易云音乐稳定性保障体系_第5页
第5页 / 共31页
点击查看更多>>
资源描述

《网易云音乐稳定性保障体系》由会员分享,可在线阅读,更多相关《网易云音乐稳定性保障体系(31页珍藏版)》请在金锄头文库上搜索。

1、网易云音乐稳定性保障体系,稳定性保障体系 依赖治理实践 故障演练实践 后续规划,网易云音乐产品介绍,2013.04,网易云音乐正式上线 定位音乐社交和移动社区,2015.07,用户数突破2亿,2017.04,用户数突破3亿,2017.03,网易云音乐4.0版上线 在音乐APP中首个上线 短视频功能,网易云音乐2.0版上线 增加私人FM,2014.02,2016.07,用户数突破1亿 3.0版上线 全面推进个性化,2015.10,用户数突破4亿,2017.11,2017.09,上线自制精品付费电台 进军知识付费领域,2018.01,2018.03,2019.08,用户数突破8亿,2019.08,

2、主办国内首个独立 音乐人盛典硬地围炉夜 2017网易云音乐,原创盛典,5.0版本上线, 全新升级视频页面,全新社区版块“云村”,稳定性治理挑战,日常流量保持高位运行,对系统可用性要求高,稍有不慎,引发舆论危机 云音乐的社交属性,有传播发酵的天然优势,小活动也能带来流量裂变,随着云音乐业务高速发展,系统稳定性要求越来越高,相应地,对稳定性测试工作提出了挑战,流量冲击,系统复杂,稳定性意识,线上系统复杂度,指数级增长 稳定性保障工作覆盖面广且杂,任意环节没有做到位,都能引起大事故,线上故障是低频偶发事件,ROI不明确,在迭代过程中以业务产出为导向,稳定性工作容易被忽视 稳定性意识周期性波动,由低频

3、事故强化意识+随着时间淡薄,稳定性专项推进困难,稳定性治理思路,实战演练为抓手,方法论、工具链为基础,演练,发现 恢复,预防,高效、可持续管控稳定性风险,高可用组件,标准化部署 资源使用优化,充分暴露不稳定因素 训练强化人员稳定性意识 撬动开发、测试、运维协作闭环,稳定性 意识,发现,预防,恢复,复盘,稳定性保障体系,故障演练,流量演练,依赖演练,准入条件,准入条件,完善依赖关系拓扑 验证强弱依赖合理性,评估容量,验证过载保护措施 建立性能基线,把控迭代过程质量,验证系统故障恢复能力、预案完备性和有效性 真实操练,训练人员应急处置能力,稳定性保障体系 依赖治理实践 故障演练实践 后续规划,依赖

4、治理思路,定义 当依赖节点出现问题时,对系统核心业务数据、可用性产生影响,该依赖即为强依赖,反 之为弱依赖,用途 整改不合理强依赖关系,提升系统健壮性;验证弱依赖降级策略,提升系统自愈能力 完善依赖关系拓扑,帮助诊断故障根因、容量变化趋势,依赖治理思路,场景强弱依赖 场景维度 梳理场景与服务间的强弱依赖关系 明确业务影响范围,推动客户端稳定性保障,服务强弱依赖 接口/应用维度 梳理服务上下游之间的强弱依赖关系 推动依赖关系治理,提高服务稳定性,流量录制回放,流量检索,故障注入,规则匹配,依赖分析,大盘审计,依赖治理实践,依赖治理实践,应用维度的依赖关系 判断应用间的耦合关系、提供依赖容量评估依

5、据,依赖治理实践,api/rpc维度的依赖关系 应用于故障分析诊断、降级方案设计,依赖治理实践,引入工作流,管控治理进展,大盘展示依赖风险 每日自动检测不合理依赖,提供定位信息,依赖治理实践,依赖治理成果,用例数16w+ 链路覆盖率80%+ 发现问题数300+,质量,每天全量自动化执行 全量执行耗时4h 节省人力1h/功能点,效率,稳定性保障体系 依赖治理实践 故障演练实践 后续规划,故障演练思路,定义 为提高系统高可用性和训练人员应急处置能力,根据故障用例和故障恢复预案,进行演习 的过程 背景压力 施加在系统或模块的 性能测试流量,模拟 系统真实运行状态 故障注入 代码级别 系统级别 机房级

6、别,故障演练思路,故障演练思路,故障演练实践,环境标准化:用完即抛,机器共享 演练环境隔离:支持多套测试环境、线上环境,不影响正常测试工作,故障演练实践,代码级故障注入 系统级故障注入,故障演练实践,参数配置:故障注入对象、故障类型 下发通道:故障命令执行器 目标策略:注入对象的集群故障比例 预期指标:故障时及故障恢复后的预期表现,故障演练实践,记录演练过程的关键事件 监控系统表现、流量表现,后续打通业务指标,故障演练实践,基于用户场景,设计演练任务,场景管理 梳理数专评论页的所有接口,对接口定级,故障演练实践,演练环境 根据接口链路信息,自动创建测试环境,演练任务 选择故障注入点和故障类型,

7、批量创建演练任务,故障演练实践,验证评论服务在数专服务 故障时的应急预案,数专服务rpc异常 评论服务client注入数专 rpc错误,远程调用失败,故障下发后 核心功能正常 评论用户不显示头像挂件 会员不能对付费资源评论,故障恢复后 业务恢复正常 系统容量恢复正常,故障演练实践,故障演练成果,用例数500+,预案数200+,故障类型50+,发现问题数150+,质量,一键执行,产出报告,服务端演练自动化,节省人力5h/场景,效率,中间件高可用标准,双机房部署标准,资源隔离标准,标准化,稳定性保障体系 依赖治理实践 故障演练实践 后续规划,后续规划,稳定性基线:依托磐石平台,建立稳定性基线,持续推进系统高可用性、高自愈性 实战演练:预案完备性提升的同时,以实战演练的形式,训练人员应急处置能力 稳定性保障工作体系化,从基线标准、治理工具、验收工具、协作推进、人员赋能等 多维度保障系统稳定性,一,,谢谢聆听!,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > IT计算机/网络 > 云计算/并行计算

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号