阿里双11系统管控调度架构与实践.

上传人:我** 文档编号:117886218 上传时间:2019-12-11 格式:PPTX 页数:41 大小:3.07MB
返回 下载 相关 举报
阿里双11系统管控调度架构与实践._第1页
第1页 / 共41页
阿里双11系统管控调度架构与实践._第2页
第2页 / 共41页
阿里双11系统管控调度架构与实践._第3页
第3页 / 共41页
阿里双11系统管控调度架构与实践._第4页
第4页 / 共41页
阿里双11系统管控调度架构与实践._第5页
第5页 / 共41页
点击查看更多>>
资源描述

《阿里双11系统管控调度架构与实践.》由会员分享,可在线阅读,更多相关《阿里双11系统管控调度架构与实践.(41页珍藏版)》请在金锄头文库上搜索。

1、阿里管控体系在双十一的实践 议程 简介 阿里线上管控体系,应对挑战 关于我们 阿里管控体系 在双十一的实 践 阿里中间件技术部 打造世界第一流的中间件 此处添加一个双十一的集体照 阿里线上管控体系 开关预案 限流 降级&流量调度 议程 简介 阿里线上管控体系,应对挑战 关于我们 阿里管控体系 的最佳实践 阿里线上管控体系 限流 场景一:零点零分小唐下单了 140000 笔/秒 创建订单当天峰值 天猫移动端销售金额 突破1亿 75 秒 销售金额破百亿 38分钟 用户洪峰在双十一 单台服务器超负荷 服务器集群雪崩 交易链路崩溃 短时大流量的请求 负载 洪峰对系统意味着什么 允许访问 的速率 爆发量

2、 爆发间隔 时间 限流的考虑因素 来到的请求 拦截器 存储量为b的令牌桶 丢弃 令牌桶限流 按照每1/r秒的速度向桶中存放1令牌 继续发 送 Token rate: r 承诺突发量: 双十一零点:小唐下单 桶的大小是300个令牌 系统的通过率为1000qps,把一 秒切成10 个格子, 每个格子的 时间窗口为100ms,每个格子 发放 1000/10 个令牌 洪峰场景: 双十一0点之前,桶里放满 了令牌 在双十一0点到0点10分,每秒 的请求超过了10000 如何把Token Rate转换 成通过率? 双十一系统表现 场景二:双十一零点零五分:小唐的 订单 状态变为 已经发货 数据特性 前5分

3、钟包裹 处理量是484万 前38分钟包裹 处理量是3754 万 有时间间 隔 调用量大 允许有延迟 系统间 的回调洪峰 漏桶算法 到达速率 漏桶 输出速率 丢弃/排队 小唐的订单 什么时候回调完成? 监控模块 实时监 控 收集数据 反馈分析 限流处理 丢弃请求 等待队列 规则变 更 动态调 整 令牌桶容量 令牌产生速率 限流决策 区分场景 用户洪峰 回调洪峰 系统保护 限流框架的要素 策略的平衡限流处理的思考更多的场景 场景延伸 阿里线上管控体系 限流降级&流量调度 系统的可用性 商品 浏览 广告 业务 会员 系统 库存 查询 优惠 折扣 物流 系统 保险 系统 用户 推荐 系统的可用性 N越

4、大,小唐失败 的概率就越高 系统的可用性 降级弱依 赖应用 剔除应用 局部问题 机器 提高可用性的方式 能够在避免调用这个 逻辑 异常数增多 RT变长 Threads = QPS * RT 线程数随着rt的增长 而增长 上游系统如何发现 弱依赖应 用不可用 4 3 1 2 梳理强弱依赖 梳理强弱依赖 弱依赖应 用不可用 梳理强弱依赖 自动降级 自动降级框架 降级弱依 赖应用 剔除应用 局部问题 机器 提高可用性的方式 分布式环境同一个应用不同机器由于硬 件、网络、超卖、程序自身等众多因素 出现服务状态的差异 通过流量调度策略,使分布式服 务具备自愈能力和自我隔离能力 应用局部不可用 34 全局

5、探测与流量调度 cpuload rt Excepti on ratio Thread Count level 业务 state Restful Api hsftomcat 信息注入spi 应用 cpuload rt Excepti on ratio Thread Count level 业务 state Restful Api hsftomcat 信息注入spi 应用 cpuload rt Excepti on ratio Thread Count level 业务 state Restful Api hsftomcat 信息注入spi 应用 流量调度平台状态收 集模块 采集节点采集节点采集节

6、点采集节点采集节点采集节点 快速实时 多维聚合 视图 近期归档 报表 实时单 机 视图 2 34 用户洪峰 限流排队 回调洪峰 漏桶限速 应用局部 不可用 全局探测以及 流量调度 弱依赖应用 不可用 自动降级 小唐能够顺 利下单 1 阿里线上管控体系 开关预案 限流降级&流量调度 快速准确执行 标准化变更 透明的通知流 大促当天 38 标准化变更 开关中心控制台 稳定性开关客户端 开关定义使用开关 控制台交 互 获取开关信 息 权限与日 志 开关报表 开关分组 标 准 开关监控 定时开关 规 范 更新开关 内存态与持久 化 容灾机 制 安全机 制 开关管理 分机房执行 使用 简单 操作权限 通

7、知机制 维护 便捷 高效 定义开关 变更开关 校验开关 透明的通知流 隔离流程 权限控制 透明通知 角色视图 多维报表 议程 简介 阿里线上管控体系,应对挑战 总结, 回说一下,关于我们 阿里管控体系 的最佳实践 高可用架构团队 阿里双十一核心保障团队 EDAS弹性容量 一键建站异地多活 想知道更多? http:/jm.taobao.org/ 企业级业级 互联联网架构PaaS平台 IaaS(公有,专专有,混合) 高性能分布式计计算集群框架,构建一平台 系统线统线 性无限扩扩展,海量并发发 任意节节点链链路故障高可靠性 数据化自动动运维维运营营 数据共享打通,使能大数据 业务业务 能力云化,自然

8、沉淀共享公用服务务 老系统统平滑对对接,第三方可控开放 能力开放可运营营 新特性版本更新敏捷,创创新快 低成本 传统传统 的垂直的IT架构 IaaS(公有,专专有,混合) 高并发发性能仍然存在瓶颈颈 扩扩展能力对对大系统统不很灵活 数据孤岛岛依然存在 各垂直系统统相同模块块依然重复 开发发,无法共享沉淀 新功能版本开发发,更新仍然难难 基础设础设 施成本降低 1 2 3 系统上云 传统传统 的垂直的IT架构 自建数据中心 高并发发性能存在瓶颈颈 没有线线性扩扩展能力 数据孤岛岛 各垂直系统统相同模块块重复开发发 无法持续续沉淀积积累和共享 新功能版本开发发,更新困难难 成本高 企业级 信息系统演进的历程 云上重构 基础设施云化业务能力云化

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号