阿里Hadoop集群运

上传人:艾力 文档编号:35330216 上传时间:2018-03-14 格式:PDF 页数:22 大小:1.78MB
返回 下载 相关 举报
阿里Hadoop集群运_第1页
第1页 / 共22页
阿里Hadoop集群运_第2页
第2页 / 共22页
阿里Hadoop集群运_第3页
第3页 / 共22页
阿里Hadoop集群运_第4页
第4页 / 共22页
阿里Hadoop集群运_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《阿里Hadoop集群运》由会员分享,可在线阅读,更多相关《阿里Hadoop集群运(22页珍藏版)》请在金锄头文库上搜索。

1、阿里Hadoop集群运 维介绍 柯旻(大舞) 阿里巴巴技术保障部门-云计 算运维?Alibaba confiden.al? 阿里hadoop集群发展现状 监控报警 自动化运维 数据化运维 大规模集群下遇到的运维问题和新挑战 大纲?2?Alibaba confiden.al?集群容量与负载 3?集群容量 ? 约 5000台服务器 ? CPU core 50000核 ? 内存 260TB 磁盘 120000块 ? 存储容量 110PB 集群负载(每天) ? Job 200,000+ 扫描数据量10PB 扫描文件数 4亿 ? 存储利用率 75-80% CPU利用率70% 峰 值85% Alibaba

2、 confiden.al?服务器数量增长?4?200 700 1000 2000 3000 5000 10000 0 2000 4000 6000 8000 10000 12000 2009.4 2010.3 2010.7 2012.1 2012.1 2013.7 2014? 服务器数量 Alibaba confiden.al?5?集群服务模式?云梯Hadoop集群 HDFS?MapReduce?生产?开发?测试?预发?全天可用?923点?923点?923点? 生产开发测试预发共享一个集群? 重点生产业务09点运行? 非生产限制在923点可用?Alibaba confiden.al?6?集群核

3、心业务平台架构?Oracle 备库?MySQL 备库?日志系统?云梯服务集群?云梯服务集群?数据平台?搜索?支付宝?B2B?Gateway Servers?数据魔方?量子统计?口碑?DBSync?爬虫数据?Map Reduce Jobs?Streaming Jobs?Hive Jobs?广告?BI?淘数据?推荐系统?搜索排行?TimeTunnel?DataX?数 据 流 向天网 调度 系统?数据用 户部门?对外数 据产品?资料来源:淘宝云梯分布式计算平台整体架构- 张清(淘宝) Alibaba confiden.al? 监控Hadoop关键进程,磁盘运行状况等短信、 旺旺、邮件报警等? 监控集

4、群整体运行状态和Hadoop运行参数数据? Job的Counter数限制? 创建HDFS文件数目的监控? 本地文件系统数据读写量监控? 异常作业监控? End to end 监控? 云梯医生监控各类用户态数据?监控报警?7?Alibaba confiden.al?云梯医生?8? 展示一些应用组件基本信息?(setup、map、reduce、cleanup, split、map、copy、sort、reduce、output HDFS读写数据量、本地读 写数据量、使用slots、调度等待时间、task失败的比例、task失败原因分类、task失败的机器)? 针对用户提供体检服务 ? 支持定制服务

5、和实时体检?Alibaba confiden.al?1. 服务器上线前自动化检查 2. 硬盘异常自动化处理 3. 集群用户一站式portal 4. 日常各类自动化运行报表 . 自动化运维?9?Alibaba confiden.al?硬件上线前监测(fw版本,bios配置,驱动 版本以及性能情况) ?服务器上线前自动化检查?10?Alibaba confiden.al?硬盘异常自动处理 1. 廉价、大容量的硬盘 2. 磁盘繁忙度和利用率很高 ? 3. 硬盘故障率远高于其他硬件 ?硬盘异常自动化处理?11?找到异常磁盘 Umount,fsck 能卸载即卸载, 不能卸载重启服 务器(带外) Alib

6、aba confiden.al?集群用户一站式Portal?用户服务? 申请用户? 申请用户组? 申请Gateway?组管理员服务? 申请审批? 申请Slots? 申请存储?集群管理员服务? 申请审批? 管理用户? 管理用户组? 进度查询? 查询用户? 查询用户组? 查询Gateway? 用户手册? 管理Gateway? Queue管理? Slots管理? 集群用户一站式完成各类申请? 组管理员负责申请计算存储资源? 集群管理员通过web控制调整集群配置?Alibaba confiden.al?日常各类自动化运行报表 13?Alibaba confiden.al? 自动化后是不是就够了? 10

7、00台,1万台我们还有经验可以借鉴,1 0万台,50万台,100万台后我们借鉴 什么? 拍脑袋的决定不一定靠谱了,随着规模 的扩大也许一拍下去会跟公司造成巨大损 失 数据化运维?14?数据才是唯一真实可靠的!?Alibaba confiden.al?磁盘?15? EXT3文件系统,当时的数据量, 做一次fsck需要至少半个小时 每次修复需要停掉一台节点的应用 H云计算平台的133天中: 625次文件系统的fsck。 平均每天需进行4.7次的修复。 保守按耗费半小时来计算 造成每天有141分钟单台不可用时间 有数据就有底气: 应用程序改造能允许在线卸载目录 在线挂载目录后应用程序能够识别 选用更

8、可靠的EXT4文件系统 140?141分钟 downtime 减少恢复时间 Alibaba confiden.al?服务器?16?Alibaba confiden.al?冷数据?17?Alibaba confiden.al?集群数据?18? 集群全局指标? 存储计算利用率趋势? 用户组资源使用趋势分析? Slots*Sec? HDFS/Local r/w? 机器机器组视图? 业务作业对比(前一天前一周)? 数据量增长趋势? 不同优先级作业资源消耗? Master节点关键指标? JobTracker心跳频率时间? NameNode RPC各项性能指标?Alibaba confiden.al?用户

9、数据?19?Alibaba confiden.al?1. 服务器硬件配置情况一直在发生变化 2. 大批机器上线某些机器性能不一致 3. Kernel bug 4. 用户数,分组,业务急剧膨胀 5. 突发状况变多,集群突然变慢了?某个组新上线大规 模作业? 6. 大压力情况下出现边界效应,小概率事件触发成为常态 7. 目前规模单机房已经无法满足我们需求,跨机房集群 该如何运维? 8. 成本,成本,如何控制成本 . 集群数量快速膨胀遇到的运维压力?20?Alibaba confiden.al?欢迎加入阿里巴巴技术保障部门-云计算运维 hp:/ refNo=JI002985 我们还在路上,一起改变世界! 加入我们?21?Alibaba confiden.al?Q&A 22?

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号