阿里云Hadoop在云上的最佳实践

上传人:ldj****22 文档编号:36933616 上传时间:2018-04-04 格式:PDF 页数:25 大小:1.19MB
返回 下载 相关 举报
阿里云Hadoop在云上的最佳实践_第1页
第1页 / 共25页
阿里云Hadoop在云上的最佳实践_第2页
第2页 / 共25页
阿里云Hadoop在云上的最佳实践_第3页
第3页 / 共25页
阿里云Hadoop在云上的最佳实践_第4页
第4页 / 共25页
阿里云Hadoop在云上的最佳实践_第5页
第5页 / 共25页
点击查看更多>>
资源描述

《阿里云Hadoop在云上的最佳实践》由会员分享,可在线阅读,更多相关《阿里云Hadoop在云上的最佳实践(25页珍藏版)》请在金锄头文库上搜索。

1、Hadoop在云上的最佳实践 阿里云技术专家封神 自我介绍 曹龙/封神 专注在大数据领域,6年分布式引擎研发经验; 先后维护上万台Hadoop、ODPS集群; 先后负责阿里YARN、spark及自主研发内存计算引擎; 目前为广大公共云用户提供专业的Hadoop服务,即:E-mapreduce产品 微博:阿里封神 微信:fengshenwukong 博客:云栖社区封神 提纲 阿里巴巴Hadoop发展历程 云上Hadoop的部署架构 云上Hadoop的优势 云上Hadoop的挑战 云上Hadoop的最佳实践 阿里巴巴Hadoop发展历程 09年 开始研究 Hadoop 13年 双机房国内 最大的

2、Hadoop集 群之一 14年 登月计划 内部迁移 到ODPS 15年 对外提供 Hadoop能 力 Hadoop生态 ECS EMR Agent Layer HDFS YARN MapReduce/TEZ pig Hive HUE Zeppelin notebook Spark Core Tachyon Spark SQL Spark Graphx Spark Mllib Spark Streaming Hbase Other Engine eg:storm impala、 flink等其它开源 软件 EMR Web User Admin 云上Hadoop的部署架构-经典部署 NM DN N

3、M DN NM DN NM DN NM DN NM NM RM NN RM NN Master Node Core Node Task Node 云上Hadoop的部署架构-存储计算分离 NM NM NM RM OSS NM DN NM DN NM DN RM NN OSS worker worker HDFS DataNode作为Proxy来访问数据,提供HDFS语义 计算直接访问OSS Incorporate Aliyun OSS file system implementation Patch:HADOOP-12756 云上Hadoop的部署架构-元数据共享 OSS RDS Hive元数

4、据 Spark/TEZ/MR hive 访问元数据 Spark/TEZ/MR hive 访问元数据 HDFS HDFS 临时集群 永久集群 数据存储 数据存储 pig 云上Hadoop的部署架构-VPC模式 ECS ECS ECS E-mapreduce E-mapreduce VPC ECS 公网 构建虚拟子网,与外部隔离 云上Hadoop的部署架构-混合云模式 Oracle ERP CRM E-mapreduce ECS 线下系统 线上系统 专线 OSS VPC 云上Hadoop的优势-易用 易于部署,分钟开启 任务编排,监控,报警 云上Hadoop的优势-低成本 EMR成本 自建成本 包

5、年包月 动态扩容 节约成本 按时付费 存储计算分离 计算想用才付费 云上Hadoop的优势-深度整合 E-mapreduce 跟阿里云其它产品深度整合 ECS OSS RDS MongoDB Redis ONS MNS Log Service ODPS 云上Hadoop的优势-可靠、安全、专业 RAM: 主子账号整合阿里云RAM资源权限管理系统 VPC:构建出一个隔离的网络环境,可以云上云下互动 监控您集群的状态 Hadoop针对云进行一系列优化 专业的Hadoop生态专家团队 云上Hadoop的挑战-Shuffle ECS Local disk 添加本地磁盘,加速Shuffle push s

6、huffle占用磁盘IO低,如:flink dataflow等,checkpoint采取异步做法 机器学习等场景瓶颈往往是CPU 往往ETL一天只需要跑几个小时,可以按需运行 SSD与SATA混合,加速写 ECS Local disk ECS ECS W SSD R STAT 云上Hadoop的挑战-本地化 机器学习场景往往会缓存较大的数据 ETL一天只需要跑几个小时,可以按需运行 数据压缩可以减少带宽的压力 目前带宽逐渐不是稀缺资源 iops Latency ECS ECS OSS Network 1020 Gbps 2009 2016 memory network disk 800Mbps

7、 1200Mbps 12g 96g192g 1Gbps 10Gbps20Gbps 10100倍倍 816倍倍 12倍倍 云上Hadoop的挑战-自动化运维 虚拟化 Hadoop运维自动化 作业管理,任务编排 监控、报警 用户的业务 集群数多了,啥事情都有了集群数多了,啥事情都有了 Master HA高可用 Master NN的元数据高可用 Hive元数据高可用 各种日志清理等 节点挂掉,自动补回 Datanode掉线处理 NodeManager掉线处理 Job运行监控报警 负载过高监控报警 节点数据均衡 单节点扩容 版本自动升级 重要数据备份 Hbase等指标监控报警 Storm等指标监控报警

8、 云上Hadoop的挑战-专家建议 是否需要扩容 Hive SQL,可以给SQL评分,给出最优写法 分析存储,比如:指明是否需要压缩;小文件是否过多,是否需要合并;访问记录分析,是否可以把冷数据归档处理 分析运行时各种JOB统计信息,如:Job的map时间是否过小,运行时reduce是否数据倾斜,单个job是否有一些参数调整 最佳实践-混合使用节约成本 OSS 线下数据可以直接上OSS 按需成本 EMR按需 每天晚上0:002:00 选择CPU/高效存储的机器 共享Hive元数据 OSS存储,降低成本 按需执行离线分析,降低成本 根据作业类型(IO/CPU/Memory bound)选择机器规

9、格 选择节点少大规格的集群 测试环境小规格/生产环境高规格 一部分数据 需要处理 EMR包年 运营查询 选择内存大的机器 最佳实践-离线处理-用户行为分析 业务场景: 直播会产生很多的用户行为数据,包括页面的浏览,按钮的点击情况。直播服务端会把这些信息存储在OSS中。 再启动EMR中的hive脚本分析这些数据,如:统计pv、uv,再把每个链接的访问情况存储在RDS中,最后通过报表系统展示给运营同学。 RDS EMR Hive脚本 OSS ECS Server 报表展示系统 运营/开发 最佳实践-离线处理+在线服务-多维度统计信息 EMR Spark API Hbase/OTS ECS Serv

10、er Hbase/OTS 查询服务 用户 业务场景: 车载APP会实时上传汽车的物理指标包括(电池电量电压、车速,发动机功耗等),通过EMR进行引擎进行离线分析,按照城市的粒度,即分析出来某个城市某个时段的车辆出行率、出行里程平均值、车速平均值、平均油耗、出行车辆数、平均怠速时间、某个局域激烈驾驶的次数等统计信息。这些信息会给政府部门使用。 最佳实践-在线离线混合 RDS LogService ECS Server RDS 运营/开发 包年 EMR Spark Streaming Spark Mllib 按需 EMR Spark SQL/Mllib 展示系统 OSS 节约成本 业务场景: 需要

11、统计小时以内的各种维度的UV数据,从A页面进入B页面的数据。方便运营同学做更好的营销方案。 另外,一些主题小组内的页面排序,希望根据用户的浏览情况自动排序。 最佳实践-Hadoop相关 避免小文件,OSS存储文件大小大约为1-2G 每个task 60s,速度大约20-30MB/s 数据压缩 减少存储空间 减少成本 减少数据传输时间 降低磁盘IO hive on tez 尝试使用spark等新的计算引擎 压缩算法压缩算法 压缩后空间压缩后空间 压缩速率压缩速率 解压速率解压速率 GZIP 14% 20MB/s 118MB/s LZO 20% 140MB/s 410MB/s snappy 22% 170MB/s 409MB/s 最佳实践-通过监控指标找瓶颈 运行作业 发现瓶颈 解决问题 从CPU、磁盘、网络、内存 作业本身 欢迎使用欢迎使用阿里云阿里云E-Mapreduce! 我们正在招聘!我们正在招聘! QA

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号