阿里云Hadoop在云上的最佳实践

资源描述

《阿里云Hadoop在云上的最佳实践》由会员分享，可在线阅读，更多相关《阿里云Hadoop在云上的最佳实践（25页珍藏版）》请在金锄头文库上搜索。

1、Hadoop在云上的最佳实践阿里云技术专家封神自我介绍曹龙/封神专注在大数据领域，6年分布式引擎研发经验; 先后维护上万台Hadoop、ODPS集群; 先后负责阿里YARN、spark及自主研发内存计算引擎；目前为广大公共云用户提供专业的Hadoop服务，即：E-mapreduce产品微博：阿里封神微信：fengshenwukong 博客：云栖社区封神提纲阿里巴巴Hadoop发展历程云上Hadoop的部署架构云上Hadoop的优势云上Hadoop的挑战云上Hadoop的最佳实践阿里巴巴Hadoop发展历程 09年开始研究 Hadoop 13年双机房国内最大的

2、Hadoop集群之一 14年登月计划内部迁移到ODPS 15年对外提供 Hadoop能力 Hadoop生态 ECS EMR Agent Layer HDFS YARN MapReduce/TEZ pig Hive HUE Zeppelin notebook Spark Core Tachyon Spark SQL Spark Graphx Spark Mllib Spark Streaming Hbase Other Engine eg:storm impala、 flink等其它开源软件 EMR Web User Admin 云上Hadoop的部署架构-经典部署 NM DN N

3、M DN NM DN NM DN NM DN NM NM RM NN RM NN Master Node Core Node Task Node 云上Hadoop的部署架构-存储计算分离 NM NM NM RM OSS NM DN NM DN NM DN RM NN OSS worker worker HDFS DataNode作为Proxy来访问数据,提供HDFS语义计算直接访问OSS Incorporate Aliyun OSS file system implementation Patch：HADOOP-12756 云上Hadoop的部署架构-元数据共享 OSS RDS Hive元数

4、据 Spark/TEZ/MR hive 访问元数据 Spark/TEZ/MR hive 访问元数据 HDFS HDFS 临时集群永久集群数据存储数据存储 pig 云上Hadoop的部署架构-VPC模式 ECS ECS ECS E-mapreduce E-mapreduce VPC ECS 公网构建虚拟子网，与外部隔离云上Hadoop的部署架构-混合云模式 Oracle ERP CRM E-mapreduce ECS 线下系统线上系统专线 OSS VPC 云上Hadoop的优势-易用易于部署，分钟开启任务编排，监控，报警云上Hadoop的优势-低成本 EMR成本自建成本包

5、年包月动态扩容节约成本按时付费存储计算分离计算想用才付费云上Hadoop的优势-深度整合 E-mapreduce 跟阿里云其它产品深度整合 ECS OSS RDS MongoDB Redis ONS MNS Log Service ODPS 云上Hadoop的优势-可靠、安全、专业 RAM: 主子账号整合阿里云RAM资源权限管理系统 VPC：构建出一个隔离的网络环境，可以云上云下互动监控您集群的状态 Hadoop针对云进行一系列优化专业的Hadoop生态专家团队云上Hadoop的挑战-Shuffle ECS Local disk 添加本地磁盘，加速Shuffle push s

6、huffle占用磁盘IO低，如：flink dataflow等，checkpoint采取异步做法机器学习等场景瓶颈往往是CPU 往往ETL一天只需要跑几个小时，可以按需运行 SSD与SATA混合，加速写 ECS Local disk ECS ECS W SSD R STAT 云上Hadoop的挑战-本地化机器学习场景往往会缓存较大的数据 ETL一天只需要跑几个小时，可以按需运行数据压缩可以减少带宽的压力目前带宽逐渐不是稀缺资源 iops Latency ECS ECS OSS Network 1020 Gbps 2009 2016 memory network disk 800Mbps

7、 1200Mbps 12g 96g192g 1Gbps 10Gbps20Gbps 10100倍倍 816倍倍 12倍倍云上Hadoop的挑战-自动化运维虚拟化 Hadoop运维自动化作业管理，任务编排监控、报警用户的业务集群数多了，啥事情都有了集群数多了，啥事情都有了 Master HA高可用 Master NN的元数据高可用 Hive元数据高可用各种日志清理等节点挂掉，自动补回 Datanode掉线处理 NodeManager掉线处理 Job运行监控报警负载过高监控报警节点数据均衡单节点扩容版本自动升级重要数据备份 Hbase等指标监控报警 Storm等指标监控报警

8、云上Hadoop的挑战-专家建议是否需要扩容 Hive SQL，可以给SQL评分，给出最优写法分析存储，比如：指明是否需要压缩；小文件是否过多，是否需要合并；访问记录分析，是否可以把冷数据归档处理分析运行时各种JOB统计信息，如：Job的map时间是否过小，运行时reduce是否数据倾斜，单个job是否有一些参数调整最佳实践-混合使用节约成本 OSS 线下数据可以直接上OSS 按需成本 EMR按需每天晚上0:002:00 选择CPU/高效存储的机器共享Hive元数据 OSS存储，降低成本按需执行离线分析，降低成本根据作业类型（IO/CPU/Memory bound）选择机器规

9、格选择节点少大规格的集群测试环境小规格/生产环境高规格一部分数据需要处理 EMR包年运营查询选择内存大的机器最佳实践-离线处理-用户行为分析业务场景：直播会产生很多的用户行为数据，包括页面的浏览，按钮的点击情况。直播服务端会把这些信息存储在OSS中。再启动EMR中的hive脚本分析这些数据，如：统计pv、uv，再把每个链接的访问情况存储在RDS中，最后通过报表系统展示给运营同学。 RDS EMR Hive脚本 OSS ECS Server 报表展示系统运营/开发最佳实践-离线处理+在线服务-多维度统计信息 EMR Spark API Hbase/OTS ECS Serv

10、er Hbase/OTS 查询服务用户业务场景：车载APP会实时上传汽车的物理指标包括（电池电量电压、车速，发动机功耗等），通过EMR进行引擎进行离线分析，按照城市的粒度，即分析出来某个城市某个时段的车辆出行率、出行里程平均值、车速平均值、平均油耗、出行车辆数、平均怠速时间、某个局域激烈驾驶的次数等统计信息。这些信息会给政府部门使用。最佳实践-在线离线混合 RDS LogService ECS Server RDS 运营/开发包年 EMR Spark Streaming Spark Mllib 按需 EMR Spark SQL/Mllib 展示系统 OSS 节约成本业务场景：需要

11、统计小时以内的各种维度的UV数据，从A页面进入B页面的数据。方便运营同学做更好的营销方案。另外，一些主题小组内的页面排序，希望根据用户的浏览情况自动排序。最佳实践-Hadoop相关避免小文件，OSS存储文件大小大约为1-2G 每个task 60s，速度大约20-30MB/s 数据压缩减少存储空间减少成本减少数据传输时间降低磁盘IO hive on tez 尝试使用spark等新的计算引擎压缩算法压缩算法压缩后空间压缩后空间压缩速率压缩速率解压速率解压速率 GZIP 14% 20MB/s 118MB/s LZO 20% 140MB/s 410MB/s snappy 22% 170MB/s 409MB/s 最佳实践-通过监控指标找瓶颈运行作业发现瓶颈解决问题从CPU、磁盘、网络、内存作业本身欢迎使用欢迎使用阿里云阿里云E-Mapreduce！我们正在招聘！我们正在招聘！ QA

展开阅读全文