Hadoop2.0架构设计与原理

上传人:n**** 文档编号:50707550 上传时间:2018-08-10 格式:PPTX 页数:59 大小:3.45MB
返回 下载 相关 举报
Hadoop2.0架构设计与原理_第1页
第1页 / 共59页
Hadoop2.0架构设计与原理_第2页
第2页 / 共59页
Hadoop2.0架构设计与原理_第3页
第3页 / 共59页
Hadoop2.0架构设计与原理_第4页
第4页 / 共59页
Hadoop2.0架构设计与原理_第5页
第5页 / 共59页
点击查看更多>>
资源描述

《Hadoop2.0架构设计与原理》由会员分享,可在线阅读,更多相关《Hadoop2.0架构设计与原理(59页珍藏版)》请在金锄头文库上搜索。

1、Hadoop2.0架构设计与原理数据中心-Alan主要内容Hadoop介绍1Hadoop原理2Hadoop YARN产生的背景 34Hadoop YARN基本架构5运行在YARN上的计算框架6YARN 发展趋势主要内容Hadoop介绍1Hadoop原理2Hadoop YARN产生的背景 34Hadoop YARN基本架构5运行在YARN上的基本框架6YARN 发展趋势Hadoop概述n Hadoop是一个开源的、可靠的、可扩展的分布式并行计算 框架n主要组成:分布式文件系统HDFS和MapReduce算法执行n作者:Doug Cuttingn语言:Java,支持多种编程语言,如:Python、

2、C+Hadoop的起源lHadoop是Google的集群系统的开源实现 Google集群系统:GFS(Google File System)、 MapReduce、BigTable Hadoop主要由HDFS(Hadoop Distributed File System Hadoop分布式文件系统)、MapReduce lHadoop的初衷是为解决 Nutch 的海量数据爬取和存储的需 要 lHadoop于2005年秋天作为 Lucene的子项目Nutch的一部 分正式引入Apache基金会。 l名称起源: Doug Cutting儿子的黄色大象玩具的名字 l目前最新稳定版本2.6.0什么是大

3、数据 数据集主要特点 Volume: 数量量从TB到PB级别 Variety: 数据类型复杂,超过80%的数据是非结构化的 Velocity:数据量在持续增加(两位数的年增长率) Value:巨大的数据价值 其他特征 数据来自大量源,需要做相关性分析 需要实时或者准实时的流式采集,有些应用90%写vs.10%读 数据需要长时间存储,非热点数据也会被随机访问什么是大数据某比萨店的电话铃响了,客服人员拿起电话。 客服:XXX比萨店。您好,请问有什么需要我为您服务 ? 顾客:你好,我想要一份 客服:先生,烦请先把您的会员卡号告诉我。 顾客:16846146*。 客服:陈先生,您好!您是住在泉州路一号

4、12楼120x室,请 问您想要点什么? 顾客:我想要一个海鲜比萨 客服:陈先生,海鲜比萨不适合您。 顾客:为什么? 客服:根据您的医疗记录,你的血压和胆固醇都偏高。顾客:那你们有什么可以推荐的? 客服:您可以试试我们的低脂健康比萨。 顾客:你怎么知道我会喜欢吃这种的? 客服:您上星期一在中央图书馆借了一本低脂健康食谱。 顾客:好。那我要一个家庭特大号比萨,要付多少钱? 客服:99元,这个足够您一家六口吃了。但您母亲应该少吃,她上个月刚刚做了 心脏搭桥手术,还处在恢复期。 顾客:那可以刷卡吗? 客服:陈先生,对不起。请您付现款,因为您的信用卡已经刷爆了,您现在还欠 银行4807元,而且还不包括房

5、贷利息。 顾客:那我先去附近的提款机提款。 客服:陈先生,根据您的记录,您已经超过今日提款限额。 顾客:算了,你们直接把比萨送我家吧,家里有现金。你们多久会送到? 客服:大约30分钟。如果您不想等,可以自己骑车来。 顾客:为什么? 客服:根据我们全球定位系统的车辆行驶自动跟踪系统记录。您登记有一辆车号 为SB-748的摩托车,而目前您正在解放路东段华联商场右侧骑着这辆摩托车。 顾客当即晕倒大数据VS传统数据大数据处理流程10 10 10 01 01 01 01 01 01 11 10 10 10 01 01 01 01 01 01 110101 1010 1001 0101 0101 0111

6、 0101 1010 1001 0101 0101 0111 1010 1001 0101 0101 0111非结构化数据结构化数据实时流数据其它数据APITex tBig Data Store and AnalyticsETL010 110 101 001 010 101 010 111 010 110 101 001 010 101 010 111 101 010 010 101 010 101 11010 110 101 001 010 101 010 111 010 110 101 001 010 101 010 111 101 010 010 101 010 101 11Hadoop

7、生态圈主要内容Hadoop介绍1Hadoop原理2Hadoop YARN产生的背景 34Hadoop YARN基本架构5运行在YARN上的基本框架6YARN 发展趋势HDFS-分布式文件系统u设计目标 错误检测和快速自动恢复 硬件故障是常态而非异常 为流式数据访问优化 针对支持大数据集 单个文件大小有数GB或者TB 可提供高聚合带宽访问 可能够扩展至数千个节点 简化“一致性”模型 一次写入、多次读,写入过程可能并发 移动“计算”比移动“数据”更便宜 u主要特点 使用低成本存储和服务器构建 存放PB级别的海量数据 高可扩展性,实际生产环境扩展至4000个节点 高可靠性和容错性,数据自动复制,可自

8、我修复 高带宽,高并发访问,对于延迟不敏感数据分布与复制u数据块:文件被划分为固定大小的数据块进行存储 数据块缺省为64M,远大于一般文件系统数据块大小 减少元数据的量 有利于顺序读写(在磁盘上顺序存放) 可靠性:数据通过副本的方式保存在多个数据节点上 默认3个副本 副本选择会考虑机架信息以防止整个机架同时掉电u系统设计优化:用单个管理节点来保存文件系统元数据和管理/协调 数据缓存:DataNode没有数据缓存 由于文件的访问是扫描式的,不具有局部性 访问方式 读、写、文件改名、删除等 文件内容不允许覆盖更新 提供一个特殊的访问接口:追加appendHDFS基本设计HDFS体系结构中心目录服务

9、器 (NameNode) 管理大量数据服务器(DataNode) NameNode 管理元数据 (文件目录树, 文件-块映射,块-数据服务器映 射表, etc.) DataNode 负责存储数据、以及响应数据读写请求 客户端与NameNode交互进行文件创建/删除/寻址等操作, 之后直接与 DataNodes交互进行文件I/OHDFS写文件流程HDFS读文件流程什么是MapReduce编程模型?l Map(映射):对一些独立元素组成的 列表的每一个元素进行指定的操作,可 以高度并行。 l Reduce(化简):对一个列表的元素进 行合并。 l 一个简单的MapReduce程序只需要 指定map

10、()、reduce()、输入和输 出,剩下的事由框架帮你搞定。MapReduce计算框架为离线数据分析而设计,基本上是个利用数据并行性进行分布运算而后汇总结果的 计算框架 分析问题能够被并行化,且输入数据集可以被切分 一个Map函数,在第一阶段计算对 一个Reduce函数,在第二阶段用于汇总Map函数的结果MapReduce运行机制MapReduce原理MapReduce实例分析主要内容Hadoop介绍1Hadoop原理2Hadoop YARN产生的背景 34Hadoop YARN基本架构5运行在YARN上的基本框架6YARN 发展趋势Hadoop YARN产生背景 直接源于MRv1在几个方面

11、的缺陷 扩扩展性受限 单单点故障 难难以支持MR之外的计计算 多计计算框架各自为为战战,数据共享困 难难 MR:离线线计计算框架 Storm:实实时时计计算框架 Spark:内存计计算框架Hadoop 1.0和2.0 Hadoop 2.0由HDFS、MapReduce和YARN三个分支构成; HDFS:NN Federation、HA; MapReduce:运行在YARN上的MR; YARN:资资源管理系统统主要内容Hadoop介绍1Hadoop原理2Hadoop YARN产生的背景 34Hadoop YARN基本架构5运行在YARN上的基本框架6YARN 发展趋势Hadoop YARN基本架

12、构Hadoop YARN各模块组成 ResourceManager 处处理客户户端请请求 启动动/监监控ApplicationMaster 监监控NodeManager 资资源分配与调调度 NodeManager 单单个节节点上的资资源管理 处处理来自ResourceManager的命令 处处理来自ApplicationMaster的命令 ApplicationMaster 数据切分 为为应应用程序申请资请资 源,并分配给给内部任 务务 任务监务监 控与容错错Hadoop YARN运行流程分析Node ManagerNode ManagerNode ManagerResource Manage

13、rApplication MasterClientClientClientTaskContainerContainerTaskTaskContainerHadoop YARN容错 ResourceManager 基于ZooKeeper实现实现 HA。 NodeManager 失败败后,RM将失败败任务务告诉对应诉对应 的AM; AM决定如何处处理失败败的任务务。 ApplicationMaster 失败败后,由RM负责负责 重启; AM需处处理内部任务务的容错问错问 题题; RMAppMaster会保存已经经运行完成的Task,重启后无需重新运 行。Hadoop YARN调度框架 双层调层调度

14、框架 RM将资资源分配给给AM AM将资资源进进一步分配给给各个Task 基于资资源预预留的调调度策略 资资源不够够时时,会为为Task预预留,直到资资源充足与“all or nothing”策略不同(Apache Mesos)Hadoop YARN资源调度器 多类类型资资源调调度 采用DRF算法(论论文:“Dominant Resource Fairness: Fair Allocation of Multiple Resource Types”) 目前支持CPU和内存两种资资源 提供多种资资源调调度器 FIFO Fair Scheduler Capacity Scheduler 多租户资户

15、资 源调调度器 支持资资源按比例分配 支持层级队层级队 列划分方式 支持资资源抢抢占Hadoop YARN资源隔离方案 支持内存和CPU两种资资源隔离 内存是一种“决定生死”的资资源 CPU是一种“影响快慢”的资资源 内存隔离 基于线线程监监控的方案 基于Cgroups的方案 CPU隔离 默认认不对对CPU资资源进进行隔离 基于Cgroups的方案Hadoop YARN资源调度语义 支持的语义语义 请请求某个特定节节点/机架上的特定资资源量 将某些节节点加入(或移除)黑名单单,不再为为自己分配这这些节节点 上 的资资源 请请求归还归还 某些资资源 不支持的语义语义 请请求任意节节点/机架上的特定资资源量 请请求一组组或几组组符合某种特质质的资资源 超细细粒度资资源 动态调动态调 整Container资资源主要内容Hadoop介绍1Hadoop原理2Hadoop YARN产生的背景 34Hadoop YARN基本架构5运行在YARN上的基本框架6YARN 发展趋势应用程序的运行模型MapinputoutputMapinputReduceoutputStage 1inputoutputStage 2Stage 3Stage 4Stage 1inputoutputStage 2Stage 3Stage NYARN应用

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 电子/通信 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号