Hadoop2.0架构设计与原理

资源描述

《Hadoop2.0架构设计与原理》由会员分享，可在线阅读，更多相关《Hadoop2.0架构设计与原理（59页珍藏版）》请在金锄头文库上搜索。

1、Hadoop2.0架构设计与原理数据中心-Alan主要内容Hadoop介绍1Hadoop原理2Hadoop YARN产生的背景 34Hadoop YARN基本架构5运行在YARN上的计算框架6YARN 发展趋势主要内容Hadoop介绍1Hadoop原理2Hadoop YARN产生的背景 34Hadoop YARN基本架构5运行在YARN上的基本框架6YARN 发展趋势Hadoop概述n Hadoop是一个开源的、可靠的、可扩展的分布式并行计算框架n主要组成:分布式文件系统HDFS和MapReduce算法执行n作者:Doug Cuttingn语言:Java，支持多种编程语言，如:Python、

2、C+Hadoop的起源lHadoop是Google的集群系统的开源实现 Google集群系统：GFS(Google File System)、 MapReduce、BigTable Hadoop主要由HDFS(Hadoop Distributed File System Hadoop分布式文件系统)、MapReduce lHadoop的初衷是为解决 Nutch 的海量数据爬取和存储的需要 lHadoop于2005年秋天作为 Lucene的子项目Nutch的一部分正式引入Apache基金会。 l名称起源: Doug Cutting儿子的黄色大象玩具的名字 l目前最新稳定版本2.6.0什么是大

3、数据数据集主要特点 Volume: 数量量从TB到PB级别 Variety: 数据类型复杂，超过80%的数据是非结构化的 Velocity:数据量在持续增加(两位数的年增长率) Value：巨大的数据价值其他特征数据来自大量源,需要做相关性分析需要实时或者准实时的流式采集,有些应用90%写vs.10%读数据需要长时间存储,非热点数据也会被随机访问什么是大数据某比萨店的电话铃响了，客服人员拿起电话。客服：XXX比萨店。您好，请问有什么需要我为您服务？顾客：你好，我想要一份客服：先生，烦请先把您的会员卡号告诉我。顾客：16846146*。客服：陈先生，您好！您是住在泉州路一号

4、12楼120x室，请问您想要点什么？顾客：我想要一个海鲜比萨客服：陈先生，海鲜比萨不适合您。顾客：为什么？客服：根据您的医疗记录，你的血压和胆固醇都偏高。顾客：那你们有什么可以推荐的？客服：您可以试试我们的低脂健康比萨。顾客：你怎么知道我会喜欢吃这种的？客服：您上星期一在中央图书馆借了一本低脂健康食谱。顾客：好。那我要一个家庭特大号比萨，要付多少钱？客服：99元，这个足够您一家六口吃了。但您母亲应该少吃，她上个月刚刚做了心脏搭桥手术，还处在恢复期。顾客：那可以刷卡吗？客服：陈先生，对不起。请您付现款，因为您的信用卡已经刷爆了，您现在还欠银行4807元，而且还不包括房

5、贷利息。顾客：那我先去附近的提款机提款。客服：陈先生，根据您的记录，您已经超过今日提款限额。顾客：算了，你们直接把比萨送我家吧，家里有现金。你们多久会送到？客服：大约30分钟。如果您不想等，可以自己骑车来。顾客：为什么？客服：根据我们全球定位系统的车辆行驶自动跟踪系统记录。您登记有一辆车号为SB-748的摩托车，而目前您正在解放路东段华联商场右侧骑着这辆摩托车。顾客当即晕倒大数据VS传统数据大数据处理流程10 10 10 01 01 01 01 01 01 11 10 10 10 01 01 01 01 01 01 110101 1010 1001 0101 0101 0111

6、 0101 1010 1001 0101 0101 0111 1010 1001 0101 0101 0111非结构化数据结构化数据实时流数据其它数据APITex tBig Data Store and AnalyticsETL010 110 101 001 010 101 010 111 010 110 101 001 010 101 010 111 101 010 010 101 010 101 11010 110 101 001 010 101 010 111 010 110 101 001 010 101 010 111 101 010 010 101 010 101 11Hadoop

7、生态圈主要内容Hadoop介绍1Hadoop原理2Hadoop YARN产生的背景 34Hadoop YARN基本架构5运行在YARN上的基本框架6YARN 发展趋势HDFS-分布式文件系统u设计目标错误检测和快速自动恢复硬件故障是常态而非异常为流式数据访问优化针对支持大数据集单个文件大小有数GB或者TB 可提供高聚合带宽访问可能够扩展至数千个节点简化“一致性”模型一次写入、多次读，写入过程可能并发移动“计算”比移动“数据”更便宜 u主要特点使用低成本存储和服务器构建存放PB级别的海量数据高可扩展性,实际生产环境扩展至4000个节点高可靠性和容错性，数据自动复制，可自

8、我修复高带宽，高并发访问，对于延迟不敏感数据分布与复制u数据块：文件被划分为固定大小的数据块进行存储数据块缺省为64M，远大于一般文件系统数据块大小减少元数据的量有利于顺序读写（在磁盘上顺序存放）可靠性：数据通过副本的方式保存在多个数据节点上默认3个副本副本选择会考虑机架信息以防止整个机架同时掉电u系统设计优化：用单个管理节点来保存文件系统元数据和管理/协调数据缓存：DataNode没有数据缓存由于文件的访问是扫描式的，不具有局部性访问方式读、写、文件改名、删除等文件内容不允许覆盖更新提供一个特殊的访问接口：追加appendHDFS基本设计HDFS体系结构中心目录服务

9、器 (NameNode) 管理大量数据服务器(DataNode) NameNode 管理元数据 (文件目录树, 文件-块映射,块-数据服务器映射表, etc.) DataNode 负责存储数据、以及响应数据读写请求客户端与NameNode交互进行文件创建/删除/寻址等操作, 之后直接与 DataNodes交互进行文件I/OHDFS写文件流程HDFS读文件流程什么是MapReduce编程模型？l Map(映射):对一些独立元素组成的列表的每一个元素进行指定的操作,可以高度并行。 l Reduce(化简):对一个列表的元素进行合并。 l 一个简单的MapReduce程序只需要指定map

10、()、reduce()、输入和输出,剩下的事由框架帮你搞定。MapReduce计算框架为离线数据分析而设计,基本上是个利用数据并行性进行分布运算而后汇总结果的计算框架分析问题能够被并行化,且输入数据集可以被切分一个Map函数,在第一阶段计算对一个Reduce函数,在第二阶段用于汇总Map函数的结果MapReduce运行机制MapReduce原理MapReduce实例分析主要内容Hadoop介绍1Hadoop原理2Hadoop YARN产生的背景 34Hadoop YARN基本架构5运行在YARN上的基本框架6YARN 发展趋势Hadoop YARN产生背景直接源于MRv1在几个方面

11、的缺陷扩扩展性受限单单点故障难难以支持MR之外的计计算多计计算框架各自为为战战，数据共享困难难 MR：离线线计计算框架 Storm：实实时时计计算框架 Spark：内存计计算框架Hadoop 1.0和2.0 Hadoop 2.0由HDFS、MapReduce和YARN三个分支构成； HDFS：NN Federation、HA； MapReduce：运行在YARN上的MR； YARN：资资源管理系统统主要内容Hadoop介绍1Hadoop原理2Hadoop YARN产生的背景 34Hadoop YARN基本架构5运行在YARN上的基本框架6YARN 发展趋势Hadoop YARN基本架

12、构Hadoop YARN各模块组成 ResourceManager 处处理客户户端请请求启动动/监监控ApplicationMaster 监监控NodeManager 资资源分配与调调度 NodeManager 单单个节节点上的资资源管理处处理来自ResourceManager的命令处处理来自ApplicationMaster的命令 ApplicationMaster 数据切分为为应应用程序申请资请资源，并分配给给内部任务务任务监务监控与容错错Hadoop YARN运行流程分析Node ManagerNode ManagerNode ManagerResource Manage

13、rApplication MasterClientClientClientTaskContainerContainerTaskTaskContainerHadoop YARN容错 ResourceManager 基于ZooKeeper实现实现 HA。 NodeManager 失败败后，RM将失败败任务务告诉对应诉对应的AM； AM决定如何处处理失败败的任务务。 ApplicationMaster 失败败后，由RM负责负责重启； AM需处处理内部任务务的容错问错问题题； RMAppMaster会保存已经经运行完成的Task，重启后无需重新运行。Hadoop YARN调度框架双层调层调度

14、框架 RM将资资源分配给给AM AM将资资源进进一步分配给给各个Task 基于资资源预预留的调调度策略资资源不够够时时，会为为Task预预留，直到资资源充足与“all or nothing”策略不同（Apache Mesos）Hadoop YARN资源调度器多类类型资资源调调度采用DRF算法（论论文：“Dominant Resource Fairness: Fair Allocation of Multiple Resource Types”）目前支持CPU和内存两种资资源提供多种资资源调调度器 FIFO Fair Scheduler Capacity Scheduler 多租户资户

15、资源调调度器支持资资源按比例分配支持层级队层级队列划分方式支持资资源抢抢占Hadoop YARN资源隔离方案支持内存和CPU两种资资源隔离内存是一种“决定生死”的资资源 CPU是一种“影响快慢”的资资源内存隔离基于线线程监监控的方案基于Cgroups的方案 CPU隔离默认认不对对CPU资资源进进行隔离基于Cgroups的方案Hadoop YARN资源调度语义支持的语义语义请请求某个特定节节点/机架上的特定资资源量将某些节节点加入（或移除）黑名单单，不再为为自己分配这这些节节点上的资资源请请求归还归还某些资资源不支持的语义语义请请求任意节节点/机架上的特定资资源量请请求一组组或几组组符合某种特质质的资资源超细细粒度资资源动态调动态调整Container资资源主要内容Hadoop介绍1Hadoop原理2Hadoop YARN产生的背景 34Hadoop YARN基本架构5运行在YARN上的基本框架6YARN 发展趋势应用程序的运行模型MapinputoutputMapinputReduceoutputStage 1inputoutputStage 2Stage 3Stage 4Stage 1inputoutputStage 2Stage 3Stage NYARN应用

展开阅读全文

Hadoop2.0架构设计与原理

最新文档