Hadoop大数据平台介绍.ppt

资源描述

《Hadoop大数据平台介绍.ppt》由会员分享，可在线阅读，更多相关《Hadoop大数据平台介绍.ppt（60页珍藏版）》请在金锄头文库上搜索。

1、Hadoop大数据平台介绍,目录,HDFS介绍,Hadoop概述,MapReduce介绍,如何对大数据进行存储与分析呢？,系统瓶颈,存储容量,读写速度,计算效率,Google大数据技术,MapReduce,BigTable,GFS,革命性变化1：成本降低，能用PC机，就不用大型机和高端存储,小型机,大型机,磁盘阵列,革命性变化1：成本降低，能用PC机，就不用大型机和高端存储,革命性变化1：成本降低，能用PC机，就不用大型机和高端存储,革命性变化2：软件容错硬件故障视为常态，通过软件保证可靠性,革命性变化3：简化并行分布式计算，无须控制节点同步和数据交换,Map,Reduce,但是，Googl

2、e只发表了相关的技术论文，没有开放源代码。,一个模仿Google大数据技术的开源实现来了。,为何取名Hadoop？,Hadoop是什么？,http:/hadoop.apache.org/,开源的,分布式存储 + 分布式计算平台,Hadoop的组成,包括两个核心组成：,HDFS：分布式文件系统，存储海量的数据,MapReduce：并行处理框架，实现任务分解和调度,Hadoop可以用来做什么？,搭建大型数据仓库，PB级数据的存储、处理、分析、统计等业务,搜索引擎,商业智能,数据挖掘,日志分析,Hadoop的优势,优势1：高扩展,优势2：低成本,优势3：成熟的生态圈,目录,HDFS介绍,Hadoo

3、p概述,MapReduce介绍,HDFS基本概念,块（Block）,NameNode,DataNode,HDFS的文件被分成块进行存储,HDFS块的默认大小是64MB,块是文件存储处理的逻辑单元,HDFS中有两类节点,NameNode 和 DataNode,NameNode是管理节点，存放文件元数据, 文件与数据块的映射表, 数据块与数据节点的映射表,HDFS体系结构,DataNode是HDFS的工作节点，存放数据块,HDFS体系结构,HDFS中数据管理与容错,数据块副本,机架1,机架2,NameNode,Secondary NameNode,客户端,复制,DataNode1,DataNod

4、e2,DataNode3,DataNode4,DataNode5,读取元数据,读取数据块,元数据更新,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,每个数据块3个副本，分布在两个机架内的三个节点,数据块副本,机架1,机架2,NameNode,Secondary NameNode,客户端,复制,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5,读取元数据,读取数据块,元数据更新,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,每个数据块3个副本，分布在两个机架内的三个节点,数据块副本,机架1,机架2,NameNode,S

5、econdary NameNode,客户端,复制,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5,读取元数据,读取数据块,元数据更新,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,每个数据块3个副本，分布在两个机架内的三个节点,心跳检测,机架1,机架2,NameNode,Secondary NameNode,客户端,复制,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5,读取元数据,心跳消息,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,DataNode定期向Nam

6、eNode发送心跳消息,心跳消息,心跳消息,心跳检测,机架1,机架2,NameNode,Secondary NameNode,客户端,复制,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5,读取元数据,心跳消息,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,DataNode定期向NameNode发送心跳消息,心跳消息,心跳消息,机架1,机架2,NameNode,Secondary NameNode,客户端,复制,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5,读取元数据,读取数据

7、块,元数据更新,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,二级NameNode,二级NameNode定期同步元数据映射文件和修改日志 NameNode发生故障时，备胎转正。,Editlog,FsImage,HDFS中文件读写的流程,机架1,机架2,NameNode,Secondary NameNode,客户端,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5, 文件读取请求,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,HDFS读取文件的流程, 返回元数据, 读取数据块, 读取数据块, 读取数据块,机架1,机架2

8、,NameNode,Secondary NameNode,客户端,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5, 文件拆分成块,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,HDFS写入文件的流程, 返回DataNodes, 写入数据块, 流水线复制, 更新元数据,HDFS的特点, 数据冗余，硬件容错, 流式的数据访问, 适合存储大文件,HDFS写入文件的流程,机架1,机架2,NameNode,Secondary NameNode,客户端,DataNode1,DataNode2,DataNode3,DataNode4,Data

9、Node5, 文件拆分成块,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E, 返回DataNodes, 写入数据块, 流水线复制, 更新元数据,HDFS的特点,适用性和局限性,- 适合数据批量读写，吞吐量高,- 不适合交互式应用，低延迟很难满足,- 适合一次写入多次读取，顺序读写,- 不支持多用户并发写相同文件,目录,HDFS介绍,Hadoop概述,MapReduce介绍,MapReduce原理,分而治之，一个大任务分成多个小的子任务（Map），并行执行后，合并结果（Reduce）,100GB 网站访问日志文件，找出访问次数最多的IP地址,map(),map(),map(),m

10、ap(),map(),reduce(),reduce(),reduce(),input,map tasks,reduce tasks,output,Input split,shuffle,output,交换,日志切分,统计IP出现次数,中间结果合并,排序,日志,日志,日志,日志,日志,map(),map(),map(),map(),map(),reduce(),reduce(),reduce(),input,map tasks,reduce tasks,output,Input split,shuffle,output,交换,日志切分,统计IP出现次数,中间结果合并,排序,日志,日志,日志,日

11、志,日志,IP1,IP1,IP1,IP1,IP1,IP2,IP2,IP2,IP2,IP2,IP3,IP3,IP3,IP3,IP3,X次,Y次,Z次, ,map(),map(),map(),map(),map(),reduce(),reduce(),reduce(),input,map tasks,reduce tasks,output,Input split,shuffle,output,交换,日志切分,统计IP出现次数,中间结果合并,排序,日志,日志,日志,日志,日志,IP1,IP2,IP3,X次,Y次,Z次,map(),map(),map(),map(),map(),reduce(),re

12、duce(),reduce(),input,map tasks,reduce tasks,output,Input split,shuffle,output,交换,日志切分,统计IP出现次数,中间结果合并,排序,MapReduce的运行流程,基本概念,Job & Task,JobTracker,TaskTracker,Map TaskTracker,Reduce TaskTracker,JobTracker,客户端,TaskTracker1 DataNode1,TaskTreacker2 DataNode2,TaskTracker3 DataNode3,TaskTracker4 DataNod

13、e4,TaskTracker5 DataNode5,作业（Job）,Reduce任务,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,Hadoop MapReduce体系结构,Map任务,状态更新,JobTracker的角色, 作业调度, 分配任务、监控任务执行进度, 监控TaskTracker的状态,TaskTracker的角色, 执行任务, 汇报任务状态,Map端,MapReduce作业执行过程,MapReduce Job,JobTracker,Scheduler,TaskTracker,TaskTracker,TaskTracker,TaskTracker,TaskTracker,Reduce端,数据片段,提交,分配Map任务,分配Reduce任务,输入数据,Map任务,中间结果（Key-Value对）,Reduce任务,输出结果,MapReduce的容错机制, 重复执行,X 4,MapReduce的容错机制, 重复执行, 推测执行,Map端,Map端,Map端,MapReduce的容错机制, 重复执行, 推测执行,Reduce端,TaskTracker,TaskTracker,TaskTracker,

展开阅读全文