Hadoop 总体概述ppt课件

资源描述

《Hadoop 总体概述ppt课件》由会员分享，可在线阅读，更多相关《Hadoop 总体概述ppt课件（36页珍藏版）》请在金锄头文库上搜索。

1、Hadoop入门主讲人张冠锋大数据入门以前有个国王很阔绰也很爱排场有天他很高兴想奖赏他的宠臣这个大臣给国王看下面这个棋盘 8 8的方格希望获得在每个标号的格子内放米粒第一个格子放1粒米后面的格子总是前面格子的两倍的所有米粒如果把整个棋盘放满需要多少米粒我们学过级数的话它的推演是1 2 4 2 63 2 64 1这个数字多大很多人没印象反正如果真的要兑现的话这个国家肯定是破产了其实把这个棋盘分成上下两半在上一半总共需要的米粒是2 32 这并不是个很大的数其实前几年计算机的32位就是那么大但下半场就完全不一样了这是个平方级别的scale 什么是大数据什么样的

2、东西能成为数据呢电子商务方面淘宝美团京东买东西你的IP地址商品名价格快递名手机号收货地址下单的时间日期等这些就是数据工业方面钢铁厂的日月年产量销量省市县销量等这些也是数据本章要点一 hadoop总体概述二 hadoop生态系统三 hadoop特点及工作机制四 hadoop任务 job 运行过程五核心进程讲解六 hadoop配置文件 Hadoop总体概述 Hadoop是一个由Apache基金会所开发的分布式系统基础架构 Hadoop实现了一个分布式文件系统 HadoopDistributedFileSystem 简称HDFS HDFS有高容错性的特点并

3、且设计用来部署在低廉的 low cost 硬件上而且它提供高吞吐量 highthroughput 来访问应用程序的数据适合那些有着超大数据集 largedataset 的应用程序 HDFS放宽了 relax POSIX的要求可以以流的形式访问 streamingaccess 文件系统中的数据Hadoop框架核心设计HDFS和MapReduce HDFS为海量的数据提供分布式存储MapReduce为海量的数据提供分布式计算什么是分布式文件系统 HDFS 最简单的理解如上图多台服务器三台也行两万台也可以构成的一个集群系统对外无论是读操作还是写操作都仅有主节点这一个出入口对内若干个服

4、务器之间会自动完成文件的多机复制自动迁移数据文件读写等操作前期你们就理解这样这个工作机制就行HDFS是可扩展的分布式文件系统用于大型的分布式的对大量数据进行访问的应用它运行于廉价的普通硬件上提供容错功能分布式计算mapreduce简单介绍形象化例子1 1 校长对一位老师说批改一万份卷子必须上午改完 2 老师叫了100个学生老师和这100个学生组成一个团队集群老师指定将卷子分给这100个学生让他们完成然后汇总老师不改只管分配例子2 Hadoop生态系统 Hadoop生态系统概况 ApacheHive 数据仓库基础设施提供数据汇总和特定查询这个系统支持用

5、户进行有效的查询并实时得到返回结果 ApacheSpark ApacheSpark是提供大数据集上快速进行数据分析的计算引擎它建立在HDFS之上却绕过了MapReduce使用自己的数据处理框架 Spark常用于实时查询流处理迭代算法复杂操作运算和机器学习 ApacheAmbari Ambari用来协助管理Hadoop 它提供对Hadoop生态系统中许多工具的支持包括Hive HBase Pig Spooq和ZooKeeper 这个工具提供集群管理仪表盘可以跟踪集群运行状态帮助诊断性能问题 ApachePig Pig是一个集成高级查询语言的平台可以用来处理大数据集Apache

6、HBase HBase是一个非关系型数据库管理系统运行在HDFS之上它用来处理大数据工程中稀疏数据集其他常见的Hadoop项目还包括Avro Cassandra Chukwa Mahout和ZooKeeperHadoop是一个能够对大量数据进行分布式处理的软件框架具有可靠高效可伸缩的特点 Hadoop的核心是HDFS和Mapreduce hadoop2 0还包括YARN Hadoop生态系统概况 Hadoop特点 Hadoop是一个能够让用户轻松架构和使用的分布式计算平台用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序它主要有以下几个优点高可靠性 Hadoop按位

7、存储和处理数据的能力值得人们信赖高扩展性 Hadoop是在可用的计算机集簇间分配数据并完成计算任务的这些集簇可以方便地扩展到数以千计的节点中高效性 Hadoop能够在节点之间动态地移动数据并保证各个节点的动态平衡因此处理速度非常快高容错性 Hadoop能够自动保存数据的多个副本并且能够自动将失败的任务重新分配低成本与一体机商用数据仓库以及QlikView YonghongZ Suite等数据集市相比 hadoop是开源的项目的软件成本因此会大大降低 Hadoop工作机制 hadoop由两部分组成分别是分布式文件系统HDFS和分布式计算框架MapReduceHDFS主要用

8、于大规模数据的分布式存储MapReduce则构建在分布式文件系统之上对存储在分布式文件系统中的数据进行分布式计算Hadoop默认使用的分布式文件系统HFDS HadoopDistributedFileSystem 它与MapReduce框架紧密结合Hadoop中 MapReduce底层的分布式文件系统是独立模块用户可按照约定的一套接口实现自己的分布式文件系统然后经过简单的配置后存储在该文件系统上的数据便可以被MapReduce处理 Hadoop工作机制 HDFS工作机制简单介绍 1 由一个master与多个server组成2 Master用来保存目录与索引信息 hadoop2x设置的每

9、个chunk大小为128M Hadoop1x设置的每个chunk大小为64M3 Master的所有信息都存储在内存中启动时的信息从chunkserver中获得 Hadoop工作机制 HDFS是一个具有高度容错性的分布式文件系统适合部署在廉价的机器上HDFS的架构如下图1所示总体上采用了master slave架构主要由以下几个组件组成 Client NameNode Secondary DataNode Client 切分文件访问HDFS 与NameNode交互获取文件位置信息与DataNode交互读取和写入数据NameNode Master节点在hadoop1 X中只有一个

10、在hadoop2x中可以配合zookeeper实现HA 热备两个NameNode 管理HDFS的名称空间和数据块映射信息配置副本策略处理客户端请求DataNode Slave节点存储实际的数据汇报存储信息给NameNodeSecondaryNameNode 可以叫做冷备辅助NameNode 分担其工作量定期合并fsimage和fsedits 推送给NameNode 紧急情况下可辅助恢复NameNode 但SecondaryNameNode并非NameNode的热备 Mapreduce 分布式计算框架源自于google的MapReduce论文发表于2004年12月 Hado

11、opMapReduce是googleMapReduce克隆版 MapReduce是一种计算模型用以进行大数据量的计算Map 对数据集上的独立元素进行指定的操作生成键值对形式中间结果Reduce 对中间结果中相同键的所有值进行规约以得到最终结果MapReduce这样的功能划分非常适合在大量计算机组成的分布式并行环境里进行数据处理 Mapreduce处理流程以wordCount 词频统计为例 Mapreduce map和reduce 处理流程 hadoop工作任务 job 过程 HadoopV1 JobTracker Master节点只有一个管理所有作业作业任务的监控

12、错误处理等将任务分解成一系列任务并分派给TaskTrackerTaskTracker Slave节点运行MapTask和ReduceTask 与JobTracker交互汇报任务状态MapTask 解析每条数据记录传递给用户编写的map 并执行将输出结果写入本地磁盘如果为map only作业直接写入HDFS ReducerTask 从MapTask的执行结果中远程读取输入数据对数据进行排序将数据按照分组传递给用户编写的reduce函数执行 Client 客户端编写mapreduce程序配置作业提交作业这就是程序员完成的工作JobTracker 初始化作业分配作业

13、与TaskTracker通信协调整个作业的执行TaskTracker 保持与JobTracker的通信在分配的数据片段上执行Map或Reduce任务TaskTracker和JobTracker的不同有个很重要的方面就是在执行任务时候TaskTracker可以有n多个 JobTracker则只会有一个 JobTracker只能有一个就和hdfs里namenode一样存在单点故障我会在后面的mapreduce的相关问题里讲到这个问题的 Hdfs 保存作业的数据配置信息等等最后的结果也是保存在hdfs上面 mapreduce作业执行涉及4个独立的实体 hadoop工作任务 job 过程

14、 HadoopV2 MapReduce在Hadoop2x中称为MR2或YARN 将JobTracker中的资源管理及任务生命周期管理包括定时触发及监控拆分成两个独立的服务 1 用于管理全部资源的ResourceManager 用于管理向应用程序分配计算资源2 管理每个应用的ApplicationMaster 用于管理应用程序调度以及协调一个应用程序可以是经典的MapReduce架构中的一个单独的任务ResourceManager及每台机上的NodeManager服务用于管理那台机的用户进程形成计算架构每个应用程序的ApplicationMaster实际上是一个框架具体库并负责从Re

15、sourceManager中协调资源及与NodeManager s 协作执行并监控任务说明关键进程 NameNodeSecondaryNameNodeDataNodeJobTrackerTaskTracker 关键进程NameNode NameNode 它是Hadoop中的主服务器管理文件系统名称空间和对集群中存储的文件的访问关键进程SecondaryNameNode SecondaryNameNode 它不是namenode的冗余守护进程而是提供周期检查点和清理任务出于对可扩展性和容错性等考虑我们一般将SecondaryNameNode运行在一台非NameNode的机器上关键

16、进程DataNode DataNode 它负责管理连接到节点的存储一个集群中可以有多个节点每个存储数据的节点运行一个datanode守护进程关键进程JobTracker JobTracker负责调度DataNode上的工作每个DataNode有一个TaskTracker 它们执行实际工作JobTracker和TaskTracker采用主从形式 JobTracker跨DataNode分发工作而TaskTracker执行任务JobTracker还检查请求的工作如果一个DataNode由于某种原因失败 JobTracker会重新调度以前的任务关键进程TaskTracker TaskTracker 是在网络环境中开始和跟踪任务的核心位置与Jobtracker连接请求执行任务而后报告任务状态 HDFShdfs site xml参数配置 hadoop配置文件 dfs namenode name dirNameNode元数据存放位置默认值 file hadoop tmp dir dfs namedfs blocksize对于新文件切分的大小单位byte 默认是128M 每一个节点

展开阅读全文