hadoop基础知识培训

上传人:Bod****ee 文档编号:58751970 上传时间:2018-11-01 格式:PPTX 页数:48 大小:5.95MB
返回 下载 相关 举报
hadoop基础知识培训_第1页
第1页 / 共48页
hadoop基础知识培训_第2页
第2页 / 共48页
hadoop基础知识培训_第3页
第3页 / 共48页
hadoop基础知识培训_第4页
第4页 / 共48页
hadoop基础知识培训_第5页
第5页 / 共48页
点击查看更多>>
资源描述

《hadoop基础知识培训》由会员分享,可在线阅读,更多相关《hadoop基础知识培训(48页珍藏版)》请在金锄头文库上搜索。

1、企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,Hadoop基础知识培训,江西电信大数据支撑团队,2014年中国电信大数据技术与应用培训,PDF created with pdfFactory Pro trial version ,2 企业信息化部,PDF created with pdfFactory Pro trial version ,把信息化打造成为中国电信企业核心竞争力之一,主要内容,第一篇 Hadoop综述 第二篇 HDFS 分布式文件系统第三篇 MapReduce 分布式计算框架 第四篇 常用Hadoop组件介绍,3 企业信息化部,把信息化打造成为中国电信企业核心竞争力

2、之一,第一篇Hadoop综述,: 什么是Hadoop: Hadoop生态系统: Hadoop的厂商: Hadoop的部署,PDF created with pdfFactory Pro trial version ,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,Hadoop是什么?,Hadoop是Apache基金会下的一个开源分布式计算平台,以分布式 文件系统(HDFS)和分布式计算框架(MapReduce)为核心,为用户 提供了底层细节透明的分布式基础设施。yHDFS的高容错性、高伸缩性等优点,允许用户将Hadoop部署 在廉价的硬件上,构建分布式系统。yMapReduce分布式

3、计算框架允许用户在不了解分布式底层细节 的情况下开发并行、分布的应用程序,利用大规模计算资源,解 决传统高性能单机无法解决的大数据处理问题Hadoop NutchLucene,高性能全文 索引工具包,高性能搜索 引擎工具包,版本演进,对应Cloudera公司的CDH3u5,对应Cloudera 公司的CDH4,PDF created with pdfFactory Pro trial version ,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,Hadoop的特点,Hadoop运用于海量数据处理,主要有如下几个优势:方便 Hadoop可以运行在一般商业机器(X86服务器)构成的大

4、型集群 上弹性Hadoop通过增加集群节点,可以线性扩展以处理更大的数据集; 同时在负载下降时,也可减少节点,以便高效使用资源。健壮Hadoop设计之初,将故障检测和自动恢复作为设计目标,可以 从容处理通用计算平台上出现的硬件失效情况。简单Hadoop允许用户快速编写出高效的并行分布式代码。,PDF created with pdfFactory Pro trial version ,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,HADOOP生态系统,y经过几年的快速发展,Hadoop现在已经发展成为包含多个相关项目的软件生 态系统,成为大数据处理技术的事实标准,目前典型的Hado

5、op生态系统如下所 示:,PDF created with pdfFactory Pro trial version ,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,发展目标,HADOOP生态系统,(1)实时应用场景(05s):Storm、S4等; (2)交互式场景(5s1m):这种场景通常能要求必须支持SQL,则可行系统有: Cloudera Impala、Apache Drill、Shark等; (3)非交互式场景(1m1h):通常运行时间较长,处理数据量较大,对容错性和扩 展性要求较高,可行系统有:MapReduce、Hive、Pig、Stinger等; (4)批处理场景(1

6、h+):通常运行时间很长,处理数据量很大,对容错性和扩展性要 求很高,可行系统有:MapReduce、Hive、Pig、Stinger等。,PDF created with pdfFactory Pro trial version ,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,HADOOP厂商,Hadoop处于近时间的大数据革命的风暴眼,在Hadoop取得成功的同时也促使主 流市场对其稳定性、成熟的管理,丰富的SQL环境等提出更高要求,于是Hadoop 厂商通过技术创新各显神通。,PDF created with pdfFactory Pro trial version ,企业信

7、息化部,把信息化打造成为中国电信企业核心竞争力之一,物理上的Hadoop集群,PDF created with pdfFactory Pro trial version ,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,逻辑部署的Hadoop集群,PDF created with pdfFactory Pro trial version ,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,简介: 江西电信Hadoop批处理平 台共由62台PC服务器构成, 形成物理上独立的3个RACK ,按照功能角色分组,主控 节点、数据节点、Hive接入 节点、元数据节点、监控告 警节点和E

8、TL节点。 主控节点6台 (2台Namenode、1台 Jobtracker、3台 Zookeeper)数据节点56台,江西电信物理部署的Hadoop集群,PDF created with pdfFactory Pro trial version ,12 企业信息化部,PDF created with pdfFactory Pro trial version ,把信息化打造成为中国电信企业核心竞争力之一,第二篇HDFS,一: HDFS简介二: HDFS 架构 三: 漫画HDFS之读写机制 四: 漫画HDFS之容错性 五: 漫画HDFS之复制策略,企业信息化部,把信息化打造成为中国电信企业核心竞

9、争力之一,1 HDFS简介,HDFS(HADOOP DISTRIBUTED FILE SYSTEM),是一个分布式文件系统。它 是谷歌的GFS提出之后出现的一种用户级文件系统。有一定的容错性, 能提供高吞吐量的数据访问,适合大规模数据集上的应用。 HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案,PDF created with pdfFactory Pro trial version ,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,2 HDFS 架构,Block:大文件的存储会被分割为多个block进行存储。默认64MB,每一个 blok会在多个datanode上存

10、储多份副本,默认3份,基 本 概 念,Namenode:主要负责存储一些metadata信息,主要包括文件目录、block 和文件对应关系,以及block和datanote的对应关系,Datanode:负责存储数据,数据以block的形式存在,PDF created with pdfFactory Pro trial version ,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,3 HDFS 之漫画读写,PDF created with pdfFactory Pro trial version ,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,3 HDFS 之漫画读写(

11、续),PDF created with pdfFactory Pro trial version ,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,3 HDFS 之漫画读写,PDF created with pdfFactory Pro trial version ,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,3 HDFS 之漫画读写,PDF created with pdfFactory Pro trial version ,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,4 HDFS 之漫画容错,PDF created with pdfFactory Pr

12、o trial version ,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,4 HDFS 之漫画容错,PDF created with pdfFactory Pro trial version ,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,4 HDFS 之漫画容错,PDF created with pdfFactory Pro trial version ,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,4 HDFS 之漫画容错,PDF created with pdfFactory Pro trial version ,企业信息化部,把信息化打造成为中

13、国电信企业核心竞争力之一,5 HDFS 之漫画复制策略,PDF created with pdfFactory Pro trial version ,24 企业信息化部,PDF created with pdfFactory Pro trial version ,把信息化打造成为中国电信企业核心竞争力之一,第二篇 MapReduce,一:MapReduce基础 二:MapReduce优劣 三:MapReduce工作原理,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,1 MapReduce基础,MapReduce是一种编程模型,用于大规模数据集的并行计算。核心操作 由“Map(映射)

14、“和“Reduce(归约)“组成,极大地方便了编程人员在不会分 布式并行编程的情况下,将自己的程序运行在分布式系统上,典型的MapReduce过程可以细分为Input(Split)、Mappers、(Shuffle/Partition/Sort)、 Reducers和Output等阶段,PDF created with pdfFactory Pro trial version ,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,1 MapReduce示例,1.输入端根据输入文本大小进行切片形成适合Map处理的数据片,2.分片后的数据申请Map资源,执行本地单词映射操作,3.通过交换将map生成的结果按照单词进行归并重组,4.重组后的结果,申请Reduce资源,进行单词的合并统计,5.对Reduce的结果进行记录合并生成输出文件,MapReduce 过程示例, 对输入的文 本进行单词 统计,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号