Hadoop基础知识培训

上传人:壹****1 文档编号:567898091 上传时间:2024-07-22 格式:PPT 页数:48 大小:6.33MB
返回 下载 相关 举报
Hadoop基础知识培训_第1页
第1页 / 共48页
Hadoop基础知识培训_第2页
第2页 / 共48页
Hadoop基础知识培训_第3页
第3页 / 共48页
Hadoop基础知识培训_第4页
第4页 / 共48页
Hadoop基础知识培训_第5页
第5页 / 共48页
点击查看更多>>
资源描述

《Hadoop基础知识培训》由会员分享,可在线阅读,更多相关《Hadoop基础知识培训(48页珍藏版)》请在金锄头文库上搜索。

1、企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一Hadoop基基础础知知识识培培训训江西江西电电信大数据支撑信大数据支撑团队团队2014年中国年中国电电信大数据技信大数据技术术与与应应用培用培训训2企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一主要内容第一篇第一篇Hadoop综综述述 第二篇第二篇HDFS分布式文件系分布式文件系统统第三篇第三篇MapReduce分布式分布式计计算框架算框架 第四篇第四篇常用常用Hadoop组组件介件介绍绍3企企业业信息化部信息化部把信息化打

2、造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一第一篇Hadoop综述:什么是什么是Hadoop:Hadoop生生态态系系统统:Hadoop的厂商的厂商:Hadoop的部署的部署企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一Hadoop是什么?Hadoop是Apache基金会下的一个开源分布式计算平台,以分布式文件系统(HDFS)和分布式计算框架(MapReduce)为核心,为用户提供了底层细节透明的分布式基础设施。yHDFS的高容错性、高伸缩性等优点,允许用户将Hadoop部署 在廉价的硬件上,构建分布式

3、系统。yMapReduce分布式计算框架允许用户在不了解分布式底层细节 的情况下开发并行、分布的应用程序,利用大规模计算资源,解 决传统高性能单机无法解决的大数据处理问题Hadoop NutchLucene高性能全文索引工具包高性能搜索引擎工具包版本演进对应Cloudera公司的CDH3u5对应Cloudera公司的CDH4企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一Hadoop的特点Hadoop运用于海量数据处理,主要有如下几个优势:方便Hadoop可以运行在一般商业机器(X86服务器)构成的大型集群上弹性Hadoop通过增加集

4、群节点,可以线性扩展以处理更大的数据集;同时在负载下降时,也可减少节点,以便高效使用资源。健壮Hadoop设计之初,将故障检测和自动恢复作为设计目标,可以从容处理通用计算平台上出现的硬件失效情况。简单Hadoop允许用户快速编写出高效的并行分布式代码。企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一HADOOP生生态态系系统统y经过几年的快速发展,Hadoop现在已经发展成为包包含含多多个个相相关关项项目目的的软软件件生生态态系系统统,成为大数据处理技术的事实标准,目前典型的Hadoop生态系统如下所示:企企业业信息化部信息化部把信息

5、化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一发发展目展目标标HADOOP生生态态系系统统(1)实时应实时应用用场场景景(05s):Storm、S4等;(2)交互式交互式场场景景(5s1m):这种场景通常能要求必须支持SQL,则可行系统有:ClouderaImpala、ApacheDrill、Shark等;(3)非交互式非交互式场场景景(1m1h):通常运行时间较长,处理数据量较大,对容错性和扩展性要求较高,可行系统有:MapReduce、Hive、Pig、Stinger等;(4)批批处处理理场场景景(1h+):通常运行时间很长,处理数据量很大,对容错性和扩展性

6、要求很高,可行系统有:MapReduce、Hive、Pig、Stinger等。企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一HADOOP厂商厂商Hadoop处于近时间的大数据革命的风暴眼,在Hadoop取得成功的同时也促使主流市场对其稳稳定定性性、成成熟熟的的管管理理,丰富的SQL环境等提出更高要求,于是Hadoop厂商通过技术创新各显神通。企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一物理上的Hadoop集群企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中

7、国电电信企信企业业核心核心竞竞争力之一争力之一逻辑部署的Hadoop集群企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一简介:江西电信Hadoop批处理平台共由62台台PC服服务务器器构成,形成物理上独立的3个个RACK,按照功能角色分组,主控节点、数据节点、Hive接入节点、元数据节点、监控告警节点和ETL节点。主控节点6台(2台Namenode、1台Jobtracker、3台Zookeeper)数据节点56台江西电信物理部署的Hadoop集群12企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核

8、心竞竞争力之一争力之一第二篇HDFS一:一:HDFS简简介介二:二:HDFS架构架构三:三:漫画漫画HDFS之之读读写机制写机制四:四:漫画漫画HDFS之容之容错错性性五:五:漫画漫画HDFS之复制策略之复制策略企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一1 HDFS简介HDFS(HADOOP DISTRIBUTED FILE SYSTEM),是一个分布式文件系统。它是谷歌的GFS提出之后出现的一种用用户级户级文件系文件系统统。有一定的容错性, 能提供高吞吐量的数据访问,适合大规模数据集上的应用。HDFS 提供了一个高度容错性和高

9、吞吐量的海量数据存储解决方案企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一2 HDFS 架构架构Block:大文件的存储会被分割为多个block进行存储。默认64MB,每一个blok会在多个datanode上存储多份副本,默认3份基基 本本 概概 念念Namenode:主要负责存储一些metadata信息,主要包括文件目录、block和文件对应关系,以及block和datanote的对应关系Datanode:负责存储数据,数据以block的形式存在企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核

10、心竞竞争力之一争力之一3 HDFS 之漫画之漫画读读写写企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一3 HDFS 之漫画之漫画读读写(写(续续)企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一3 HDFS 之漫画之漫画读读写写企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一3 HDFS 之漫画之漫画读读写写企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一

11、4 HDFS 之漫画容之漫画容错错企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一4 HDFS 之漫画容之漫画容错错企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一4 HDFS 之漫画容之漫画容错错企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一4 HDFS 之漫画容之漫画容错错企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一5 HDFS 之漫画复制策略之漫

12、画复制策略24企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一第二篇 MapReduce一:一:MapReduce基基础础二:二:MapReduce优优劣劣三:三:MapReduce工作原理工作原理企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一1 MapReduce基础MapReduce是一种编程模型,用于大规模数据集的并行计算。核心操作由Map(映射)和Reduce(归约)组成,极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上典型的MapR

13、educe过程可以细分为Input(Split)、Mappers、(Shuffle/Partition/Sort)、Reducers和Output等阶段企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一1 MapReduce示例1.输入端根据输入文本大小进行切片形成适合Map处理的数据片2.分片后的数据申请Map资源,执行本地单词映射操作3.通过交换将map生成的结果按照单词进行归并重组4.重组后的结果,申请Reduce资源,进行单词的合并统计5.对Reduce的结果进行记录合并生成输出文件MapReduce过程示例 对输入的文 本进行

14、单词 统计 对输入的文 本进行单词 统计企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一2MapReduce执行过程从MapReduce在整个Hadoop框架的位置可以看出作为Hadoop最成熟的批处理框架,MapReduce起到承上启下的作用,一方面可以操作HDFS中的数据,另一方面可以被封装,提供Hive、Pig这样的上层组件的调用企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一MapReduce优劣MapReduce的缺点 通过MapReduce这个分布式处理框架,不仅

15、能用于处理大规模数据, 而且能将很多繁琐的细节隐藏起来,比如,自动并行化、负载均衡和 灾备管理等,这样将极大地简化开发者工作 MapReduce的伸缩性非常好,也就是说,每增加一台服务器,其就 能将差不多的计算能力接入到集群中,而过去的大多数分布式处理框 架,在伸缩性方面都与MapReduce相差甚远。MapReduce的缺点 MapReduce最大的不足则在于,其不适应实时应用的需求,目前还 无法满足用户交互式的需求。企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一3MapReduce+YARN30企企业业信息化部信息化部把信息化打

16、造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一第四篇Hadoop常用组件简介:Hadoop常用常用组组件件Hbase简简介介:Hadoop常用常用组组件件Hive简简介介:Hadoop常用常用组组件件Pig简简介介:Hadoop常用常用组组件件Zookeeper简简介介:Hadoop常用常用组组件件Sqoop简简介介:Hadoop常用常用组组件件Hue简简介介企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一1 Hbase简介HBase是一个分布式的、多版本的、面向列的开源数是一个分布式的、多版本的、面向列的

17、开源数据据库库 利用HadoopHDFS作为其文件存储系统,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统利用HadoopMapReduce来处理HBase中的海量数据利用Zookeeper作为协同服务企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一HBase 简介(续) 大:一个表可以有上亿行,上百万列 面向列:面向列(族)的存储和权限控制,列(族)独立检索 稀疏:对于为空的列,并不占用存储空 间,因此,表可以设计的非常稀疏 多版本:每条记录中的数据可以有多个版本 无类型:存在HBase中的数据都是字符 串,无其他类型企

18、企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一HBase与RDBMS对比Hbase的优点y1列的可以动态增加,并且列为空就不存储数据,节省存储空间.y2可以自动切分数据,使得数据存储自动具有水平扩展.y3可以提供高并发读写操作的支持Hbase的潜在缺点y1不能支持条件查询,只支持按照Rowkey来查询y2暂时不能支持Masterserver的故障切换,当Master宕机后,整个存储系统就会挂掉HBaseRDBMS数据类型只有字符串丰富的数据类型数据操作简单的增删改查各种各样的函数,表连接存储模式基于列存储基于表格结构和行存储数据保护更

19、新后旧版本仍然会保留替换可伸缩性轻易的进行增加节点,兼容性高需要中间层,牺牲功能企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一2 HBase 体系结构企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一Hbase应用场景成熟的数据分析主题,业务场景简单,不需要关系数据库中很多特性,查询模式已经确定并且不易改变传统的关系型数据库已经无法承受负荷,高速插入,有大 量读取清单的需求,并且有快速随机访问的需求适合海量的,但是同时也是简单的操作,具备低延时的数 据返回,比如说key-va

20、lue的操作,是生产环境对外访问可 行的方式海量数据存储的驱使,具备动态扩展系统容量的需求企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一Hadoop常用组件Hive简介Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的类sql查询功能,可以将类sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。企企业业信息化部信息化部把信息化打造成把信息化打造成

21、为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一当前数据分析方法百万级千万级亿万级以上Unix/Linux工具 awk、grep、sort、join等RDBMS,如MysqlPerl、python、java等RDBMS,如 Mysql、Mongodb Oracle、DB2等分布式:Oracle RAC、Greenplum Hadoop(开源免费) MPP主要基于单机计算基于集群并行计算企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一HIVE VS SQL数据存储HDFS/HBaseRaw Device/Loacl FS数据格式

22、用户自定义系统决定 数据更新不支持(覆盖之前数据)支持 索引有(版本新增)有执行MapReduceExecutor执行延迟高低可扩展性高(UDF、UDAF、UDTF)低数据规模大(数据大于TB)小数据检查读时模式写时模式列分隔符(通常为空格、”t”、”x001)行分隔符(”n”)随时间变化的如MYSQL:MyISAM、InnoDB、MEMORYSQL:需要经常进行修改的,面向用户的数据添加数据,HQLSQLHIVE: 不支持不支持建针没立有在数索据H引a仓,do库需o应p要之用扫上设描的计整,的个可,表扩数(展据或性仓者与库分h是区a读d)o操o,p作因一远此致远延多迟于较写高操(作在0.8.

23、X版之后加入了索引世)数界据上仓最库大的的特性Ha是do:op 集群在 Yahoo!,2009年的规模在 4000 台节点左右M文a件pR存e储du格c面e式向本,主身默题具认有有较T高ex的tF延ile迟、(Se分qu钟en级ce)File、RCFileSQL:集成的SQL :不数同据的库数由据于库A有CI不D 同语的义存的储严引格擎限。制对于海量数据的处理,数据库能力较弱目前最先进的并行数据库 Oracle 在理论上的扩展能力也只有 100 台左右对于海量数据的处理,数据库能力较弱INSERT INTO . VALUESUPDATE . SET 修改数据企企业业信息化部信息化部把信息化打造

24、成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一Pig是Hadoop上层的衍生架构,对比Hive(一种声明式的语言),Pig是 一种过程语言,类似于存储过程一步一步的对数据进行转化Pig对MapReduce算法实现了一套shell,类似SQL语句,在Pig中称为 Pig Latin,可以对数据进行排序、过滤、求和、分组(group by)、关联 (Joining)等操作Pig也可以由用户自定义一些函数对数据集进行操作,也就是传说中的 UDF(user-defined functions)。Hadoop常用组件Pig简介企企业业信息化部信息化部把信息化打造成把信息化打造成

25、为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一Pig和Hive的对比特性特性HivePig语言SQL-likePigLatin模式是(严格)是(不严格)分区是否服务可选(Thrift)否自定义函数是(Java)是(Java)用户序列化/非序列化是是是否可以访问DFS是(不严格)是(严格)Join/Order/Sort是是Shell是是流计算是是Web接口是否JDBC/ODBC是(有限制)否企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一Pig的设计哲学 Pig语言可以操纵各种类型的数据,无论数据是否是元数据、是否结构化,都没

26、有问题,甚至可以扩展到对键/值 数据的操作Pigs eat anything Pig设计是独立成体系的,可以在Hadoop上的HDFS上实现运行,也可以在其它的文件系统运行Pig live anywhere Pig可以快速的处理数据,今后对pig的持续改进,将不会让它为 了实现某种功能而降低性能,目的就是为了让Pig可以自由的飞 翔Pigs fly Pig被设计为易于操作和修改,用户可以自己定义函数实现很多 数据操作的功能,为了更好的让数据操作函数共享,pig发起了 一个全球的pig bank的计划,上面会有全球pig开发工程师共享的 数据操作函数,这些函数可以免费共享和使用Pigs are

27、domestic animalsPig什么都能吃Pig 哪儿都能活Pig哪儿都能养让pig飞翔企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一ZooKeeper是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。Hadoop常用组件ZooKeeper简介企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一sqoop主要用来在H

28、adoop和关系数据库中传递数据。通过sqoop,我们可以方便的将数据从关系数据库导入到HDFS,或者将数据从HDFS导出到关系数据库。Hadoop常用组件Sqoop简介sqoop架构非常简单,其整合了Hive、Hbase和Oozie,通过map-reduce任务来传输数据,从而提供并发特性和容错。sqoop架构非常简单,其整合了Hive、Hbase和Oozie,通过map-reduce任务来传输数据,从而提供并发特性和容错。企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一推荐采用:推荐采用:Pentaho Data Integrat

29、e中的大数据组件集成了 Sqoop,使得我们可以在界面通 过拖拽使用sqoop组件,提高大 家的开发效率PentahoSqoop的拓展企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一Hue是专门为运营和开发人员开发的,执行Hadoop相关应用的图形化用户界面。Hue程序被整合到一个类似桌面的环境,以web程序的形式发布,用户可以通过B/S方式使用Hadoop常用组件Hue简介企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一江西电信Hue部署y推荐:数据分析人员通过Hue来使用Hive可视化的界面和说明可以使没接触过Hadoop的分析人员迅速上手企企业业信息化部信息化部把信息化打造成把信息化打造成为为中国中国电电信企信企业业核心核心竞竞争力之一争力之一企业级hadoop平台应用模式共勉:人类从依靠自身判断做决定到依靠数据做决定的转变,是大数据做出的最大贡献之一,也是我们为之奋斗的目标。吗?fMiE谢谢才巴,信息化打造成为中国电信企业核心竞争力之一PDF created with pdfFactory Pro trial version lC!仔actolV.com

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号