了解Hadoop课案－金锄头文库

资源描述

《了解Hadoop课案》由会员分享，可在线阅读，更多相关《了解Hadoop课案（56页珍藏版）》请在金锄头文库上搜索。

1、HADOOP 大数据处理基础前言从IT时代到DT时代前言-从IT时代到DT时代目录 HADOOP是什么 1 HDFS 2 MAPREDUCE 3 4 5 谁在用HADOOP 我们能做什么 HADOOP那段早被说烂了的历史 Lucene Nutch Hadoop pApache Nutch项目（开源搜索引擎， Lucene项目（文本检索引擎）的一部分）的一部分：Spider p出生于2005年 p他父亲： lDoug Cutting & Michael J.Cafarella p名字&形象代言人：Doug Cutting自己儿子的玩具小黄象Hadoop p 2008年1月，Hadoo

2、p已成为Apache顶级项目，证明它是成功的。通过这次机会，Hadoop成功地被雅虎之外的很多公司应用，如Facebook、纽约时报等。特别是纽约时报，它使用运行在亚马逊的EC2云计算上Hadoop ，将4TB的报纸扫描文档压缩，转换为用于Web的PDF 文档，这个过程历时不到24小时，使用100台机器运行，这成为Hadoop一个良好的宣传范例。 p 2008年2月，雅虎宣布其索引网页的生产系统采用了在 10000多个核的Linux集群上运行的Hadoop。Hadoop 真正达到了万维网的规模。2008年4月，在一个900节点的Hadoop集群上，雅虎的研究人员运行1TB的Jim G

3、ray基准排序，只用了209秒。 p 2009年4月，在一个1400节点的集群上对500GB数据进行排序，只用了59秒，这显示了Hadoop强大的计算能力。 HADOOP的成就 HADOOP是什么呢？ Hadoop是一个框架 Linux那样可扩展的能很好地用管道（pipeline）的方式处理大量的数据以得到最后的结果在某些时候，它是唯一的选择一个丰富的生态圈 Hadoop不是 SQL的替代品快速而高效的很好地支持临时分析（ad hoc analysis） HADOOP的变迁 HADOOP APP STORE HADOOP APP STORE HADOOP的各种APP HA

4、DOOP的各种APP p以Hortonworks 数据平台为例： HADOOP的基本三要素一个分布式存储系统 Google GFS的开源实现数据存储采master/slave架构模式，主要由HDFSClient、 NameNode、Secondary NameNode和DataNode组成 HDFS（分布式文件存储系统）分布式计算的编程模型，这种编程模型能支持很大的数据量执行这种计算的框架挪计算而非挪数据 MAPREDU CE（离线分布式计算框架） MapReduce是用Java写的，如果你不会Java，而是更倾向于用脚本语言 Pig，能让你从具体的细节中解放出来

5、，只专注于数据处理这个过程。如果相对Java和脚本语言，你对SQL更加熟悉 Hive（百度： QueryEngine）Hadoop 上的数据仓库层，用类 SQL语句对数据进行查询和分析。 PIG/HIVE (编程语言) 目录 HADOOP是什么 1 HDFS 2 MAPREDUCE 3 4 5 谁在用HADOOP 我们能做什么 HDFSGFSMooseFS说明 NameNodeMasterMaster 它是个文件系统的大脑，提供整个文件系统的目录信息，各个文件的分块信息，数据块的位置信并且管理各个数据服务器。 DataNodeChunk ServerChunk Server 分布

6、式文件系统中的每一个文件，都被切分成若干个数据块，每一个数据块都被存储在不同的服务器上，此服务器称之为数据服务器。 BlockChunkChunk 每个文件都会被切分成若干个块（默认64MB）每一块都有连续的一段文件内容，是存储的基本单位 Packet NullNull 客户端写文件的时候，不是一个字节一个字节写入文件系统的，而是累计到一定数量后，往文件系统中写入一次，每发送一次的数据，都称为一个数据包。 ChunkNullBlock（64KB）在每一个数据包中，都会将数据切成更小的块（512字节），每一个块配上一个奇偶校验码（ CRC），这样的块，就是传输块。

7、Secondary NameNode NullMetalogger 备用的主控服务器，在身后默默的拉取着主控服务器的日志，等待主控服务器牺牲后被扶正。 HDFS 术语 HDFS 特点 write-one-read- many 流式访问本地计算容错及备份把“大数据”都存储起来 HDFS 具有冗余备份的分布式文件系统超高的数据吞吐量对存储介质无苛刻要求，普通硬件即可满足对硬件故障容错性高 HDFS 通讯 HDFS 读操作 HDFS 写操作 HDFS 其他 namenode容灾01 datanode容灾02 数据校验03 序列化04 DFSClient 崩溃？租约：当客户端需要占用

8、某个文件时，与NameNode签订的一个短期合同超过期限没有续约，则终止租约，避免资源被长期霸占 DataNode 崩溃? 客户端读取另外一个副本后台负责副本的均衡和复制 NameNode 崩溃? 需要人工干预宕机期间整个集群都没反应 Secondary NameNode可以代替NameNode 但可能会导致部分Editlog的丢失，无法100%恢复目录 HADOOP是什么 1 HDFS 2 MAPREDUCE 3 4 5 谁在用HADOOP 我们能做什么 Hadoop术语 Google术语说明 Job Job 用户的每一个计算请求，称为一个作业。 JobTracker Mast

9、er 用户提交作业的服务器，同时，它还负责各个作业任务的分配，管理所有的任务服务器。 TaskTask 每一个作业，都需要拆分开了，交由多个服务器来完成，拆分出来的执行单位，就称为任务。 TaskTracker Worker 任劳任怨的工蜂，负责执行具体的任务。 MAPREDUCE （离线分布式计算框架）术语 MAPREDUCE （离线分布式计算框架）工作机制 MAPREDUCE（离线分布式计算框架）编程模型 MAP Map(映射)：对一些独立元素组成的列表的每一个元素进行指定的操作，可以高度并行。 SHUFFLE& SORT Shuffle(函数)：对Mapping数据中的元素

10、按随机顺序重新排列。 Sort（函数）：框架将按照key的值对Reducer的输入进行分组。 REDUCE Reduce(化简)：对一个列表的元素进行合并。 MAPREDUCE（SHUFFLE&SORT）编程模型 MapReduce主要由两个阶段完成：Map阶段和Reduce阶段。用户只需编写map()和reduce()两个函数，即可完成简单的分布式程序的设计。 Map()函数以对作为输入，产生一系列的对作为中间结果输出写入本地磁盘。MapReduce框架会自动将这些中间数据按照key值进行分区，且key值分区结果相同的数据会被交给同一个reduce()函数处理。 Reduce(

11、)函数以key以及对应的value列表（即）作为输入，经过合并key相同的value值后，产生一系列的对作为最终结果输出。 MAPREDUCE（离线分布式计算框架）编程模型单个Reduce的编程模型 MAPREDUCE （示例）求单块数据每年的最高气温的数据流 1995234234 1995345678 1996345562 1995 34,78 1996 62 map 1995 78 1996 62 reduce Mapreduce（离线分布式计算框架）编程模型多个Reduce的编程模型 MAPREDUCE （示例）求多块数据每年的最高气温的数据流 1995234234 199

12、5345678 1996345562 1995 34,78 1996 62 map 1995 78 reduce 1995234224 1995345658 1996345522 i1 i2 1995 24,58 1996 22 1995234227 1995345654 1996345582 i3 1995 27,54 1996 82 1995 34,78,24, 58,27,54 1996 62,22,82 1996 82 partition merge shuffle o1 o1 目录 HADOOP是什么 1 HDFS 2 MAPREDUCE 3 4 5 谁在用HADOOP 我们能做什么

13、 BadCase挖掘、Crash定位隐性问题与未知Bug 产品问题反馈、满意度、情感分析与需求预测体验问题死链、云数据保障、数据有效性、数据清洗数据质量谁在用HADOOP-Hadoop分析 Hadoop数据分析能做什么？淘宝Hadoop的发展史谁在用HADOOP-阿里淘宝 p2008年抽调雅虎中国Hadoop团队核心人员组建 p2009年成为淘宝自身分布式计算项目飞天的过渡项目 p项目正式命名为“云梯”并开发 HDFS分支ADFS分布式文件系统 p云梯Hadoop与飞天项目并存至今 Oracle备库天网调度系统 Gateway Servers DataExcha

14、ngeTime TunnelDBSync 云梯 1 Map Reduce Java Jobs Hive Jobs Streaming Jobs MySQL备库爬虫数据日志系统数据流向数据平台搜索口碑支付宝 BI广告云梯 2 B2B 数据魔方推荐系统淘数据量子计算淘宝Hadoop系统架构谁在用HADOOP-阿里淘宝阿里大数据探索谁在用HADOOP-阿里淘宝离线存储与计算在线存储与计算实时计算流式计算任务调度与管理数据开发与数据可视化界面数据同步数据质量监控元数据管理安全与审计计量与计费服务化 API & SDK 算法库数据产品数据地图数据共享与合

15、作产品层工具层组织架构谁在用HADOOP-腾讯查询引擎 Lhotse任务统一调度 IDE 集成开发计算引擎 MapReduce 存储引擎HDFS HADOOP TDBANK 数据采集 Hive 腾讯分布式数据仓库基于hadoop和hive，提供可视化IDE ，支持灾难自动热切单集群4400台，存储容量100PB 月活跃用户2800人，覆盖88个部门准实时数据采集，支持5分钟数据分析一站式任务管理，每天支撑10w级任务调度，可平行扩展海量数据在线处理，日推荐300亿，流式计算3万亿多种算法模型灵活适配，算法精准高效，毫秒级响应简单高效的扩展能力，数据动态伸缩，多级缓存技术，上层无感知多副本数据容灾，服务可用度 99.995%以上腾讯实时推荐平台（APOLLO ）谁在用HADOOP-腾讯谁在用HADOOP-百度百度大数据理念谁在用HADOOP-百度百度推荐百度统计 CVC 百度预测黄金眼数据加油站 WiFi 定位大司南画像谁在用HADOOP-其他目录 HADOOP是什么 1 HDFS 2 MAPREDUCE 3 4 5 谁在用HADOOP 我们能做什么 Storm流式实时计算短消息队列短消息队列短

展开阅读全文

了解Hadoop课案

最新文档