了解Hadoop课案

上传人:我** 文档编号:117856451 上传时间:2019-12-11 格式:PPTX 页数:56 大小:8.73MB
返回 下载 相关 举报
了解Hadoop课案_第1页
第1页 / 共56页
了解Hadoop课案_第2页
第2页 / 共56页
了解Hadoop课案_第3页
第3页 / 共56页
了解Hadoop课案_第4页
第4页 / 共56页
了解Hadoop课案_第5页
第5页 / 共56页
点击查看更多>>
资源描述

《了解Hadoop课案》由会员分享,可在线阅读,更多相关《了解Hadoop课案(56页珍藏版)》请在金锄头文库上搜索。

1、HADOOP 大数据处理基础 前言 从IT时代到DT时代 前言-从IT时代到DT时代 目录 HADOOP是什么 1 HDFS 2 MAPREDUCE 3 4 5 谁在用HADOOP 我们能做什么 HADOOP那段早被说烂了的历史 Lucene Nutch Hadoop pApache Nutch项目(开源搜索引擎, Lucene项目(文本检索引擎)的一部分)的 一部分:Spider p出生于2005年 p他父亲: lDoug Cutting & Michael J.Cafarella p名字&形象代言人:Doug Cutting自己儿子 的玩具小黄象Hadoop p 2008年1月,Hadoo

2、p已成为Apache顶级项目,证明它 是成功的。通过这次机会,Hadoop成功地被雅虎之外 的很多公司应用,如Facebook、纽约时报等。特别是纽 约时报,它使用运行在亚马逊的EC2云计算上Hadoop ,将4TB的报纸扫描文档压缩,转换为用于Web的PDF 文档,这个过程历时不到24小时,使用100台机器运行 ,这成为Hadoop一个良好的宣传范例。 p 2008年2月,雅虎宣布其索引网页的生产系统采用了在 10000多个核的Linux集群上运行的Hadoop。Hadoop 真正达到了万维网的规模。2008年4月,在一个900节 点的Hadoop集群上,雅虎的研究人员运行1TB的Jim G

3、ray基准排序,只用了209秒。 p 2009年4月,在一个1400节点的集群上对500GB数据进 行排序,只用了59秒,这显示了Hadoop强大的计算能 力。 HADOOP的成就 HADOOP是什么呢? Hadoop是 一个框架 Linux那样 可扩展的 能很好地用管道(pipeline) 的方式处理大量的数据以得到最 后的结果 在某些时候,它是唯一的选择 一个丰富的生态圈 Hadoop不是 SQL的替代品 快速而高效的 很好地支持临时分析(ad hoc analysis) HADOOP的变迁 HADOOP APP STORE HADOOP APP STORE HADOOP的各种APP HA

4、DOOP的各种APP p以Hortonworks 数据平台为例: HADOOP的基本三要素 一个分布式存储系统 Google GFS的开源实现 数据存储采master/slave架构 模式,主要由HDFSClient、 NameNode、Secondary NameNode和DataNode组 成 HDFS(分 布式文件存 储系统) 分布式计算的编程模型,这种 编程模型能支持很大的数据量 执行这种计算的框架 挪计算而非挪数据 MAPREDU CE(离线分 布式计算框 架) MapReduce是用Java写的, 如果你不会Java,而是更倾向 于用脚本语言 Pig,能让你 从具体的细节中解放出来

5、,只 专注于数据处理这个过程。 如果相对Java和脚本语言 ,你对SQL更加熟悉 Hive(百度: QueryEngine)Hadoop 上的数据仓库层,用类 SQL语句对数据进行查询 和分析。 PIG/HIVE (编程语言) 目录 HADOOP是什么 1 HDFS 2 MAPREDUCE 3 4 5 谁在用HADOOP 我们能做什么 HDFSGFSMooseFS说明 NameNodeMasterMaster 它是个文件系统的大脑,提供整 个文件系统的目录信息,各个文 件的分块信息,数据块的位置信 并且管理各个数据服务器。 DataNodeChunk ServerChunk Server 分布

6、式文件系统中的每一个文件 ,都被切分成若干个数据块,每 一个数据块都被存储在不同的服 务器上,此服务器称之为数据服 务器。 BlockChunkChunk 每个文件都会被切分成若干个块 (默认64MB)每一块都有连续 的一段文件内容,是存储的基本 单位 Packet NullNull 客户端写文件的时候,不是一个 字节一个字节写入文件系统的, 而是累计到一定数量后,往文件 系统中写入一次,每发送一次的 数据,都称为一个数据包。 ChunkNullBlock(64KB) 在每一个数据包中,都会将数据 切成更小的块(512字节),每 一个块配上一个奇偶校验码( CRC),这样的块,就是传输 块。

7、Secondary NameNode NullMetalogger 备用的主控服务器,在身后默默 的拉取着主控服务器的日志,等 待主控服务器牺牲后被扶正。 HDFS 术语 HDFS 特点 write-one-read- many 流式访问本地计算 容错及备份 把“大数据”都存储起来 HDFS 具有冗余备份的分布式文件系统 超高的数据吞吐量 对存储介质无苛刻要求,普通硬件即可满足 对硬件故障容错性高 HDFS 通讯 HDFS 读操作 HDFS 写操 作 HDFS 其他 namenode容灾01 datanode容灾02 数据校验03 序列化04 DFSClient 崩溃? 租约:当客户端需要占用

8、某个文件时,与NameNode签 订的一个短期合同 超过期限没有续约,则终止租约,避免资源被长期霸占 DataNode 崩溃? 客户端读取另外一个副本 后台负责副本的均衡和复制 NameNode 崩溃? 需要人工干预 宕机期间整个集群都没反应 Secondary NameNode可以代替NameNode 但可能会导致部分Editlog的丢失,无法100%恢复 目录 HADOOP是什么 1 HDFS 2 MAPREDUCE 3 4 5 谁在用HADOOP 我们能做什么 Hadoop术语 Google术语 说明 Job Job 用户的每一个计算请求,称为一 个作业。 JobTracker Mast

9、er 用户提交作业的服务器,同时, 它还负责各个作业任务的分配, 管理所有的任务服务器。 TaskTask 每一个作业,都需要拆分开了, 交由多个服务器来完成,拆分出 来的执行单位,就称为任务。 TaskTracker Worker 任劳任怨的工蜂,负责执行具体 的任务。 MAPREDUCE (离线分布式计算框架)术语 MAPREDUCE (离线分布式计算框架)工作机制 MAPREDUCE(离线分布式计算框架) 编程模型 MAP Map(映射):对一些独立元素组成的列表的每一个 元素进行指定的操作,可以高度并行。 SHUFFLE& SORT Shuffle(函数):对Mapping数据中的元素

10、按随机顺序重新排列。 Sort(函数):框架将按照key的值对Reducer的输入进行分组。 REDUCE Reduce(化简):对一个列表的元素进行合并。 MAPREDUCE(SHUFFLE&SORT) 编程模型 MapReduce主要由两个阶段完成:Map阶段和Reduce阶段。用户只 需编写map()和reduce()两个函数,即可完成简单的分布式程序的设 计。 Map()函数 以对作为输入,产生一系列的对作为中 间结果输出写入本地磁盘。MapReduce框架会自动将这些中间 数据按照key值进行分区,且key值分区结果相同的数据会被交 给同一个reduce()函数处理。 Reduce(

11、)函数 以key以及对应的value列表(即)作为输入, 经过合并key相同的value值后,产生一系列的对作 为最终结果输出。 MAPREDUCE(离线分布式计算框架) 编程模型 单个Reduce的编程模型 MAPREDUCE (示例)求单块数据每年的最高气温的数据流 1995234234 1995345678 1996345562 1995 34,78 1996 62 map 1995 78 1996 62 reduce Mapreduce(离线分布式计算框架) 编程模型 多个Reduce的编程模型 MAPREDUCE (示例)求多块数据每年的最高气温的数据流 1995234234 199

12、5345678 1996345562 1995 34,78 1996 62 map 1995 78 reduce 1995234224 1995345658 1996345522 i1 i2 1995 24,58 1996 22 1995234227 1995345654 1996345582 i3 1995 27,54 1996 82 1995 34,78,24, 58,27,54 1996 62,22,82 1996 82 partition merge shuffle o1 o1 目录 HADOOP是什么 1 HDFS 2 MAPREDUCE 3 4 5 谁在用HADOOP 我们能做什么

13、 BadCase挖掘、Crash定位 隐性问题与未知Bug 产品 问题 反馈、满意度、情感分析与需求预测 体验 问题 死链、云数据保障、数据有效性、数据清洗 数据 质量 谁在用HADOOP-Hadoop分析 Hadoop数据分析能做什么 ? 淘宝Hadoop的发展史 谁在用HADOOP-阿里淘宝 p2008年抽调雅虎中国Hadoop团队 核心人员组建 p2009年成为淘宝自身分布式计算项 目飞天的过渡项目 p项目正式命名为“云梯”并开发 HDFS分支ADFS分布式文件系统 p云梯Hadoop与飞天 项目并存至今 Oracle备库 天网调度系统 Gateway Servers DataExcha

14、ngeTime TunnelDBSync 云梯 1 Map Reduce Java Jobs Hive Jobs Streaming Jobs MySQL备库爬虫数据日志系统 数 据 流 向 数据平台搜索 口碑支付宝 BI广告云梯 2 B2B 数据魔方 推荐系统淘数据量子计算 淘宝Hadoop系统架构 谁在用HADOOP-阿里淘宝 阿里大数据探索 谁在用HADOOP-阿里淘宝 离线存储 与计算 在线存储 与计算 实时计算流式计算 任务调度 与管理 数据开发与数据 可视化界面 数据同步数据质量监控 元数据管理安全与审计计量与计费 服务化 API & SDK 算法库数据产品数据地图 数据共享 与合

15、作 产品层 工具层 组织架构 谁在用HADOOP-腾讯 查询引擎 Lhotse任务统一调度 IDE 集成开发 计算引擎 MapReduce 存储引擎HDFS HADOOP TDBANK 数据采集 Hive 腾讯分布式数据仓库 基于hadoop和hive,提供可视化IDE ,支持灾难自动热切 单集群4400台, 存储容量100PB 月活跃用户2800人,覆盖88个部门 准实时数据采集,支持5分钟数据分析 一站式任务管理,每天支撑10w级任 务调度,可平行扩展 海量数据在线处理,日推荐300亿,流 式计算3万亿 多种算法模型灵活适配,算法精准高 效,毫秒级响应 简单高效的扩展能力,数据动态伸缩 ,多级缓存技术,上层无感知 多副本数据容灾,服务可用度 99.995%以上 腾讯实时推荐平台(APOLLO ) 谁在用HADOOP-腾讯 谁在用HADOOP-百度 百度大数据理念 谁在用HADOOP-百度 百度 推荐 百度 统计 CVC 百度 预测 黄金 眼 数据 加油 站 WiFi 定位 大司 南 画像 谁在用HADOOP-其他 目录 HADOOP是什么 1 HDFS 2 MAPREDUCE 3 4 5 谁在用HADOOP 我们能做什么 Storm流式实时计算 短消息队列 短消息队列 短

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号