hadoop概要

上传人:今*** 文档编号:107186604 上传时间:2019-10-18 格式:PPT 页数:45 大小:5.32MB
返回 下载 相关 举报
hadoop概要_第1页
第1页 / 共45页
hadoop概要_第2页
第2页 / 共45页
hadoop概要_第3页
第3页 / 共45页
hadoop概要_第4页
第4页 / 共45页
hadoop概要_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《hadoop概要》由会员分享,可在线阅读,更多相关《hadoop概要(45页珍藏版)》请在金锄头文库上搜索。

1、dongxicheng.org,Hadoop概述,目 录,*,21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。 互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。,“大数据”的诞生: 半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念。如今

2、,这个概念几乎应用到了所有人类智力与发展的领域中。,大数据时代的背景,*,想驾驭这庞大的数据,我们必须了解大数据的特征。,地球上至今总共的数据量: 在2006 年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据; 在2011 年,这个数字达到了1.8ZB。 而有市场研究机构预测: 到2020 年,整个世界的数据总量将会增长44 倍,达到35.2ZB(1ZB=10 亿TB)!,1PB = 250字节 1EB = 260字节 1ZB = 270字节,数据大爆炸,*,大数据的4V特征,体量Volume,多样性Variety,价值密度Value,速度Velocity,非结构化数据的超大

3、规模和增长 总数据量的8090% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍,大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义,大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等),实时分析而非批量式分析 数据输入、处理与丢弃 立竿见影而非事后见效,*,大数据不仅仅是“大”,多大? 至少PB 级,比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值,*,大数据的应用,通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各

4、行各业特别是公共服务领域具有广阔的应用前景,消费行业,金融服务,食品安全,医疗卫生,军事,交通环保,电子商务,气象,*,管理大数据“易”理解大数据“难”,虽然大数据是一个重大问题,真正的问题是让大数据更有意义 目前大数据管理多从架构和并行等方面考虑,解决高并发数据存取的性能要求及数据存储的横向扩展,但对非结构化数据的内容理解仍缺乏实质性的突破和进展,这是实现大数据资源化、知识化、普适化的核心 非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等,具体案例,难点分析,*,大数据处理两套解决方案,传统的数据库在处理大数据时会显得性能十分低,所以需要分而治之。这个就是hadoop的

5、精髓,但是小的数据量存在分布式的环境里,处理的的性能反而会降低。hadoop是面向至少TB,PB级的数据量,才能最大的发挥它的优势。 1TB = 1024G 1PB = 1024T 1EB = 1024P 因此,对于大数据处理两套解决方案 1、移动数据,把数据分发到多个计算节点进行计算;第一种是MPI,常用于科学计算 。 2、移动计算,将计算能力移到数据存储位置;Hadoop是第二种。,目 录,Hadoop简介,Hadoop是一个分布式系统基础架构,由Apache基金会开发。 2006年2月从Nutch项目中分离出来,正式成为Apache顶级项目之一。 作者:Doug Cutting 官方网站

6、http:/hadoop.apache.org 官方logo 用Java编写 运行平台: Linux, Mac OS/X, Solaris, Windows 普通的X86硬件平台,谁在用Hadoop,目 录,dongxicheng.org,Hadoop 1.0 生态系统构成,dongxicheng.org,Hadoop1.x内核基本构成,分布式存储系统HDFS 高可靠性 高扩展性 高吞吐率 分布式计算框架MapReduce 易于编程 高容错性 高扩展性,dongxicheng.org,HDFS是什么,源自于Google的GFS论文 发表于2003年10月 HDFS是GFS克隆版 Hadoop

7、Distributed File System 易于扩展的分布式文件系统 运行在大量普通廉价机器上,提供容错机制 为大量用户提供性能不错的文件存取服务,dongxicheng.org,HDFS优点,高容错性 数据自动保存多个副本 副本丢失后,自动恢复 适合批处理 移动计算而非数据 数据位置暴露给计算框架 适合大数据处理 GB、TB、甚至PB级数据 百万规模以上的文件数量 10K+节点规模,流式文件访问 一次性写入,多次读取 保证数据一致性 可构建在廉价机器上 通过多副本提高可靠性 提供了容错和恢复机制,dongxicheng.org,HDFS设计思想,Server (10 TB),Server

8、 (10 TB),Server (10 TB),block1,block2,block3,block4,block1,block1,block2,block2,block3,block3,block4,block4,Server (10 TB),64MB,64MB,64MB,64MB,file3 50 GB,block1,block2,block3,dongxicheng.org,HDFS架构,Standby Namenode,dongxicheng.org,HDFS块副本放置策略,RackA,RackB,问题: 一个文件划分成多个block,每个block存多份,如何为每个block选择节点

9、存储这几份数据? Block副本放置策略: 副本1: 同Client的节点上 副本2: 不同机架中的节点上 副本3: 与第二个副本同一机架的另一个节点上 其他副本:随机挑选,dongxicheng.org,HDFS可靠性,文件损坏,网络或者 机器失效,NameNode挂掉,常见的三种错误情况,文件完整性 CRC32校验 用其他副本取代损坏文件 Heartbeat Datanode 定期向Namenode发heartbeat 元数据信息 FSImage(文件系统镜像)、Editlog(操作日志) 多份存储 主备NameNode实时切换,文件损坏,网络或者 机器失效,NameNode挂掉,常见的三

10、种错误情况,dongxicheng.org,HDFS缺点,低延迟数据访问 比如毫秒级 低延迟与高吞吐率 小文件存取 占用NameNode大量内存 寻道时间超过读取时间 并发写入、文件随机修改 一个文件只能有一个写者 仅支持append,dongxicheng.org,MapReduce是什么,源自于Google的MapReduce论文 发表于2004年12月 Hadoop MapReduce是Google MapReduce克隆版 MapReduce特点 易于编程 良好的扩展性 高容错性 适合PB级以上海量数据的离线处理,dongxicheng.org,MapReduce 1.0架构,dong

11、xicheng.org,初识MapReduce,wordcount程序能做什么?,dongxicheng.org,MapReduce不擅长什么,实时计算 像MySQL一样,在毫秒级或者秒级内返回结果 流式计算 MapReduce的输入数据集是静态的,不能动态变化 MapReduce自身的设计特点决定了数据源必须是静态的 DAG计算 多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出,目 录,dongxicheng.org,Hadoop 2.0 生态系统构成(原生态),Hadoop 2.0 生态系统构成,Hadoop 2.0 HDFS,dongxicheng.org,YARN是什么,资

12、源管理和调度系统 管理集群中的资源(类似于操作系统) 将资源分配给上层的应用程序 好处 降低运维成本 有利于数据共享 提高资源利用率,dongxicheng.org,YARN基本架构,dongxicheng.org,YARN工作原理,Node Manager,Node Manager,Node Manager,Resource Manager,Application Master,Client,Client,Client,Task,Container,Container,Task,Task,Container,dongxicheng.org,以YARN为核心构建服务体系,dongxicheng

13、.org,MapReduce 2.0架构,dongxicheng.org,MapReduce 实现机制推测执行,作业完成时间取决于最慢的任务完成时间 一个作业由若干个Map任务和Reduce任务构成 因硬件老化、软件Bug等,某些任务可能运行非常慢 推测执行机制 发现拖后腿的任务,比如某个任务运行速度远慢于任务平均速度 为拖后腿任务启动一个备份任务,同时运行 谁先运行完,则采用谁的结果 不建议启用推测执行机制的情况 任务间存在严重的负载倾斜 特殊任务,比如任务向数据库中写数据,目 录,dongxicheng.org,dongxicheng.org,Hadoop生态系统介绍,Hive:披着SQL

14、外衣的MapReduce。Hive是为方便用户使用MapReduce而在外面包了一层SQL,由于Hive采用了SQL,它的问题域比MapReduce更窄,因为很多问题,SQL表达不出来,比如一些数据挖掘算法,推荐算法、图像识别算法等,这些仍只能通过编写MapReduce完成。 Pig:披着脚本语言外衣的MapReduce,为了突破Hive SQL表达能力的限制,采用了一种更具有表达能力的脚本语言PIG。由于pig语言强大的表达能力,Twitter甚至基于Pig实现了一个大规模机器学习平台。 Stinger Initiative(Tez optimized Hive):Hortonworks开源

15、了一个DAG计算框架Tez,该框架可以像MapReduce一样,可以用来设计DAG应用程序,但需要注意的是,Tez只能运行在YARN上。Tez的一个重要应用是优化Hive和PIG这种典型的DAG应用场景,它通过减少数据读写IO,优化DAG流程使得Hive速度提供了很多倍。,Hadoop生态系统介绍,Spark:为了提高MapReduce的计算效率,spark可看做基于内存的MapReduce实现,Spark基础上包了一层SQL,产生了一个新的类似Hive的系统Shark,但目前Spark和Shark尚属于实验室产品。 Storm/S4:Hadoop在实时计算/流式计算领域(MapReduce假

16、设输入数据是静态的,处理过程中不能被修改,而流式计算则假设数据源是流动的,数据会源源不断流入系统)一直比较落后;还好,Twitter开源的Storm和yahoo!开源的S4弥补了这一缺点,Storm在淘宝,mediaV等公司得到广泛的应用。 Cloudera Impala/Apache drill:Google Dremel的开源实现,也许是因为交互式计算需求太过强烈,发展迅猛,impala仅用了一年左右便推出1.0GA版本。这种系统适用于交互式处理场景,最后产生的数据量一定要少。Impala尽管发布了1.0版本,但在容错性、扩展性、支持自定义函数等方面,有很长的路要走。,总结,3,目 录,dongxicheng.org,总 结,Hadoop目前是使用最多的大数据处理方案,较之前的用于离线处理的Mapreduce框架,现在的storm框架已经解决了实时

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号