hadoop概要－金锄头文库

资源描述

《hadoop概要》由会员分享，可在线阅读，更多相关《hadoop概要（45页珍藏版）》请在金锄头文库上搜索。

1、dongxicheng.org,Hadoop概述,目录,*,21世纪是数据信息大发展的时代，移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围，各种数据正在迅速膨胀并变大。互联网（社交、搜索、电商）、移动互联网（微博）、物联网（传感器，智慧地球）、车联网、GPS、医学影像、安全监控、金融（银行、股市、保险）、电信（通话、短信）都在疯狂产生着数据。,“大数据”的诞生：半个世纪以来，随着计算机技术全面融入社会生活，信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息，而且其增长速度也在加快。信息爆炸的学科如天文学和基因学，创造出了“大数据”这个概念。如今

2、，这个概念几乎应用到了所有人类智力与发展的领域中。,大数据时代的背景,*,想驾驭这庞大的数据，我们必须了解大数据的特征。,地球上至今总共的数据量：在2006 年，个人用户才刚刚迈进TB时代，全球一共新产生了约180EB的数据；在2011 年，这个数字达到了1.8ZB。而有市场研究机构预测：到2020 年，整个世界的数据总量将会增长44 倍，达到35.2ZB（1ZB=10 亿TB）！,1PB = 250字节 1EB = 260字节 1ZB = 270字节,数据大爆炸,*,大数据的4V特征,体量Volume,多样性Variety,价值密度Value,速度Velocity,非结构化数据的超大

3、规模和增长总数据量的8090% 比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍,大数据的异构和多样性很多不同形式（文本、图像、视频、机器数据）无模式或者模式不明显不连贯的语法或句义,大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析（机器学习、人工智能Vs传统商务智能(咨询、报告等）,实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效,*,大数据不仅仅是“大”,多大？至少PB 级,比大更重要的是数据的复杂性，有时甚至大数据中的小数据如一条微博就具有颠覆性的价值,*,大数据的应用,通过用户行为分析实现精准营销是大数据的典型应用，但是大数据在各

4、行各业特别是公共服务领域具有广阔的应用前景,消费行业,金融服务,食品安全,医疗卫生,军事,交通环保,电子商务,气象,*,管理大数据“易”理解大数据“难”,虽然大数据是一个重大问题，真正的问题是让大数据更有意义目前大数据管理多从架构和并行等方面考虑，解决高并发数据存取的性能要求及数据存储的横向扩展，但对非结构化数据的内容理解仍缺乏实质性的突破和进展，这是实现大数据资源化、知识化、普适化的核心非结构化海量信息的智能化处理：自然语言理解、多媒体内容理解、机器学习等,具体案例,难点分析,*,大数据处理两套解决方案,传统的数据库在处理大数据时会显得性能十分低，所以需要分而治之。这个就是hadoop的

5、精髓，但是小的数据量存在分布式的环境里，处理的的性能反而会降低。hadoop是面向至少TB,PB级的数据量，才能最大的发挥它的优势。 1TB = 1024G 1PB = 1024T 1EB = 1024P 因此，对于大数据处理两套解决方案 1、移动数据，把数据分发到多个计算节点进行计算；第一种是MPI，常用于科学计算。 2、移动计算，将计算能力移到数据存储位置；Hadoop是第二种。,目录,Hadoop简介,Hadoop是一个分布式系统基础架构，由Apache基金会开发。 2006年2月从Nutch项目中分离出来,正式成为Apache顶级项目之一。作者:Doug Cutting 官方网站

6、http:/hadoop.apache.org 官方logo 用Java编写运行平台: Linux, Mac OS/X, Solaris, Windows 普通的X86硬件平台,谁在用Hadoop,目录,dongxicheng.org,Hadoop 1.0 生态系统构成,dongxicheng.org,Hadoop1.x内核基本构成,分布式存储系统HDFS 高可靠性高扩展性高吞吐率分布式计算框架MapReduce 易于编程高容错性高扩展性,dongxicheng.org,HDFS是什么,源自于Google的GFS论文发表于2003年10月 HDFS是GFS克隆版 Hadoop

7、Distributed File System 易于扩展的分布式文件系统运行在大量普通廉价机器上，提供容错机制为大量用户提供性能不错的文件存取服务,dongxicheng.org,HDFS优点,高容错性数据自动保存多个副本副本丢失后，自动恢复适合批处理移动计算而非数据数据位置暴露给计算框架适合大数据处理 GB、TB、甚至PB级数据百万规模以上的文件数量 10K+节点规模,流式文件访问一次性写入，多次读取保证数据一致性可构建在廉价机器上通过多副本提高可靠性提供了容错和恢复机制,dongxicheng.org,HDFS设计思想,Server (10 TB),Server

8、 (10 TB),Server (10 TB),block1,block2,block3,block4,block1,block1,block2,block2,block3,block3,block4,block4,Server (10 TB),64MB,64MB,64MB,64MB,file3 50 GB,block1,block2,block3,dongxicheng.org,HDFS架构,Standby Namenode,dongxicheng.org,HDFS块副本放置策略,RackA,RackB,问题：一个文件划分成多个block，每个block存多份，如何为每个block选择节点

9、存储这几份数据？ Block副本放置策略：副本1: 同Client的节点上副本2: 不同机架中的节点上副本3: 与第二个副本同一机架的另一个节点上其他副本:随机挑选,dongxicheng.org,HDFS可靠性,文件损坏,网络或者机器失效,NameNode挂掉,常见的三种错误情况,文件完整性 CRC32校验用其他副本取代损坏文件 Heartbeat Datanode 定期向Namenode发heartbeat 元数据信息 FSImage（文件系统镜像）、Editlog（操作日志）多份存储主备NameNode实时切换,文件损坏,网络或者机器失效,NameNode挂掉,常见的三

10、种错误情况,dongxicheng.org,HDFS缺点,低延迟数据访问比如毫秒级低延迟与高吞吐率小文件存取占用NameNode大量内存寻道时间超过读取时间并发写入、文件随机修改一个文件只能有一个写者仅支持append,dongxicheng.org,MapReduce是什么,源自于Google的MapReduce论文发表于2004年12月 Hadoop MapReduce是Google MapReduce克隆版 MapReduce特点易于编程良好的扩展性高容错性适合PB级以上海量数据的离线处理,dongxicheng.org,MapReduce 1.0架构,dong

11、xicheng.org,初识MapReduce,wordcount程序能做什么？,dongxicheng.org,MapReduce不擅长什么,实时计算像MySQL一样，在毫秒级或者秒级内返回结果流式计算 MapReduce的输入数据集是静态的，不能动态变化 MapReduce自身的设计特点决定了数据源必须是静态的 DAG计算多个应用程序存在依赖关系，后一个应用程序的输入为前一个的输出,目录,dongxicheng.org,Hadoop 2.0 生态系统构成(原生态),Hadoop 2.0 生态系统构成,Hadoop 2.0 HDFS,dongxicheng.org,YARN是什么,资

12、源管理和调度系统管理集群中的资源（类似于操作系统）将资源分配给上层的应用程序好处降低运维成本有利于数据共享提高资源利用率,dongxicheng.org,YARN基本架构,dongxicheng.org,YARN工作原理,Node Manager,Node Manager,Node Manager,Resource Manager,Application Master,Client,Client,Client,Task,Container,Container,Task,Task,Container,dongxicheng.org,以YARN为核心构建服务体系,dongxicheng

13、.org,MapReduce 2.0架构,dongxicheng.org,MapReduce 实现机制推测执行,作业完成时间取决于最慢的任务完成时间一个作业由若干个Map任务和Reduce任务构成因硬件老化、软件Bug等，某些任务可能运行非常慢推测执行机制发现拖后腿的任务，比如某个任务运行速度远慢于任务平均速度为拖后腿任务启动一个备份任务，同时运行谁先运行完，则采用谁的结果不建议启用推测执行机制的情况任务间存在严重的负载倾斜特殊任务，比如任务向数据库中写数据,目录,dongxicheng.org,dongxicheng.org,Hadoop生态系统介绍,Hive：披着SQL

14、外衣的MapReduce。Hive是为方便用户使用MapReduce而在外面包了一层SQL，由于Hive采用了SQL，它的问题域比MapReduce更窄，因为很多问题，SQL表达不出来，比如一些数据挖掘算法，推荐算法、图像识别算法等，这些仍只能通过编写MapReduce完成。 Pig：披着脚本语言外衣的MapReduce，为了突破Hive SQL表达能力的限制，采用了一种更具有表达能力的脚本语言PIG。由于pig语言强大的表达能力，Twitter甚至基于Pig实现了一个大规模机器学习平台。 Stinger Initiative（Tez optimized Hive）：Hortonworks开源

15、了一个DAG计算框架Tez，该框架可以像MapReduce一样，可以用来设计DAG应用程序，但需要注意的是，Tez只能运行在YARN上。Tez的一个重要应用是优化Hive和PIG这种典型的DAG应用场景，它通过减少数据读写IO，优化DAG流程使得Hive速度提供了很多倍。,Hadoop生态系统介绍,Spark：为了提高MapReduce的计算效率，spark可看做基于内存的MapReduce实现，Spark基础上包了一层SQL，产生了一个新的类似Hive的系统Shark，但目前Spark和Shark尚属于实验室产品。 Storm/S4：Hadoop在实时计算/流式计算领域（MapReduce假

16、设输入数据是静态的，处理过程中不能被修改，而流式计算则假设数据源是流动的，数据会源源不断流入系统）一直比较落后；还好，Twitter开源的Storm和yahoo！开源的S4弥补了这一缺点，Storm在淘宝，mediaV等公司得到广泛的应用。 Cloudera Impala/Apache drill：Google Dremel的开源实现，也许是因为交互式计算需求太过强烈，发展迅猛，impala仅用了一年左右便推出1.0GA版本。这种系统适用于交互式处理场景，最后产生的数据量一定要少。Impala尽管发布了1.0版本，但在容错性、扩展性、支持自定义函数等方面，有很长的路要走。,总结,3,目录,dongxicheng.org,总结,Hadoop目前是使用最多的大数据处理方案，较之前的用于离线处理的Mapreduce框架，现在的storm框架已经解决了实时

展开阅读全文