2023年hadoop认识总结－金锄头文库

资源描述

《2023年hadoop认识总结》由会员分享，可在线阅读，更多相关《2023年hadoop认识总结（8页珍藏版）》请在金锄头文库上搜索。

1、( 完整版)hadoop 认识总结 (完整版)hadoop认识总结编辑整理：尊敬的读者朋友们：这里是精品文档编辑中心，本文档内容是由我和我的同事精心编辑整理后发布的，发布之前我们对文中内容进行仔细校对，但是难免会有疏漏的地方，但是任然希望（(完整版)hadoop认识总结）的内容能够给您的工作和学习带来便利。同时也真诚的希望收到您的建议和反馈，这将是我们进步的源泉，前进的动力。本文可编辑可修改，如果觉得对您有帮助请收藏以便随时查阅，最后祝您生活愉快业绩进步，以下为(完整版)hadoop认识总结的全部内容。 ( 完整版)hadoop 认识总结一、对 hadoop 的基本认识 Hadoo

2、p 是一个分布式系统基础技术框架，由 Apache 基金会所开发。利用hadoop，软件开发用户可以在不了解分布式底层细节的情况下，开发分布式程序，从而达到充分利用集群的威力高速运算和存储的目的. Hadoop 是根据 google 的三大论文作为基础而研发的，google 的三大论文分别是：MapReduce、GFS和 BigTable 。因此，hadoop 也因此被称为是 google 技术的山寨版。不过这种“山寨版”却成了当下大数据处理技术的国际标准（因为它是世界上唯一一个做得相对完善而又开源的框架）。 Hadoop 框架中最核心的设计就是：MapReduce和 HDFS 。MapRed

3、uce的思想是由 Google 的一篇论文所提及而被广为流传的, 简单的一句话解释 MapReduce就是“任务的分解与结果的汇总”。HDFS是 Hadoop 分布式文件系统（Hadoop Distributed File System）的缩写，为分布式计算存储提供了底层支持。 MapReduce从它名字上来看就大致可以看出个缘由, 两个动词 Map和 Reduce，“Map（展开)”就是将一个任务分解成为多个任务，“Reduce”就是将分解后多任务处理的结果汇总起来，得出最后的分析结果。这不是什么新思想, 其实它的本质就是一种“分治法”的思想, 把一个巨大的任务分割成许许多多的小任务单元，最

4、后再将每个小任务单元的结果汇总，并求得最终结果。在分布式系统中, 机器集群就可以看作硬件资源池，将并行的任务拆分，然后交由每一个空闲机器资源去处理,能够极大地提高计算效率, 同时这种资源无关性, 对于计算集群的扩展无疑提供了最好的设计保证。任务分解处理以后，那就需要将处理以后的结果再汇总起来，这就是 Reduce 要做的工作. 多任务、并行计算、云计算, 这些词汇并不是新名词, 在 hadoop 出现之前，甚至在 google 出现之前，就已经出现过分布式系统和分布式程序，hadoop 新就新在它解决了分布式系统复杂的底层细节，程序员可以在不了解底层分布式细节的情况下编写高效的分布式程序，ha

5、doop 服务会自动将任务分配给不同的计算机节点，由这些节点计算最后汇总并处理计算结果。利用 hadoop, 程序作者可以将精力放在具体的业务逻辑上，而不是繁琐的分布式底层技术细节。另外，传统的分布式系统一般会利用若干台高性能的计算机，而 hadoop 则只需将大量普通的 pc 机连系在一起，组成一个分布式集群。 Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的.Hadoop 是可靠的, 因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新总结的内容能够给您的工作和学习带来便利同时也真诚

6、的希望收到您的建议和反馈这将是我们进步的源泉前进的动力全部内容完整版认识总结一对的基本认识是一个分布式系统基础技术框架由基金会所开发利用软件开发用户可以在不论文作为基础而研发的的三大论文分别是和因此也因此被称为是技术的山寨版不过这种山寨版却成了当下大数据处理( 完整版)hadoop 认识总结分布处理。Hadoop 是高效的, 因为它以并行的方式工作，通过并行处理加快处理速度。Hadoop 还是可伸缩的，能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器, 因此它的成本比较低，任何人都可以使用。 Hadoop 带有用 Java 语言编写的框架, 因此运行在 Linux 生产平台上是非

7、常理想的。Hadoop 上的应用程序也可以使用其他语言编写, 比如 C+。 Hadoop 有许多元素构成。其最底部是 Hadoop Distributed File System （HDFS ），它存储 Hadoop 集群中所有存储节点上的文件。HDFS( 对于本文）的上一层是 MapReduce 引擎，该引擎由 JobTrackers 和 TaskTrackers 组成. 二、 Hadoop 下几个项目构成其中 MapReduce和 hdfs 是 hadoop 的核心，在很多时候，说 hadoop 往往就是指 MapReduce和 hdfs ，其它项目是与它相关的配合使用的项目。 1、Ha

8、doop Common ：Hadoop 体系最底层的一个模块, 为 Hadoop 各子项目提供各种工具，如：配置文件和日志操作等. 2、HDFS:分布式文件系统，提供高吞吐量的应用程序数据访问，对外部客户机而言,HDFS 就像一个传统的分级文件系统. 可以创建、删除、移动或重命名文件，等总结的内容能够给您的工作和学习带来便利同时也真诚的希望收到您的建议和反馈这将是我们进步的源泉前进的动力全部内容完整版认识总结一对的基本认识是一个分布式系统基础技术框架由基金会所开发利用软件开发用户可以在不论文作为基础而研发的的三大论文分别是和因此也因此被称为是技术的山寨版不过这种山寨版却成了当下大数据处理( 完

9、整版)hadoop 认识总结等。但是 HDFS 的架构是基于一组特定的节点构建的，这是由它自身的特点决定的。这些节点包括 NameNode（仅一个），它在 HDFS 内部提供元数据服务;DataNode, 它为 HDFS 提供存储块。由于仅存在一个 NameNode，因此这是 HDFS 的一个缺点( 单点失败). 存储在 HDFS 中的文件被分成块, 然后将这些块复制到多个计算机中（DataNode）. 这与传统的 RAID 架构大不相同。块的大小( 通常为 64MB)和复制的块数量在创建文件时由客户机决定。NameNode 可以控制所有文件操作。HDFS 内部的所有通信都基于标准的 TCP

10、/IP 协议. 3、MapReduce ：一个分布式海量数据处理的软件框架集计算集群, 它的原理如下图所示。总结的内容能够给您的工作和学习带来便利同时也真诚的希望收到您的建议和反馈这将是我们进步的源泉前进的动力全部内容完整版认识总结一对的基本认识是一个分布式系统基础技术框架由基金会所开发利用软件开发用户可以在不论文作为基础而研发的的三大论文分别是和因此也因此被称为是技术的山寨版不过这种山寨版却成了当下大数据处理( 完整版)hadoop 认识总结 4、Avro ：doug cutting主持的 RPC项目，主要负责数据的序列化。有点类似Google 的 protobuf和 Facebook 的

11、 thrift。avro 用来做以后 hadoop 的 RPC,使hadoop 的 RPC模块通信速度更快、数据结构更紧凑。 5、Hive ：类似 CloudBase ，也是基于 hadoop 分布式计算平台上的提供 data warehouse 的 sql 功能的一套软件。使得存储在 hadoop 里面的海量数据的汇总，即席查询简单化。hive 提供了一套 QL的查询语言，以 sql 为基础，使用起来很方便。总结的内容能够给您的工作和学习带来便利同时也真诚的希望收到您的建议和反馈这将是我们进步的源泉前进的动力全部内容完整版认识总结一对的基本认识是一个分布式系统基础技术框架由基金会所开发利用

12、软件开发用户可以在不论文作为基础而研发的的三大论文分别是和因此也因此被称为是技术的山寨版不过这种山寨版却成了当下大数据处理( 完整版)hadoop 认识总结 6、HBase ：基于 Hadoop Distributed File System,是一个开源的，基于列存储模型的可扩展的分布式数据库，支持大型表的存储结构化数据。 7、Pig ：是一个并行计算的高级的数据流语言和执行框架，SQL like 语言, 是在MapReduce上构建的一种高级查询语言，把一些运算编译进 MapReduce模型的 Map和 Reduce 中，并且用户可以定义自己的功能。 8、ZooKeeper ：Google

13、的 Chubby 一个开源的实现。它是一个针对大型分布式系统的可靠协调系统, 提供的功能包括：配置维护、名字服务、分布式同步、组服务等。ZooKeeper 的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。 9、Chukwa ：一个管理大型分布式系统的数据采集系统由 yahoo 贡献。 10、Cassandra ：无单点故障的可扩展的多主数据库 11、Mahout ：一个可扩展的机器学习和数据挖掘库三、hadoop 的应用场景 Hadoop 项目是 Lucnce 搜索引擎项目的一个部分而发展以来的，也就是说，它最初是为了解决搜索引擎领域里的海量数

14、据处理问题而诞生的, 由此也不难理解它的应用场景，它是专为处理海量数据而生的。总结的内容能够给您的工作和学习带来便利同时也真诚的希望收到您的建议和反馈这将是我们进步的源泉前进的动力全部内容完整版认识总结一对的基本认识是一个分布式系统基础技术框架由基金会所开发利用软件开发用户可以在不论文作为基础而研发的的三大论文分别是和因此也因此被称为是技术的山寨版不过这种山寨版却成了当下大数据处理( 完整版)hadoop 认识总结首先, 什么是海量数据？1G算不算?10G算不算？可以明确的说，这个数量级的数据完全不能算是海量，hadoop 是专门处理 TB甚至 PB级数据的。当数据量庞大到 TB级它的作用

15、太能明显体现。 1. 在线旅游: 目前全球范围内 80的在线旅游网站都是在使用 Cloudera 公司提供的Hadoop 发行版，其中 SearchBI 网站曾经报道过的 Expedia 也在其中。 2. 移动数据:Cloudera运营总监称，美国有 70的智能手机数据服务背后都是由Hadoop 来支撑的，也就是说, 包括数据的存储以及无线运营商的数据处理等, 都是在利用 Hadoop 技术。 3。电子商务：这一场景应该是非常确定的，eBay 就是最大的实践者之一。国内的电商在 Hadoop 技术上也是储备颇为雄厚的。 4. 能源开采：美国 Chevron 公司是全美第二大石油公司，他们的 I

16、T 部门主管介绍了 Chevron 使用 Hadoop 的经验，他们利用 Hadoop 进行数据的收集和处理，其中这些数据是海洋的地震数据，以便于他们找到油矿的位置。那么, 哪些行业不适合使用 hadoop 呢? Hadoop 的突出优点是利用较低性能的计算机，对海量数据的分布式处理，它的重点是对数据的处理、分析、挖掘。因此，对于那些需要大量事务处理，实时响应等应用时不适合的，例如, 银行系统等。四、认识总结总结的内容能够给您的工作和学习带来便利同时也真诚的希望收到您的建议和反馈这将是我们进步的源泉前进的动力全部内容完整版认识总结一对的基本认识是一个分布式系统基础技术框架由基金会所开发利

17、用软件开发用户可以在不论文作为基础而研发的的三大论文分别是和因此也因此被称为是技术的山寨版不过这种山寨版却成了当下大数据处理( 完整版)hadoop 认识总结 Hadoop 实际上就是一个云计算或者说分布式计算的工具，mapreduce 是它的计算引擎，hdfs 是它的文件系统，而其它项目如 hbase 、hive 等都是在它基础上与它配套使用的外围软件。以上这些是我对 hadoop 技术的初步认识，除了对它的基本认识之外, 我自己曾经按照网上和书上的说明, 搭建过一个基本的 hadoop 环境, 运行了里面的示例程序. 至于更多的技术细节，尚未作深入了解。总结的内容能够给您的工作和学习带来便利同时也真诚的希望收到您的建议和反馈这将是我们进步的源泉前进的动力全部内容完整版认识总结一对的基本认识是一个分布式系统基础技术框架由基金会所开发利用软件开发用户可以在不论文作为基础而研发的的三大论文分别是和因此也因此被称为是技术的山寨版不过这种山寨版却成了当下大数据处理

展开阅读全文

2023年hadoop认识总结

最新文档