大数据框架Hadoop主要模块介绍_光环大数据培训

资源描述

《大数据框架Hadoop主要模块介绍_光环大数据培训》由会员分享，可在线阅读，更多相关《大数据框架Hadoop主要模块介绍_光环大数据培训（6页珍藏版）》请在金锄头文库上搜索。

1、光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/大数据框架大数据框架 HadoopHadoop 主要模块介绍主要模块介绍_ _光环大数据培训光环大数据培训hadoop Common: 包括 Hadoop 常用的工具类，由原来的 Hadoop core 部分更名而来。主要包括系统配置工具 Configuration、远程过程调用 RPC、序列化机制和 Hadoop 抽象文件系统 FileSystem 等。它们为在通用硬件上搭建云计算环境提供基本的服务，并为运行在该平台上的软件开发提供了所需的 API。Hadoop Distribu

2、ted File System (HDFS): 分布式文件系统，提供对应用程序数据的高吞吐量，高伸缩性，高容错性的访问。是 Hadoop 体系中数据存储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行。HDFS 简化了文件的一致性模型，通过流式数据访问，提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序。大数据Hadoop YARN: 任务调度和集群资源管理。Hadoop MapReduce: 基于 YARN 的大型数据集并行处理系统。是一种计算模型，用以进行大数据量的计算。Hadoop 的 MapReduce 实现，和 Common

3、、HDFS 一起，构成了 Hadoop 发展初期的三个组件。MapReduce 将应用划分为 Map 和 Reduce 两个步骤，其中 Map 对数据集上的独立元素进行指定的操作，生成键- 值对形式中间结果。Reduce 则对中间结果中相同“键”的所有“值”进行规约，以得到最终结果。MapReduce 这样的功能划分，非常适合在大量计算机组成的分布式并行环境里进行数据处理。其他模块：光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/Ambari: 是一种基于 Web 的工具，支持 Apache Hadoop 集群的供应、管理和监控。

4、Ambari 目前已支持大多数 Hadoop 组件，包括 HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop 和 Hcatalog 等。 Ambari 支持 HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop 和 Hcatalog 等的集中管理。Ambari 还提供了一个用于查看集群健康状况的仪表板，例如散热图，以及可视化查看 MapReduce，Pig 和 Hive 应用程序以及以用户友好的方式诊断其性能特征的功能。也是 5 个顶级 hadoop 管理工具之一。Avro: 数据序列化系统，由 Doug Cutt

5、ing 牵头开发，是一个数据序列化系统。类似于其他序列化机制，Avro 可以将数据结构或者对象转换成便于存储和传输的格式，其设计目标是用于支持数据密集型应用，适合大规模数据的存储与交换。Avro 提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程调用 RPC 和简单动态语言集成等功能。Cassandra: 可扩展的多主数据库，没有单点故障。是一套开源分布式 NoSQL 数据库系统。它最初由 Facebook 开发，用于储存收件箱等简单格式数据，集 GoogleBigTable 的数据模型与 Amazon Dynamo 的完全分布式的架构于一身 Face

6、book 于 2008 将 Cassandra 开源，此后，由于 Cassandra 良好的可扩展性，被 Digg、Twitter 等知名 Web 2.0 网站所采纳，成为了一种流行的分布式结构化数据存储方案。Cassandra 是一个混合型的非关系的数据库，类似于 Google 的 BigTable。其主要功能比 Dynamo (分布式的 Key-Value 存储系统)更丰富，但支持度却不如文档存储 MongoDB(介于关系数据库和非关系数据库之间的开源产品，是非关系数据库当中功能最丰富，最像关系数据库的。支持的数据结构非常松散，是类似 json 的 bjson 格式，因此可以存

7、储比较复杂的数据类型)。Cassandra 最初由 Facebook 开发，后转变成了开源项目。它是一个网络社交云计算方面理想的数据库。以 Amazon 专有的完全分布式的 Dynamo 为基础，结合了 Google BigTable 基于列族(Column Family)的数据模型。P2P 去中心化的存储。很多方面都可以称之为 Dynamo 2.0。Chukwa: 用于管理大型分布式系统的数据收集系统(2000+以上的节点, 系统每天产生的监控数据量在 T 级别)。它构建在 Hadoop 的 HDFS 和 MapReduce 基础之上，继承了 Hadoop 的可伸缩性和鲁棒性。Ch

8、ukwa 包含一个强大和灵活的光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/工具集，提供了数据的生成、收集、排序、去重、分析和展示等一系列功能，是 Hadoop 使用者、集群运营人员和管理人员的必备工具。Hbase: 是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的 Google 论文“Bigtable：一个结构化数据的分布式存储系统”。就像 Bigtable 利用了 Google 文件系统(File System)所提供的分布式数据存储一样， HBase 在 Hadoop 之上提供了类似于 Bigta

9、ble 的能力。HBase 是 Apache 的 Hadoop 项目的子项目。HBase 不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是 HBase 基于列的而不是基于行的模式。HBase 是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。和传统关系数据库不同，HBase 采用了 BigTable 的数据模型：增强的稀疏排序映射表(Key/Value)，其中，键由行关键字、列关键字和时间戳构成。HBase 提供了对大规模数据的随机、实时读写访问，同时，HBase 中保存的数据可以使用 MapReduce 来处理，它将数据存储和

10、并行计算完美地结合在一起。Hive: 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的 sql 查询功能，可以将 sql 语句转换为 MapReduce 任务进行运行。其优点是学习成本低，可以通过类 SQL 语句快速实现简单的 MapReduce 统计，不必开发专门的 MapReduce 应用，十分适合数据仓库的统计分析。Hive 是 Hadoop 中的一个重要子项目，最早由 Facebook 设计，是建立在 Hadoop 基础上的数据仓库架构，它为数据仓库的管理提供了许多功能，包括：数据 ETL(抽取、转换和加载)工具、数据存储管理

11、和大型数据集的查询和分析能力。Hive 提供的是一种结构化数据的机制，定义了类似于传统关系数据库中的类 SQL 语言：Hive QL，通过该查询语言，数据分析人员可以很方便地运行数据分析业务。Mahout: Apache 旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/包含许多实现，包括聚类、分类、推荐过滤、频繁子项挖掘。此外，通过使用 Apache Hadoop 库，Mahout 可以有效地扩展到云中。M

12、ahout 起源于 2008 年，最初是 Apache Lucent 的子项目，它在极短的时间内取得了长足的发展，现在是 Apache 的顶级项目。Mahout 的主要目标是创建一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout 现在已经包含了聚类、分类、推荐引擎(协同过滤)和频繁集挖掘等广泛使用的数据挖掘方法。除了算法，Mahout 还包含数据的输入/输出工具、与其他存储系统(如数据库、MongoDB 或 Cassandra)集成等数据挖掘支持架构。Pig: 运行在 Hadoop 上，是对大型数据集进行分析和评估的平台。它简化了

13、使用 Hadoop 进行数据分析的要求，提供了一个高层次的、面向领域的抽象语言：Pig Latin。通过 Pig Latin，数据工程师可以将复杂且相互关联的数据分析任务编码为 Pig 操作上的数据流脚本，通过将该脚本转换为 MapReduce 任务链，在 Hadoop 上执行。和 Hive 一样，Pig 降低了对大型数据集进行分析和评估的门槛。Apache Pig 是一个高级过程语言，适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询， Pig 可以简化 Hadoop 的使用。用 MapReduce 进行数

14、据分析。当业务比较复杂的时候，使用 MapReduce 将会是一个很复杂的事情，比如你需要对数据进行很多预处理或转换，以便能够适应 MapReduce 的处理模式。另一方面，编写 MapReduce 程序，发布及运行作业都将是一个比较耗时的事情。Pig 的出现很好的弥补了这一不足。Pig 能够让你专心于数据及业务本身，而不是纠结于数据的格式转换以及 MapReduce 程序的编写。本质是上来说，当你使用 Pig 进行处理时，Pig 本身会在后台生成一系列的 MapReduce 操作来执行任务，但是这个过程对用户来说是透明的。Spark: Hadoop 数据快速通用的计算引擎。 Sp

15、ark 提供了一个简单的编程模型，支持各种应用，包括 ETL，机器学习，流处理和图形计算。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 是 UC Berkeley AMP lab (加州大学伯克利分校的 AMP 实验室)所开源的类 Hadoop MapReduce 的通用并行框架，Spark，拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是 Job 中间输出结果可以保存在内存中，从而不再需要读写 HDFS，因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Sp

展开阅读全文

大数据框架Hadoop主要模块介绍_光环大数据培训

最新文档