大数据框架Hadoop主要模块介绍_光环大数据培训

上传人:gua****an 文档编号:50537368 上传时间:2018-08-08 格式:DOCX 页数:6 大小:47.06KB
返回 下载 相关 举报
大数据框架Hadoop主要模块介绍_光环大数据培训_第1页
第1页 / 共6页
大数据框架Hadoop主要模块介绍_光环大数据培训_第2页
第2页 / 共6页
大数据框架Hadoop主要模块介绍_光环大数据培训_第3页
第3页 / 共6页
大数据框架Hadoop主要模块介绍_光环大数据培训_第4页
第4页 / 共6页
大数据框架Hadoop主要模块介绍_光环大数据培训_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《大数据框架Hadoop主要模块介绍_光环大数据培训》由会员分享,可在线阅读,更多相关《大数据框架Hadoop主要模块介绍_光环大数据培训(6页珍藏版)》请在金锄头文库上搜索。

1、 光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/大数据框架大数据框架 HadoopHadoop 主要模块介绍主要模块介绍_ _光环大数据培训光环大数据培训hadoop Common: 包括 Hadoop 常用的工具类,由原来的 Hadoop core 部 分更名而来。主要包括系统配置工具 Configuration、远程过程调用 RPC、序列 化机制和 Hadoop 抽象文件系统 FileSystem 等。它们为在通用硬件上搭建云计 算环境提供基本的服务,并为运行在该平台上的软件开发提供了所需的 API。Hadoop Distribu

2、ted File System (HDFS): 分布式文件系统,提供对应 用程序数据的高吞吐量,高伸缩性,高容错性的访问。是 Hadoop 体系中数据存 储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低 成本的通用硬件上运行。HDFS 简化了文件的一致性模型,通过流式数据访问, 提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。大数据Hadoop YARN: 任务调度和集群资源管理。Hadoop MapReduce: 基于 YARN 的大型数据集并行处理系统。是一种计算模 型,用以进行大数据量的计算。Hadoop 的 MapReduce 实现,和 Common

3、、HDFS 一起,构成了 Hadoop 发展初期的三个组件。MapReduce 将应用划分为 Map 和 Reduce 两个步骤,其中 Map 对数据集上的独立元素进行指定的操作,生成键- 值对形式中间结果。Reduce 则对中间结果中相同“键”的所有“值”进行规约, 以得到最终结果。MapReduce 这样的功能划分,非常适合在大量计算机组成的 分布式并行环境里进行数据处理。其他模块:光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/Ambari: 是一种基于 Web 的工具,支持 Apache Hadoop 集群的供应、管理 和监控。

4、Ambari 目前已支持大多数 Hadoop 组件,包括 HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop 和 Hcatalog 等。 Ambari 支持 HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop 和 Hcatalog 等的集中管理。Ambari 还提供了一个用于查看集群健康状况的仪表板, 例如散热图,以及可视化查看 MapReduce,Pig 和 Hive 应用程序以及以用户友 好的方式诊断其性能特征的功能。也是 5 个顶级 hadoop 管理工具之一。Avro: 数据序列化系统,由 Doug Cutt

5、ing 牵头开发,是一个数据序列化系 统。类似于其他序列化机制,Avro 可以将数据结构或者对象转换成便于存储和 传输的格式,其设计目标是用于支持数据密集型应用,适合大规模数据的存储 与交换。Avro 提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存 储持久性数据的文件集、远程调用 RPC 和简单动态语言集成等功能。Cassandra: 可扩展的多主数据库,没有单点故障。是一套开源分布式 NoSQL 数据库系统。它最初由 Facebook 开发,用于储存收件箱等简单格式数据, 集 GoogleBigTable 的数据模型与 Amazon Dynamo 的完全分布式的架构于一身 Face

6、book 于 2008 将 Cassandra 开源,此后,由于 Cassandra 良好的可扩展性, 被 Digg、Twitter 等知名 Web 2.0 网站所采纳,成为了一种流行的分布式结构 化数据存储方案。Cassandra 是一个混合型的非关系的数据库,类似于 Google 的 BigTable。 其主要功能比 Dynamo (分布式的 Key-Value 存储系统)更丰富,但支持度却不 如文档存储 MongoDB(介于关系数据库和非关系数据库之间的开源产品,是非关 系数据库当中功能最丰富,最像关系数据库的。支持的数据结构非常松散,是 类似 json 的 bjson 格式,因此可以存

7、储比较复杂的数据类型)。Cassandra 最 初由 Facebook 开发,后转变成了开源项目。它是一个网络社交云计算方面理想 的数据库。以 Amazon 专有的完全分布式的 Dynamo 为基础,结合了 Google BigTable 基于列族(Column Family)的数据模型。P2P 去中心化的存储。很多方 面都可以称之为 Dynamo 2.0。Chukwa: 用于管理大型分布式系统的数据收集系统(2000+以上的节点, 系 统每天产生的监控数据量在 T 级别)。它构建在 Hadoop 的 HDFS 和 MapReduce 基 础之上,继承了 Hadoop 的可伸缩性和鲁棒性。Ch

8、ukwa 包含一个强大和灵活的光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/工具集,提供了数据的生成、收集、排序、去重、分析和展示等一系列功能, 是 Hadoop 使用者、集群运营人员和管理人员的必备工具。Hbase: 是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的 Google 论文“Bigtable:一个结构化数据的分布式存储系统”。就像 Bigtable 利用了 Google 文件系统(File System)所提供的分布式数据存储一样, HBase 在 Hadoop 之上提供了类似于 Bigta

9、ble 的能力。HBase 是 Apache 的 Hadoop 项目的子项目。HBase 不同于一般的关系数据库,它是一个适合于非结 构化数据存储的数据库。另一个不同的是 HBase 基于列的而不是基于行的模式。HBase 是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向 列的动态模式数据库。和传统关系数据库不同,HBase 采用了 BigTable 的数据 模型:增强的稀疏排序映射表(Key/Value),其中,键由行关键字、列关键字和 时间戳构成。HBase 提供了对大规模数据的随机、实时读写访问,同时,HBase 中保存的数据可以使用 MapReduce 来处理,它将数据存储和

10、并行计算完美地结 合在一起。Hive: 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射 为一张数据库表,并提供简单的 sql 查询功能,可以将 sql 语句转换为 MapReduce 任务进行运行。 其优点是学习成本低,可以通过类 SQL 语句快速实 现简单的 MapReduce 统计,不必开发专门的 MapReduce 应用,十分适合数据仓 库的统计分析。Hive 是 Hadoop 中的一个重要子项目,最早由 Facebook 设计,是建立在 Hadoop 基础上的数据仓库架构,它为数据仓库的管理提供了许多功能,包括: 数据 ETL(抽取、转换和加载)工具、数据存储管理

11、和大型数据集的查询和分析 能力。Hive 提供的是一种结构化数据的机制,定义了类似于传统关系数据库中 的类 SQL 语言:Hive QL,通过该查询语言,数据分析人员可以很方便地运行数 据分析业务。Mahout: Apache 旗下的一个开源项目,提供一些可扩展的机器学习领域经 典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。M

12、ahout 起源于 2008 年,最初是 Apache Lucent 的子项目,它在极短的时 间内取得了长足的发展,现在是 Apache 的顶级项目。Mahout 的主要目标是创 建一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快 捷地创建智能应用程序。Mahout 现在已经包含了聚类、分类、推荐引擎(协同 过滤)和频繁集挖掘等广泛使用的数据挖掘方法。除了算法,Mahout 还包含数 据的输入/输出工具、与其他存储系统(如数据库、MongoDB 或 Cassandra)集成 等数据挖掘支持架构。Pig: 运行在 Hadoop 上,是对大型数据集进行分析和评估的平台。它简化 了

13、使用 Hadoop 进行数据分析的要求,提供了一个高层次的、面向领域的抽象语 言:Pig Latin。通过 Pig Latin,数据工程师可以将复杂且相互关联的数据分 析任务编码为 Pig 操作上的数据流脚本,通过将该脚本转换为 MapReduce 任务 链,在 Hadoop 上执行。和 Hive 一样,Pig 降低了对大型数据集进行分析和评 估的门槛。Apache Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平 台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询, Pig 可以简化 Hadoop 的使用。用 MapReduce 进行数

14、据分析。当业务比较复杂的时候,使用 MapReduce 将 会是一个很复杂的事情,比如你需要对数据进行很多预处理或转换,以便能够 适应 MapReduce 的处理模式。另一方面,编写 MapReduce 程序,发布及运行作 业都将是一个比较耗时的事情。Pig 的出现很好的弥补了这一不足。Pig 能够让 你专心于数据及业务本身,而不是纠结于数据的格式转换以及 MapReduce 程序 的编写。本质是上来说,当你使用 Pig 进行处理时,Pig 本身会在后台生成一 系列的 MapReduce 操作来执行任务,但是这个过程对用户来说是透明的。Spark: Hadoop 数据快速通用的计算引擎。 Sp

15、ark 提供了一个简单的编程 模型,支持各种应用,包括 ETL,机器学习,流处理和图形计算。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 是 UC Berkeley AMP lab (加州大学伯克利分校的 AMP 实验室)所开 源的类 Hadoop MapReduce 的通用并行框架,Spark,拥有 Hadoop MapReduce 所 具有的优点;但不同于 MapReduce 的是 Job 中间输出结果可以保存在内存中,从 而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要 迭代的 MapReduce 的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在 一些不同之处,这些有用的不同之处使 Sp

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > IT计算机/网络 > 数据挖掘与识别

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号