评估面向大数据ETL功能的ApacheHadoop软件

资源描述

《评估面向大数据ETL功能的ApacheHadoop软件》由会员分享，可在线阅读，更多相关《评估面向大数据ETL功能的ApacheHadoop软件（7页珍藏版）》请在金锄头文库上搜索。

1、Yatish Goel 英特尔 IT 部门商业智能工程项目经理Nghia Ngo 英特尔 IT 部门大数据性能架构师Seshu Edala 英特尔 IT 部门大数据性能工程师要点概述近日，英特尔 IT 部门对面向大数据 ETL（提取、转换和加载）功能的 Apache Hadoop* 软件进行了评估。传统 ETL 流程包括从多个来源提取数据，与其他相关数据相结合，转换数据并进行分析，以及将数据加载至数据仓库进行后续分析。英特尔等众多企业均采用第三方 ETL 工具来执行上述流程。随着数据移动成本持续增加且数据集容量不断扩大，我们评估了是否能够通过实施英特尔数据平台 Hadoop 取代第三方

2、 ETL 工具，从而提升性能并实现成本效益。我们首先对行业资源进行广泛而深入的研究，以便了解采用 Hadoop 处理大数据 ETL 功能所带来的优势和劣势。随后，我们对一项涉及分析系统日志的真实业务案例进行了测试。我们比较了 Hadoop 和我们的第三方 ETL 工具的成本和功能优势。结果表明，面向 ETL 功能的 Hadoop 软件非常适用于处理来自、通过或者存储于 Hadoop 中的数据集。具体地说，Hadoop 在简化数据集提取和加载操作方面发挥了出色的作用。对于非 Hadoop 数据，我们不建议采用 Hadoop 软件，原因如下：开发、故障排除以及针对 Hadoop 特性的操作支持仍

3、处于发展阶段，其成熟度不如我们的第三方 ETL 工具。 Hadoop 的企业级特性（尤其是在性能、安全性和服务质量方面）尚未得到验证。评估面向大数据 ETL 功能的 Apache Hadoop* 软件白皮书 2014 年 8 月ITIntel结果表明，面向 ETL 功能的 Hadoop 软件非常适用于处理来自、通过或者存储于 Hadoop 中的数据集。2/7ITIntel 白皮书：评估面向大数据 ETL 功能的 Apache Hadoop* 软件 ETL（提取、转换和加载）。英特尔使用第三方 ETL 解决方案来处理该流程。基于以下方面的考虑，我们正在探索新的方式，以便更加经济高效地执行 ETL

4、操作：数据容量、速度、变化和种类的增加移动数据导致的成本增加集成结构化和非结构化数据带来的全新价值已经转换大量数据的现有大数据基础设施此外，采用 ELT（提取、加载和转换）取代传统 ETL 已经成为趋势。大数据是促使发生转变的主要推动力，遵照“先存储，后分析”的模型，该模型已经成为最新标准。如图 1 所示，Hadoop 在流程后期执行连接和转换，因此顺序变为 ELT（提取、加载和转换）。ELT 流程首先将数据存储于存储区域，然后确定获取价值的方式。这一重大转变对于处理流入的大型、快速和非结构化数据集十分必要，而传统 ETL 流程则会产生瓶颈。图 1. 英特尔 IT 部门对 Apach

5、e Hadoop* 软件作为执行传统 ETL（提取、转换和加载）功能的一种选择进行了评估。借助 Hadoop，ETL 转变为 ELT（提取、加载和转换），并借助 Hadoop 在流程后期处理和转换数据。企业数据仓库数据来源提取转换加载传统 ETL提取、转换和加载Hadoop数据来源提取转换加载Apache Hadoop* ELT提取、加载和转换第三方 ETL缩略词ELT 提取、加载和转换ETL 提取、转换和加载HDFS Hadoop 分布式文件系统QoS 服务质量RDBMS 关系型数据库管理系统目录1 要点概述2 背景3 评估 Hadoop 在 ETL 方面的应用行业分析案例研究建议6 后续

6、步骤7 结论3/7ITIntel 白皮书：评估面向大数据 ETL 功能的 Apache Hadoop* 软件 ELT 流程，我们实施了构建于 Apache Hadoop* 软件上的英特尔数据平台，该软件是我们大数据运营的重要组成部分。如图 2 所示，ELT 流程从多个来源提取数据，并加载至 Hadoop 内，然后进行转换和处理。将转换操作移至流程的最后阶段，便可避免使用单独的 ETL 工具。评估 Hadoop 在 ETL 方面的应用2014 年第一季度，我们对以下内容进行了简要评估：我们研究了行业刊物和案例研究，以评估 Hadoop 在处理 ETL 方面的表现，包括特性、功能和限制等。我

7、们将研究结果应用于内部使用案例，在功能、成本、开发投入和未来要求等方面，与我们的第三方 ETL 工具进行了比较。我们推荐并建议了后续的管理步骤。我们探索了是否能够采用 Hadoop 取代当前的第三方 ETL 工具，以便提获得升性能和成本优势。行业分析研究 Gartner 和 Forrester 等行业刊物后，我们发现了采用 Hadoop 处理 ETL 的若干优势和劣势。表 1 总结了我们的研究结果。图 2. 借助 Apache Hadoop* 软件，ETL （提取、转换和加载）流程转变为 ELT （提取、加载和转换）。ELT 流程提取多个来源的数据，并加载至 Hadoop 内进行转换和处理。

8、Hadoop 分布式文件系统（HDFS）Hadoop 分布式文件系统（HDFS）提取加载日志文件数据库流转换Apache Hadoop* （MapReduce*、 Pig* 和 Hive*）表 1. 面向 ETL（提取、转换和加载）功能的 Apache Hadoop* 软件的优势和劣势优势劣势快速、经济地处理来自、通过或者存储于 Hadoop 的数据可处理结构化数据和非结构化数据许多企业已经部署该解决方案来满足其他大数据需求在开源开发人员社区得到广泛支持数据在传输过程中不能执行转换未提供简单易用的 GUI 开发环境需要更多代码，因此要投入更多的时间进行开发、支持和故障排除

9、未提供企业级服务质量4/7ITIntel 白皮书：评估面向大数据 ETL 功能的 Apache Hadoop* 软件 2. 第三方 ETL（提取、转换和加载）工具和面向 ETL 功能的 Apache Hadoop* 之间的支持等级比较全面支持增强的支持有限支持不支持功能第三方 ETL 工具Hadoop* 处理 ETL提取从关系数据库管理系统（RDBMS）提取从 Hadoop 提取Hadoop 分布式文件系统* （HDFS）到信息服务HDFS 至 XMLHDFS 至 web 服务加载加载至 RDBMS 全面加载更新（Delta）加载加载至 Hadoop 或者文件全面加载更新加载转换

10、复杂类型支持简单行预测批量数据实时数据集中操作用户定义的功能行转换子表聚合窗口功能工作流控制触发/条件执行暂停/继续增量恢复/修复高级分析功能（即购即用的字符串、密码、日期和地理功能）数据质量与验证案例研究为了测试评估结果，我们对 Hadoop 和第三方 ETL 工具的性能进行了比较。我们采用包括收集和分析系统日志在内的真实英特尔使用案例，并且比较了二者在每个方面的表现：提取、加载和转换。此外，我们还研究了整体的开发环境，并且对 Hadoop 和第三方 ETL 工具的成本进行了比较。功能比较表 2 显示了部分结果，重点突出上述两种解决方案在支持水平方面的差异。概括地说，Ha

11、doop 的提取和加载功能仍处于发展阶段，并没有第三方 ETL 工具成熟。尤其是使用数据库 API 借助 Hadoop 提取和加载操作不支持大规模容量。Hadoop 与 Apache Pig* 配合使用时支持转换功能，例如记录重新格式化、分类、分组、组合、过滤、合并、拆分和整合记录集。开发人员还可以使用类似 SQL 语言的 Apache Hive* 来查询和转换数据集，虽然 Hive 主要用于数据仓库环境而不是 ETL 环境。Hive 在功能上支持与 Pig 类似的转换功能。然而，借助 Pig 或 Hive 进行 Hadoop 转换要求额外编码，开发人员也要具备相关的技能，以便提前开发相应的框

12、架。而且，复杂的转换要求开发用户定义的功能并与之集成，这些功能并不一定要内置于 Hadoop 中。开发环境与第三方 ETL 工具不同，Hadoop 未采用内置 GUI 和协作式环境。为了开发大数据 ETL，开发人员必须使用脚本创建代码，这会增加代码开发、支持和故障排除的时间。Hadoop MapReduce* 代码要求的行数是 SQL 的 2 倍至 5 倍。尽管可以选择开源 GUI 解决方案进行集成，但企业必须投入额外的资金来支持此类工具的集成。市场中有多种商业工具可供使用，但是出于成本考虑，购买和使用其他工具来取代我们的第三方工具并不可行。总而言之，Hadoop 的运营支持不如第三方 ETL

13、工具成熟。例如，开发人员必须采用系统工具执行运行时监控，以及通过人工的方式监控作业和告警；并没有简单易用的工具。调试操作不够直观，故障排除和修复错误要求具有一定的专业技术。重启和恢复流程十分繁琐，开发人员需要在代码内创建逻辑才能处理这些流程。5/7ITIntel 白皮书：评估面向大数据 ETL 功能的 Apache Hadoop* 软件无法提供企业级服务质量。Hadoop 在性能、安全性、审计、并发（写入和读取）和 SQL 合规性方面仍然处于发展阶段，不能满足企业标准。成本比较分析功能后，我们比较了这两种工具的初始成本，包括第一年和随后几年的运营成本（见图 3）。研究发现，这两种工具的初始

14、实施成本以及第一年的运营成本基本相同，Hadoop 仅比第三方 ETL 工具高出 2 个百分点。第一年后，我们预计 Hadoop 的成本将是第三方 ETL 工具的 40%。建议完成上述行业分析并探究真实使用案例后，我们建议当数据来自、通过或者存储于 Hadoop 中时，采用 Hadoop 执行 ETL 功能。例如，英特尔 IT 部门以及企业营销事业部正在使用 Hadoop 分析营销推广数据，以便能够更好地了解客户。1 此外，我们建议在以下情形中使用 Hadoop 进行简单、低成本的提取和加载操作：数据从一点移向其他点，而且在传输中无需联合和转换，无需进行近乎实时的集成。选择 Hadoop 作为

15、 ETL 平台时，必须要考虑如何处理存储于 Hadoop（在 Hadoop 分布式文件系统（HDFS）的数据；如果将数据存储于其他位置，我们就违背了 Hadoop 将计算用于数据的基本理念。传统编程将数据移至处理器中，但是 Hadoop MapReduce 的全新功能编程实现分布式数据特征，支持大规模并行处理功能。如果数据未存储于 Hadoop，计算便从存储分离，这样您就无法利用 Hadoop MapReduce 提供的处理优势。对于其他 ETL 功能，我们建议您根据具体的情况对 Hadoop 进行评估。对于以下一种或多种情形，我们不建议采用 Hadoop：第一级和企业服务质量极高的性能较高的复杂性和安全性数据质量监控和分析彻底清理数据沿袭和影响分析复杂的故障排除和调试1 参见英特尔 IT 白皮书使用大数据分析最大限度获取洞察图 3. 成本比较显示二者在第一年的实施成本基本相同，而在随后几年，预计 Hadoop 成本较第三方 ETL 工具低 40%。成本比较随后几年的运营成本第一年的成本Hadoop* 第三方 ETL 工具增加2%降低40%低 40% 在随后几年第一年后，预计运营 Hadoop 的成本将低于第三方 ETL 工具。6/7ITIntel 白皮书：评估面向大数据 ETL 功能的 Apache Hadoop* 软件w

展开阅读全文