评估面向大数据ETL功能的ApacheHadoop软件

上传人:艾力 文档编号:36624515 上传时间:2018-03-31 格式:PDF 页数:7 大小:476.57KB
返回 下载 相关 举报
评估面向大数据ETL功能的ApacheHadoop软件_第1页
第1页 / 共7页
评估面向大数据ETL功能的ApacheHadoop软件_第2页
第2页 / 共7页
评估面向大数据ETL功能的ApacheHadoop软件_第3页
第3页 / 共7页
评估面向大数据ETL功能的ApacheHadoop软件_第4页
第4页 / 共7页
评估面向大数据ETL功能的ApacheHadoop软件_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《评估面向大数据ETL功能的ApacheHadoop软件》由会员分享,可在线阅读,更多相关《评估面向大数据ETL功能的ApacheHadoop软件(7页珍藏版)》请在金锄头文库上搜索。

1、Yatish Goel 英特尔 IT 部门 商业智能工程项目经理Nghia Ngo 英特尔 IT 部门 大数据性能架构师Seshu Edala 英特尔 IT 部门 大数据性能工程师要点概述近日,英特尔 IT 部门对面向大数据 ETL(提取、转换和加载)功能的 Apache Hadoop* 软件进行了评估。传统 ETL 流程包括从多个来源提取数据,与其他相关数据相结合,转换数据并进行分析,以及将数据加载至数据仓库进行后续分析。英特尔等众多企业均采用第三方 ETL 工具来执行上述流程。随着数据移动成本持续增加且数据集容量不断扩大,我们评估了是否能够通过实施英特尔 数据平台 Hadoop 取代第三方

2、 ETL 工具,从而提升性能并实现成本效益。我们首先对行业资源进行广泛而深入的研究,以便了解采用 Hadoop 处理大数据 ETL 功能所带来的优势和劣势。随后,我们对一项涉及分析系统日志的真实业务案例进行了测试。我们比较了 Hadoop 和我们的第三方 ETL 工具的成本和功能优势。结果表明,面向 ETL 功能的 Hadoop 软件非常适用于处理来自、通过或者存储于 Hadoop 中的数据集。具体地说,Hadoop 在简化数据集提取和加载操作方面发挥了出色的作用。对于非 Hadoop 数据,我们不建议采用 Hadoop 软件,原因如下: 开发、故障排除以及针对 Hadoop 特性的操作支持仍

3、处于发展阶段,其成熟度不如我们的第三方 ETL 工具。 Hadoop 的企业级特性(尤其是在性能、安全性和服务质量方面)尚未得到验证。评估面向大数据 ETL 功能的 Apache Hadoop* 软件白皮书 2014 年 8 月ITIntel结果表明,面向 ETL 功能的 Hadoop 软件非常适用于处理来自、通过或者存储于 Hadoop 中的数据集。2/7ITIntel 白皮书:评估面向大数据 ETL 功能的 Apache Hadoop* 软件 ETL(提取、转换和加载)。英特尔使用第三方 ETL 解决方案来处理该流程。基于以下方面的考虑,我们正在探索新的方式,以便更加经济高效地执行 ETL

4、 操作: 数据容量、速度、变化和种类的增加 移动数据导致的成本增加 集成结构化和非结构化数据带来的全新价值 已经转换大量数据的现有大数据基础设施此外,采用 ELT(提取、加载和转换)取代传统 ETL 已经成为趋势。大数据是促使发生转变的主要推动力,遵照“先存储,后分析”的模型,该模型已经成为最新标准。如图 1 所示,Hadoop 在流程后期执行连接和转换,因此顺序变为 ELT(提取、加载和转换)。ELT 流程首先将数据存储于存储区域,然后确定获取价值的方式。这一重大转变对于处理流入的大型、快速和非结构化数据集十分必要,而传统 ETL 流程则会产生瓶颈。图 1. 英特尔 IT 部门对 Apach

5、e Hadoop* 软件作为执行传统 ETL(提取、转换和加载)功能的一种选择进行了评估。 借助 Hadoop,ETL 转变为 ELT(提取、加载和转换),并借助 Hadoop 在流程后期处理和转换数据。企业数据仓库数据来源提取转换加载传统 ETL提取、转换和加载Hadoop数据来源提取转换加载Apache Hadoop* ELT提取、加载和转换第三方 ETL缩略词ELT 提取、加载和转换ETL 提取、转换和加载HDFS Hadoop 分布式文件系统QoS 服务质量RDBMS 关系型数据库管理系统目录1 要点概述2 背景3 评估 Hadoop 在 ETL 方面的应用行业分析案例研究建议6 后续

6、步骤7 结论3/7ITIntel 白皮书:评估面向大数据 ETL 功能的 Apache Hadoop* 软件 ELT 流程,我们实施了构建于 Apache Hadoop* 软件上的英特尔 数据平台,该软件是我们大数据运营的重要组成部分。如图 2 所示,ELT 流程从多个来源提取数据,并加载至 Hadoop 内,然后进行转换和处理。将转换操作移至流程的最后阶段,便可避免使用单独的 ETL 工具。评估 Hadoop 在 ETL 方面的应用2014 年第一季度,我们对以下内容进行了简要评估: 我们研究了行业刊物和案例研究,以评估 Hadoop 在处理 ETL 方面的表现,包括特性、功能和限制等。 我

7、们将研究结果应用于内部使用案例,在功能、成本、开发投入和未来要求等方面,与我们的第三方 ETL 工具进行了比较。 我们推荐并建议了后续的管理步骤。我们探索了是否能够采用 Hadoop 取代当前的第三方 ETL 工具,以便提获得升性能和成本优势。行业分析研究 Gartner 和 Forrester 等行业刊物后,我们发现了采用 Hadoop 处理 ETL 的若干优势和劣势。表 1 总结了我们的研究结果。图 2. 借助 Apache Hadoop* 软件,ETL (提取、转换和加载)流程转变为 ELT (提取、加载和转换)。ELT 流程提取多个来源的数据,并加载至 Hadoop 内进行转换和处理。

8、Hadoop 分布式文件系统 (HDFS)Hadoop 分布式文件系统 (HDFS)提取加载日志文件数据库流转换Apache Hadoop* (MapReduce*、 Pig* 和 Hive*)表 1. 面向 ETL(提取、转换和加载)功能的 Apache Hadoop* 软件的优势和劣势优势劣势 快速、经济地处理来自、通过或者存储于 Hadoop 的数据 可处理结构化数据和非结构化数据 许多企业已经部署该解决方案来满足其他 大数据需求 在开源开发人员社区得到广泛支持 数据在传输过程中不能执行转换 未提供简单易用的 GUI 开发环境 需要更多代码,因此要投入更多的时间 进行开发、支持和故障排除

9、 未提供企业级服务质量4/7ITIntel 白皮书:评估面向大数据 ETL 功能的 Apache Hadoop* 软件 2. 第三方 ETL(提取、转换和加载)工具和 面向 ETL 功能的 Apache Hadoop* 之间的支持等级比较全面支持 增强的支持 有限支持 不支持功能第三方 ETL 工具Hadoop* 处理 ETL提取从关系数据库管理系统 (RDBMS)提取从 Hadoop 提取Hadoop 分布式文件系统* (HDFS)到信息服务HDFS 至 XMLHDFS 至 web 服务加载加载至 RDBMS 全面加载更新(Delta)加载加载至 Hadoop 或者文件 全面加载更新加载转换

10、复杂类型支持简单行预测 批量数据 实时数据集中操作 用户定义的功能 行转换 子表聚合 窗口功能工作流控制 触发/条件执行 暂停/继续 增量恢复/修复高级分析功能(即购即用的字符 串、密码、日期和地理功能)数据质量与验证案例研究为了测试评估结果,我们对 Hadoop 和第三方 ETL 工具的性能进行了比较。我们采用包括收集和分析系统日志在内的真实英特尔使用案例,并且比较了二者在每个方面的表现:提取、加载和转换。此外,我们还研究了整体的开发环境,并且对 Hadoop 和第三方 ETL 工具的成本进行了比较。功能比较表 2 显示了部分结果,重点突出上述两种解决方案在支持水平方面的差异。概括地说,Ha

11、doop 的提取和加载功能仍处于发展阶段,并没有第三方 ETL 工具成熟。尤其是使用数据库 API 借助 Hadoop 提取和加载操作不支持大规模容量。Hadoop 与 Apache Pig* 配合使用时支持转换功能,例如记录重新格式化、分类、分组、组合、过滤、合并、拆分和整合记录集。开发人员还可以使用类似 SQL 语言的 Apache Hive* 来查询和转换数据集,虽然 Hive 主要用于数据仓库环境而不是 ETL 环境。Hive 在功能上支持与 Pig 类似的转换功能。然而,借助 Pig 或 Hive 进行 Hadoop 转换要求额外编码,开发人员也要具备相关的技能,以便提前开发相应的框

12、架。而且,复杂的转换要求开发用户定义的功能并与之集成,这些功能并不一定要内置于 Hadoop 中。开发环境与第三方 ETL 工具不同,Hadoop 未采用内置 GUI 和协作式环境。为了开发大数据 ETL,开发人员必须使用脚本创建代码,这会增加代码开发、支持和故障排除的时间。Hadoop MapReduce* 代码要求的行数是 SQL 的 2 倍至 5 倍。尽管可以选择开源 GUI 解决方案进行集成,但企业必须投入额外的资金来支持此类工具的集成。市场中有多种商业工具可供使用,但是出于成本考虑,购买和使用其他工具来取代我们的第三方工具并不可行。总而言之,Hadoop 的运营支持不如第三方 ETL

13、 工具成熟。例如,开发人员必须采用系统工具执行运行时监控,以及通过人工的方式监控作业和告警;并没有简单易用的工具。调试操作不够直观,故障排除和修复错误要求具有一定的专业技术。重启和恢复流程十分繁琐,开发人员需要在代码内创建逻辑才能处理这些流程。5/7ITIntel 白皮书:评估面向大数据 ETL 功能的 Apache Hadoop* 软件 无法提供企业级服务质量。Hadoop 在性能、安全性、审计、并发(写入和读取)和 SQL 合规性方面仍然处于发展阶段,不能满足企业标准。成本比较分析功能后,我们比较了这两种工具的初始成本,包括第一年和随后几年的运营成本(见图 3)。研究发现,这两种工具的初始

14、实施成本以及第一年的运营成本基本相同,Hadoop 仅比第三方 ETL 工具高出 2 个百分点。第一年后,我们预计 Hadoop 的成本将是第三方 ETL 工具的 40%。建议完成上述行业分析并探究真实使用案例后,我们建议当数据来自、通过或者存储于 Hadoop 中时,采用 Hadoop 执行 ETL 功能。例如,英特尔 IT 部门以及企业营销事业部正在使用 Hadoop 分析营销推广数据,以便能够更好地了解客户。1 此外,我们建议在以下情形中使用 Hadoop 进行简单、低成本的提取和加载操作:数据从一点移向其他点,而且在传输中无需联合和转换,无需进行近乎实时的集成。选择 Hadoop 作为

15、 ETL 平台时,必须要考虑如何处理存储于 Hadoop(在 Hadoop 分布式文件系统(HDFS)的数据;如果将数据存储于其他位置,我们就违背了 Hadoop 将计算用于数据的基本理念。传统编程将数据移至处理器中,但是 Hadoop MapReduce 的全新功能编程实现分布式数据特征,支持大规模并行处理功能。如果数据未存储于 Hadoop,计算便从存储分离,这样您就无法利用 Hadoop MapReduce 提供的处理优势。对于其他 ETL 功能,我们建议您根据具体的情况对 Hadoop 进行评估。对于以下一种或多种情形,我们不建议采用 Hadoop: 第一级和企业服务质量 极高的性能 较高的复杂性和安全性 数据质量监控和分析 彻底清理 数据沿袭和影响分析 复杂的故障排除和调试1 参见英特尔 IT 白皮书使用大数据分析最大限度获取洞察图 3. 成本比较显示二者在第一年的实施成本基本相同,而在随后几年,预计 Hadoop 成本较第三方 ETL 工具低 40%。成本比较随后几年的运营成本第一年的成本Hadoop* 第三方 ETL 工具增加2%降低40%低 40% 在随后几年第一年后,预计运营 Hadoop 的成本 将低于第三方 ETL 工具。6/7ITIntel 白皮书:评估面向大数据 ETL 功能的 Apache Hadoop* 软件w

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号