Informatica Powercenter VS IBM-DataStage 主流ETL工具选型

上传人:洪易 文档编号:32579523 上传时间:2018-02-11 格式:DOCX 页数:12 大小:36.61KB
返回 下载 相关 举报
Informatica Powercenter VS IBM-DataStage 主流ETL工具选型_第1页
第1页 / 共12页
Informatica Powercenter VS IBM-DataStage 主流ETL工具选型_第2页
第2页 / 共12页
Informatica Powercenter VS IBM-DataStage 主流ETL工具选型_第3页
第3页 / 共12页
Informatica Powercenter VS IBM-DataStage 主流ETL工具选型_第4页
第4页 / 共12页
Informatica Powercenter VS IBM-DataStage 主流ETL工具选型_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《Informatica Powercenter VS IBM-DataStage 主流ETL工具选型》由会员分享,可在线阅读,更多相关《Informatica Powercenter VS IBM-DataStage 主流ETL工具选型(12页珍藏版)》请在金锄头文库上搜索。

1、Informatica Powercenter VS IBM-DataStage 主流 ETL 工具选型ETL(extract, transform and load)产品乍看起来似乎并不起眼,单就此项技术本身而言,几乎也没什么特别深奥之处,但是在实际项目中,却常常在这个环节耗费太多的人力,而在后续的维护工作中,更是往往让人伤透脑筋。之所以出现这种状况,恰恰与项目初期没有正确估计 ETL 工作、没有认真考虑其工具支撑有很大关系。做 ETL 产品的选型,仍然需要从以前说的四点(即成本、人员经验、案例和技术支持)来考量。在此,主要列举三种主流 ETL 产品:Ascential 公司的 Datast

2、age、Informatica公司的 Powercenter、 NCR Teradata 公司的 ETL Automation。其中,ETL Automation 相对其他两种有些特别之处,放在后面评述。旗鼓相当:Datastage 与 Powercenter就 Datastage 和 Powercenter 而言,这两者目前占据了国内市场绝大部分的份额,在成本上看水平相当,虽然市面上还有诸如 Business Objects 公司的 Data Integrator、Cognos 公司的 DecisionStream,但尚属星星之火,未成燎原之势。 谈 Datastage 和 Powercen

3、ter,如果有人说这个就是比那个好,那听者就要小心一点了。在这种情况下有两种可能:他或者是其中一个厂商的员工,或者就是在某个产品上有很多经验而在另一产品上经验缺乏的开发者。为什么得出这一结论?一个很简单的事实是,从网络上大家对它们的讨论和争执来看,基本上是各有千秋,都有着相当数量的成功案例和实施高手。确实,工具是死的,人才是活的。在两大 ETL 工具技术的比对上,可以从对 ETL 流程的支持、对元数据的支持、对数据质量的支持、维护的方便性、定制开发功能的支持等方面考虑。一个项目中,从数据源到最终目标表,多则上百个 ETL 过程,少则也有十几个。这些过程之间的依赖关系、出错控制以及恢复的流程处理

4、,都是工具需要重点考虑。在这一方面,Datastage 的早期版本对流程就缺乏考虑,而在 6 版本则加入 Job Sequence 的特性,可以将 Job、shell 脚本用流程图的方式表示出来,依赖关系、串行或是并行都可以一目了然,就直观多了。Powercenter 有 Workflow 的概念,也同样可以将 Session 串联起来,这和 Datastage Sequence 大同小异。ETL 的元数据包括数据源、目标数据的结构、转换规则以及过程的依赖关系等。在这方面,Datastage 和 Powercenter 从功能上看可谓不分伯仲,只是后者的元数据更加开放,存放在关系数据库中,可以

5、很容易被访问。此外,这两个厂家又同时提供专门的元数据管理工具,Ascential 有 Metastage,而 Informatica 拥有 Superglue。你看,就不给你全部功能,变着法子从你口袋里面多掏点钱。数据质量方面,两种产品都采用同样的策略独立出 ETL 产品之外,另外有专门的数据质量管理产品。例如和 Datastage 配套用的有 ProfileStage 和 QualityStage,而Informatica 最近也索性收购了原先 OEM 的数据质量管理产品 FirstLogic。而在它们的ETL 产品中,只是在 Job 或是 Session 前后留下接口,所谓前过程、后过程,

6、虽然不是专为数据质量预留的接口,不过至少可以利用它外挂一些数据质量控制的模块。 在具体实现上看,Datastage 通过 Job 实现一个 ETL 过程,运行时可以通过指定不同参数运行多个实例。Powercenter 通过 Mapping 表示一个 ETL 过程,运行时为Session,绑定了具体的物理数据文件或表。在修改维护上,这两个工具都是提供图形化界面。这样的好处是直观、傻瓜式的;不好的地方就是改动还是比较费事(特别是批量化的修改)。定制开发方面,两者都提供抽取、转换插件的定制,但笔者认为,Datastage 的定制开发性要比 Powercenter 要强那么一点点。因为 Datasta

7、ge 至少还内嵌一种类 BASIC语言,可以写一段批处理程序来增加灵活性,而 Powercenter 似乎还缺乏这类机制。另外从参数控制上,虽然两者的参数传递都是比较混乱的,但 Datastage 至少可以对每个job 设定参数,并且可以 job 内部引用这个参数名;而 Powercenter 显得就有些偷懒,参数放在一个参数文件中,理论上的确可以灵活控制参数,但这个灵活性需要你自己更新文件中的参数值(例如日期更新)。另外,Powercenter 还不能在 mapping 或 session中引用参数名,这一点就让人恼火。总起来看,Datastage 和 Powercenter 可谓旗鼓相当,

8、在国内也都有足够的支持能力,Datastage 在 2005 年被 IBM 收购之后,可以说后劲十足。而 Informatica 则朝着BI 全解决方案提供商方向发展,Powercenter 显然还将是它的核心产品。独树一帜:Teradata 的 ETL Automation 继续要说的第三种产品是 Teradata 的 ETL Automation。之所以拿它单独来说是因为它和前面两种产品的体系架构都不太一样。与其说它是 ETL 工具,不如说是提供了一套 ETL框架。它没有将注意力放在如何处理“转换”这个环节上,而是利用 Teradata 数据库本身的并行处理能力,用 SQL 语句来做数据转

9、换的工作,其重点是提供对 ETL 流程的支持,包括前后依赖、执行和监控等。这样的设计和 Datastage、Powercenter 风格迥异,后两者给人的印象是具有灵活的图形化界面,开发者可以傻瓜式处理 ETL 工作,它们一般都拥有非常多的 “转换”组件,例如聚集汇总、缓慢变化维的转换。而对于 Teradata 的 ETL Automation,有人说它其实应该叫做 ELT,即装载是在转换之前的。的确,如果依赖数据库的能力去处理转换,恐怕只能是 ELT,因为转换只能在数据库内部进行。从这个角度看,Automation 对数据库的依赖不小,似乎是一种不灵活的设计。也正是这个原因,考虑它的成本就不

10、单单是 ETL 产品的成本了。其实,在购买现成的工具之外,还有自己从头开发 ETL 程序的。ETL 工作看起来并不复杂,特别是在数据量小、没有什么转换逻辑的时候,自己开发似乎非常节省成本。的确,主流的 ETL 工具价格不菲,动辄几十万; 而从头开发无非就是费点人力而已,可以控制。至于性能,人大多是相信自己的,认为自己开发出来的东西知根知底,至少这些程序可以完全由自己控制。 就目前自主开发的 ETL 程序而言,有人用 c 语言编写,有人用存储过程,还有人用各种语言混杂开发,程序之间各自独立。这很危险,虽然能够让开发者过足编码的瘾,却根本不存在架构。有位银行的朋友,他们几年前上的数据仓库系统,就是

11、集成商自己用 c 语言专门为他们的项目开发的。单从性能上看似乎还不赖,然而一两年下来,项目组成员风雨飘零,早已物是人非,只有那套程序还在那里;而且,按照国内目前的软件工程惯例,程序注释和文档是不全或者是不一致的,这样的程序已经对日常业务造成很大阻碍。最近,他们已经开始考虑使用 ETL 工具重新改造了。对比项 Informatica PowerCenter IBM Datastage产品完整性对比 数据整合部分:PowerCenter,是业界公认领导者 数据质量管理:Data Quality,成熟稳定技术,在中国有大规模应用的成功案例。 实时数据捕获:PowerExchange ,业界领先实时采

12、集技术,支持广泛数据源的 CDC 和 Realtime,与PowerCenter 无缝集成。 元数据管理:Metadata Manager,是业界领先的企业级元数据管理平台,可做到字段级的元数据各项分析,有广泛的元数据采集接口,图形化无需编程,并可自动维护变更。 数据整合部分:Datastage,属于业界一类产品 数据质量管理:QualityStage,收购的技术,不是主要其主要产品组成 实时数据捕获:MQ 和DataMirror 的技术,技术复杂,与 DataStage 是不同风格产品,产品的耦合度极差。 元数据管理:MetaStage,几乎免费的产品,应用性极差,并不能管理企业级的元数据。

13、而新推出的产品与旧有产品线耦合度差,并未经过市场的考验。开发人员的使用效率 Informatica 是全图形化的开发模式,不需要编码,工具易使用,界面友好、直观。 专业的三天培训,可使开发人员快速入门,进行开发设计。 开发人员只要懂得数据库知识,即可。 Informatica 产品是以元数据为核心的,其开发过程中,所有的元数据,包括规则和过程,均是可复用,共享的。 经过简单配置即可支持大数据量的处理。 Informatica 是完全基于引擎级别的,所有功能模块化,扩展性强,维护成本低。 虽然也是图形化的界面,但复杂的转换过程,里面嵌入了很多类 Basic 脚本的成份。 要求开发人员,有编程语言

14、基础。 在处理大数据量,必须使用Datastage 企业版。但如果客户原先使用的 Datastage标准版,其作业的版本移植问题很大。这两个版本的工作平台、机制完全不同。作业移植,大概要有 70%左右需要重新开发定义。 Datastage 是基于脚本级的,底层基于 PICK BASIC和 COBOL(Main Frame上)内核开发,要求不同的平台需要不同的系统环境变量配置。应用需求的改变和拓展的支持 Informatica 是以元数据为核心的平台,现在完全支持 SOA 的思想,其最大特点就是完全支持松耦合可拆分成 Service 进行调用这样需求变化,其需改动的部分,其影响会很小。 开发转换

15、过程,均为共享的、可复用的。 元数据发生变化,可通过View Dependencies 功能,生成所有相关对象的报表,方便跟踪、校验,以应对需求的变化。 应用需求变化,调整作业后,直接可 需求发生变化,需调整相应的作业。如果是复杂需求,改动已有的脚本,其维护成本相对比较高。 每次作业变化调整,均需重新编译,才可执行。 Datastage 企业版与Datastage 标准版,其作业的版本移植问题很大。这两个版本的工作平台、机制完全不同。作业移植,大概要有 70%左右需要以运行,不需要重新编译。 作业移植等,也不需要重新编译。与平台和数据库无关。 支持跨操作系统的集群技术,可方便的进行平台级的扩展

16、。重新开发定义。一旦新的需求,需要企业版,其移植和再次开发,工作量要增加很多。 也因为两个版本的不兼容和脚本编译的开发模式,使之产品面对变化和扩展上,均有一定的限制。项目实施的支持 Informatica 结合 15 多年的数据集成领域的经验,总结出一套针对Informatica 产品实施数据仓库、数据管理等项目的最佳方法论Velocity 2008。该成熟的开发方法论,是指导客户实现快速、高质量项目实施的最佳武器。 现在全国拥有众多的名高级技术专家与顾问,与国内如大唐,联创、神州数码、东软,中软等多家知名集成商成立战略合作伙伴,Informatica 产品开发人员全国上千人规模。 Informatica 支持服务中心是有非常熟练的技术支持工程师充当的,这些工程师具备你需要的、成功的专家知识。在中国有专门的售后服务工程师。 无专业/成熟,基于产品的项目最佳开发方法论 很难找到熟

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 活动策划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号