开源ETL系统研究与设计实现

上传人:笛音 文档编号:31004620 上传时间:2018-02-03 格式:DOC 页数:66 大小:1.87MB
返回 下载 相关 举报
开源ETL系统研究与设计实现_第1页
第1页 / 共66页
开源ETL系统研究与设计实现_第2页
第2页 / 共66页
开源ETL系统研究与设计实现_第3页
第3页 / 共66页
开源ETL系统研究与设计实现_第4页
第4页 / 共66页
开源ETL系统研究与设计实现_第5页
第5页 / 共66页
点击查看更多>>
资源描述

《开源ETL系统研究与设计实现》由会员分享,可在线阅读,更多相关《开源ETL系统研究与设计实现(66页珍藏版)》请在金锄头文库上搜索。

1、分类培 _ 密级_UDC 学拉代 ffj 10500硕士学位论文题目:开源 ETL 系统研究与设计实现英目:Open Source ETL System Research and Design Realization学位申请人姓名:张 强 申请学位学科专 Jt:电力电子与电力传动 指导教师姓名:张洪涛教授二 00 七年五月湖北工业大学领士学位论文摘 要任何公司都有很多宝贵数据,它们需要在网络上从一个地方传送到其他地方, 这就需要对软件的数据格式进行必要的处理,如从一个商务软件格式到另一种格 式或数据仓库,然后进行分析。现在的问题是,各种数据处于异质系统例如, 由各种CRM(客户关系,C ust

2、omer Relationship Management)系统产生的数据,可 能用不同方式定义一个客户,但需要一个系统平台来统一确定其在后端会计系统 是同一客户为了解决这个问题,利用萃取、改造和装载( ETL, Extract, Transform and Load)软件,即阅读资料、统一格式、清洁源数据,并写入它的目标开发存储 库。从多个异构数据源获取业务数据,进行数据清洗和转换后,存储到数据仓库的 过程,称为 ETL 过程。提取可以通过 Java 的数据库提取连接技术实现,也可以通 过微软公司的并放数据库互连技术获取。经过提取、数据转换或修改、依靠所涉 及的具体业务逻辑,以便它能够被送到目

3、标存储库.有多种方式进行改造,涉及的 作业各有不同。数据可能仅仅需要重新格式化,但大多数的 ETL 也涉及清洗作业, 以消除备份和执行数据一致性。E TL 软件的部分功能是用于检查个别数据域,并且 运用规则不断转换源数据到目标存储库和用程序所要求的格式。另外,E TL 过程 可以涉及的领域如下:标准化域名和地址域、核实电话号码或其他领域、扩展带 有附加字段的记录,其中附加字段包括人口统计数据或来自其它系统的数据。本文以项目踏蓝( TOS,T alend Open Studio)为支撑,主要研究 ETL 理论及其 改进,并就踏蓝项目需求进行 ETL 系统构架设计,最后测试并达到预期。开源 ETL

4、 系统解决方案对于企业决策过程整合,(T OS)踏蓝的解决方案是收集、处理和合并 公司内部的各种各样不同系统内的数据,并且将他们传输至中央数据库(数据中 心)。这样,数据能够很容易被访问;有效地被处理,以便更深层次的分析和报 告:或者被再次输入其它运用处理程序。E TLK 于决策过程的中心允许公 司能够根据其需要,清除、标准化以及转化他们的数据。关键词:踏蓝(TOS) , ETL (萃取、改造和装载),数据存储库,AbstractConanies know they have valuable data lying around throughout their networks that n

5、eeds to be moved from one place to anothersuch as from one business application to another or to a data warehouse for analysis. The only problem is that the all sorts of heterogeneous 湖北工业大学领士学位论文systems, and therefore in aSl sorts of formats. For CRM system may define a customer in one way,while a

6、back-end accounting system may define the same customer differently. To solve the problem, i use cxtract, transform and load (ETL) software, which includes reading data cleaning it up and formacdng it imifomily, and then writing it to the target repository to be exploited.The process is from all sor

7、ts of heterogeneous data source extract business data, transform and cleanse load to data warehouse. This process is called ETL (Extraction, Transformation and Load). Extractipn can be done via Java Database Connectivity, Microsoft Coip.s Open Database Connectivity technology,proprictaiy codc or by

8、creating flat files. After extraction, the data is transfonncd, or modified, depending on the specific business logic involved so ttiat it can be sent to the target repository. There are a variety of ways to perform the transformation, and the work involved varies. The data may require reformatting

9、only, but most ETL operations also involve cleansing flic duplicates and enforce consistency. Part of what the software does individual data fields and applies rules to consistently convert the contents to the form required by the taiet repository or application. In addition,the ETL process could in

10、volve standardizing name and address fields, verifying telephone numbers or expanding records with additional fields containing demographic information or data from other systems.This paper mainly discuses the Open Source ETL Solution-Talend Open Studio. It contains ETL theoretical research and impr

11、ovement, and riding on the Talend project needs ETL system architecture design,final testing and is expected to achieve. Talends flagship product, (TOS) Talend Open Studio, is the most open, innovative and powerful data integration solution on the market today.Provided as a packaged, out-of-the-box,

12、 ready-to-install platform, it is reaitily usable by organizations of all sizes, regardless of their level of expertise.Talend Open Studio consistently delivers robust performance to run complex integration processes even in the most demanding environments.Keywords: TOS (Talend Open Studio), ETL (Ex

13、tract, ,Data Integration, Metadata学往论文原创性声明和使用援枚说明原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工 作所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个 人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体, 均已在文中以明确方式标明。本声明的法律结果由本人承担。学位论文作者签名:曰期:年丧/ b学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有 权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和 借阅。本人授权湖北工业大学可

14、以将本学位论文的全部或部分内容编入有关数据 库进行检索,可以釆用影印、缩印或扫描等复制手段保存和汇编本学位论文。学位论文作者签名:指导教师签名:m B 期:e 年/月尸曰T湖北工业大学领士学位论文第 1 章引言1.1 ETL 现状BI 运作所依靠的信息系统是一个由传统系统、不兼容数据源、数据库与应用 所共同构成的复杂数据集合,各个部分之间不能彼此交流(文献 “3。从这个层面 看,目前运行的应用系统是企业在花费了很大精力和财力构建的、不可替代的系 统尤其是系统的数据。而新建的 BI 系统目的就是要通过数据分析来辅助自己决 策,恰恰这些数据的来源、格式不一样,导致了系统实施、数据整合的难度。此 时

15、,企业非常希望有一个全面的解决方案来解脱自己的困境,解决数据一致性与 集成化问题,从而能够从所有传统环境与平台中采集数据,并利用一个单一解决 方案对其进行高效的转换。这个解决方案就是 ETUfotract, Transform and Load).通常情况下,企业的数据源分布在各个子系统和节点中,利用 ETL 将各地方 业务系统上的数据,通过自动化 FTP 或手动控制传到 UNIX 或 NT 服务器上进行数 据获取、转化处理,然后存储到数据仓库。因为现有业务数据源多,保证数据的 一致性,真正理解数据的业务含义,跨越多平台、多系统整合数据,并最大可能 地提高数据的质量,迎合业务需求不断变化的特性

16、,这是 ETL 技术的关键所在。 可以肯定的是,E TL 贯穿整个 BI 解决方案的全过程,完成整个系统的数据处理与数据获取主要是针对各个业务系统及不同网点的分散数据,充分理解数据定 义后,规划需要的数据源及数据定义,并进一步通过这些数据源获取希望的数据。 确定如何获取或査询源数据并非易事,因为它往往存储在多个地方,可能是 个RDMS、 一个文本文件、一个 Excel 文件、一个 DBF 文件或其他类型文件。例 如:在移动的经营分析系统中,数据抽取的数据源是 BOSS 系统、O A 系统等,而为 了保证生产系统稳定地运行,E TL 所抽取的数据就变成了对数据文件的处理。 数据传输数据传输是通过网络负责把远程的数据文件传输到本地目录下。在实施中, 它的步骤包括:初始化参数表,如间隔时间、远程数据文件的存放位置、本地数 据文件传路径,并连接到远程主机上;取远程数据文件列表,将其取至本地;根 据远程数据文件列表,生成取数据文件的脚本,运行此脚本;完成取数据操作后,生成取回数据的列表

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号