东方通ETL工具软件TI-ETLv2产品白皮书介绍

上传人:汽*** 文档编号:488423089 上传时间:2023-05-13 格式:DOCX 页数:17 大小:464.69KB
返回 下载 相关 举报
东方通ETL工具软件TI-ETLv2产品白皮书介绍_第1页
第1页 / 共17页
东方通ETL工具软件TI-ETLv2产品白皮书介绍_第2页
第2页 / 共17页
东方通ETL工具软件TI-ETLv2产品白皮书介绍_第3页
第3页 / 共17页
东方通ETL工具软件TI-ETLv2产品白皮书介绍_第4页
第4页 / 共17页
东方通ETL工具软件TI-ETLv2产品白皮书介绍_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《东方通ETL工具软件TI-ETLv2产品白皮书介绍》由会员分享,可在线阅读,更多相关《东方通ETL工具软件TI-ETLv2产品白皮书介绍(17页珍藏版)》请在金锄头文库上搜索。

1、TONOTKCH 0(,LTD.TI-ETL v2产品白皮书TongTechTI-ETLv2产品白皮书北京东方通科技公司2015年fONOTKCH CO.P LTD.TI-ETL v2产品白皮书目录1前言12为什么要用ETL12.1 业务需求12.2 IT需求22.3 IT与业务一致性要求23TI-ETLv2简介33.1 产品组成结构33.1.1 集成开发工具43.1.2 服务器53.1.3 资源库53.1.4 统一管理平台63.2 产品结构关系73.3 转换流程和任务流程83.3.1 转换流程83.3.2 任务流程94主要功能和特点104.1 大数据适配104.2 强健的ETL引擎104.3

2、 丰富的系统适配114.4 资源统一存储114.5 丰富的处理组件114.6 多种数据抽取模式114.7 图形化操作/调试/预览能力114.8 高效数据处理124.9 异常恢复和数据一致性124.10 强大的监控管理功能124.11 插件式组件管理和可扩展性124.12 国产环境支持135成功案例13TI-ETL v2产品白皮书、24.1刖百随着IT应用建设的发展,数据成为了最重要的资源,无论是接地气的业务系统、应用软件、数据中心或是高大上的云/物/移/大/智,均是以数据资源为核心,依托发挥数据价值而存在和发展。目前,虽然各行业IT发展成熟度不一致,但基本已经度过了大批量业务系统建设阶段,业务

3、系统也经过了几年的运转,积累了不同量级的数据资源。但因早起IT业务系统的很少跨部门、跨单位、跨层级的统一规划和建设,导致业务系统处于分散、独立的状况,业务间数据资源不仅处于烟囱状态,数据资源的一致性和互用性较差,数据资源的价值无法充分发挥。此外,各行业自身业务也在逐渐多元化和复杂化,业务产生和所需使用的数据也就具有不确定和频繁变动性,导致一旦应用发生变化、新增系统或物理数据变动,一旦无法借助某些手段适应变化,整个应用和数据体系均有较大可能不得不随之修改。数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,通过应用间的数据有效流通和流通的管理从而达到集成,主要解决数据的分布性、

4、异构性、有效性和及时性的问题。此外,数据集成是个长期不断持续的过程,需要有易用的工具、长期可靠的运行环境、全面有效的监控管理共同支撑,而非仅通过工具可以一次性解决的。ETL是数据集成领域的落地技术,区别与传统数据交换,ETL在可完成基本数据交换(抽取、传输、装载)的前提下,对数据的转换(即数据的按需加工处理)提供更易用和更强大的支持,使数据在不同业务之间流动的同时,各业务获取到的数据确实是可有准确、及时、有效应用的。TI-ETL是从传统数据交换产品继续发展的产物,有着多年的数据集成领域产品研制的积淀,已在大交通(海/陆/空)、大政府、国防工业、企业等行业核心系统中成功应用,辅助众多行业和用户逐

5、渐发挥出了数据的价值,提升了IT支撑业务的有效性。2为什么要用ETL2.1 业务需求IT建设随业务发展,业务过程以数据贯穿,即业务有效性的基础是数据,且有效性又包含可获得性、及时性、准确性和一致性。在信息化早起,因信息系统较少、业务关系复杂度较低,对数据关注度也较低。随着各单位自身的发展,内部组织机构、多级组织机构建设愈发全fONOTKCHCO.PLTD.面,业务关系也愈发复杂,各内部组织以及跨不同单位之间均会因为业务关联产生数据有效关联、互用的需求。例如单位内人力作为人资管理的职能部门,新人入职、人员在部门间调动、人员岗位晋升等人员变动情况会影响向财务、档案、信息管理等多个部门的业务,包括工

6、资涨降、档案归档、固定资产关联等等,即人资信息发生变化时需要其它同样存储了该信息的业务部门也能够自动完成信息变更。例如部委需要从各下级委办局汇总数据,各委办局业务系统可能是分别由不同厂商建设,虽然是处理同样的业务,但业务系统存储数据的格式和方式不同。以数据项“部门名称”为例,有的业务系统存储是的汉字,也的存储的可能是数字编码,此时虽然数据都能汇总到一起,但数据却无法合并,即使汇总后也可能无法支撑业务。2.2 IT需求数据大多以数据库、文件为存储载体,数据库和文件又存在多个品牌和版本,所以业务数据往往是分散在不同品牌、版本的数据库和文件中,业务系统间能够按需的互用数据则需要通过IT手段实现对不同

7、数据源的按需适配、按需采集、按需处理、按需装载以及通过图形化界面操作定义数据间的关系和处理逻辑,实现一次定义长期有效执行,同时提供全局的可视化监控管理,能够随时掌握业务间数据交互的有效性。2.3 IT与业务一致性要求“按需”是业务诉求,对应IT则包括了采集、加工处理、装载、监控、运维、管理等技术要求,以满足业务层面对可获得性、及时性、准确性、一致性的需求,多以ETL产品和技术实现IT支撑:(1) ETL提供多种数据源适配组件,可与多种主流数据库、文件、通信协议进行对接,保障采集的全面适配,提供高可获得性。(2) ETL提供触发器、时间、CD%多种数据采集模式,可根据业务对及时性的定义以及业务数

8、据存储的现状选择不同模式,并且提供并行等高效处理机制,提供高及时性。(3) ETL提供丰富的数据加工处理组件达到100+,且可根据业务规则灵活拼接处理流程,提供高准确性和高一致性。(4) ETL提供基于Web的监控管理中心,在满足核心业务需求的同时提供易用、可视的运维、监控、管理、监视的统一管理能力。#TONOTB.CH CO. LTD.TI-ETL v2产品白皮书3TI-ETLv2简介东方通数据集成产品TI-ETL,提供对企业数据的集成处理功能。通过TI-ETL产品,用户可以从不同结构的数据源中抽取数据(Extract),对数据进行复杂的加工处理(Transform),最后将数据加载到各种存

9、储结构中(Load)。例如实现从多个异构的数据源(不同数据库、结构化文件等)抽取数据,并加工成统一的数据格式,最后加载到数据仓库中,供商业智能(BusinessIntelligent,BI)等应用使用。TI-ETL提供一个简单易用的开发、管理工具,提供覆盖从数据集成逻辑的设计、开发、调试、部署,到运行、管理、监控各个生命周期不同阶段的集成开发工具。通过TI-ETL可以实现对数据集成流程的开发和部署;通过监控和日志功能,可以实现对数据集成的运行过程进行实时监视,对集成流程历史数据进行分析。TI-ETL提供了一个强健、高效的数据处理引擎,支撑各种复杂的数据转换流程、任务调度流程的高效运行。引擎采取

10、异步并行处理的技术,实现流程中的每个组件多线程并行高效处理;支持集群部署方式,允许将转换或转换中的比较耗时的数据处理组件部署在多台服务器上并发执行,从而将转换的工作分摊到多台服务器上,从而提高TIETL的数据处理效率。TI-ETL基于Java技术和标准数据库接口(JDBCODBC?),支持部署在各种主流操作系统和国产操作系统上,支持与各种主流数据库、开源数据库、国产数据库的接入,支持对各种结构化/非结构化格式文件的读写,以及通过多种协议与其他应用系统的交互。TI-ETL提供大量的任务组件和转换组件,如多源的数据合并、数据的路由、数据行列转换、字典表查询、定时重启、循环调度、流程告警等,用户可以

11、通过拖拽方式快速完成各种复杂的数据集成需求和集成的调度控制,无需人工编码,快速构建数据集成应用。TI-ETL提供Wet式的统一管理平台,用于将分布式网络环境中部署的TI-ETL服务器运行实例及运行在TI-ETL服务内的任务流程集中统一管理监控。提供功能级和数据集的权限管理,可定义的错误告警机制,自定义面板等。同时管理平台提供丰富的管理RestAPI接口和方便的管理扩展机制,方便客户集成统一管理平台并扩展自己的插件集成到平台中。3.1 产品组成结构TI-ETL产品架构由集成开发工具TI-ETLStudio、TI-ETL服务器、资源库、统一管理平台四大核心部分组成,如下图所示。开It成工集发转换引

12、擎任务引整转换相件转模流程任第蛆件漏程转换管台1平统理扩展接口图:TI-ETL v2产品组成结构ETL引擎3.1.1 集成开发工具TI-ETLStudio集成开发工具是一个集开发、调试、配置、部署、执行、监控、日志、管理等功能于一体的平台。通过该平台实现从数据集成需求到实现的快速转化,并实现对整个生命周期的管理。开发/调试TI-ETLStudio提供大量的任务组件和转化组件,通过这些组件,以图形化的方式,实现数据集成流程的快速编排。TI-ETLStudio还提供了功能强大的调试预览功能,可以在开发过程中实现数据行级别的调试和预览,跟踪和观察每一行数据经过数据集成流程中每一个转化组件进行加工处理

13、的结果。通过集成开发工具开发调试完成的数据集成流程保存到资源库中统一存储管理。远程管理TI-ETLStudio通过ETL服务器的远程接口,实现对服务器的管理。包括数据集成流程的分布式部署、远程执行、对执行状态的实时监控、对执行日志进行查看和分析。TI-ETLStudio的监控管理功能可以对运行中的流程执行暂停、开始、停止、解部署等控制,同时还可以对数据处理状态进行实时监控,包括每个组件处理的记录数、过滤的记录数,并且可以得到每个组件处理数据的性能指标和整个集成流程的性能指标。#TI-ETL v2产品白皮书3.1.2 服务器TI-ETL服务器是一个TI-ETL的逻辑节点,包含对数据集成流程的执行

14、能力,并通过HTTP协议对外开放对服务器的管理接口。ETL引擎TI-ETL服务器包含两个执行引擎:任务引擎和转换引擎,分别实现对任务调度管理的任务流程和完成对实际数据抽取、加工处理、加载的转换流程的执行。在TI-ETL服务器启动时,可以检查部署在该节点上的数据集成流程,并执行配置为“自动重启动”的流程,其他非自动重启动的流程需要手工启动。在TI-ETL数据流程中,数据是以行为单位进行处理,如下图所示,TI-ETL通过两个对象描述一个数据行:数据对象和元信息对象。数据对象实际的行数据,由一个或多个数据列(字段)组成;元信息对象用于描述数据对象,包括数据对象中每个列(字段)的类型、长度、格式等。c

15、urd川叩&由战 prDpTtis piDOtrbK加三:Ma-匚正RMiRM.FivIdN监控管理接口TI-ETL服务器还提供了对运行时的监控和管理功能,这些功能通过Java、HTTPREST等多种封装形式对外开放。通过这些接口,第三方应用可以将监控管理功能集成到自己的管理控制台中进行统一监控管理,实现对TI-ETL的远程管理,如流程部署、流程控制、转换监控、日志查看等功能。认证授权TI-ETL服务器提供了完善的认证授权机制,只有通过认证和授权的用户,才可以通过监控管理接口实现对服务器的管理和监控。3.1.3 资源库TI-ETL资源库用于持久化存储TI-ETL的元数据,包括ETL服务器的配置信息、任务流程信息、转换流程信息、基础资源信息(如数据库连接)等。TONOTKCHCO9PL.TD.rTI-ETL提供基于关系型数据库和文件系统两种类型的资源库。一般文件系统资源库为本地库,在

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 营销创新

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号