DI产品白皮书－金锄头文库

资源描述

《DI产品白皮书》由会员分享，可在线阅读，更多相关《DI产品白皮书（35页珍藏版）》请在金锄头文库上搜索。

1、普元信息技术股份有限公司 1 Primeton DITM 高性能易管控的数据集成平台高性能易管控的数据集成平台 Primeton DITM产品白皮书普元信息技术股份有限公司 2 目录目录 1 Primeton DITM产品定位描述 4 2 Primeton DITM产品概述 5 3 Primeton DITM产品客户价值 6 4 Primeton DITM产品关键特性 7 4 1 数据集成平台部署结构 7 4 2 增量数据抽取模式 7 4 3 两种数据处理模型同步异步 9 4 3 1 同步数据处理模型 9 4 3 2 异步数据处理模型 9 4 3 3 两种体系架构的比较 10 4 3

2、 4 两种体系架构所适应的环境 11 4 4 业务模型调度 11 4 5 作业监控 14 4 5 1 对资源的重点监控 15 4 6 企业级的负载均衡 HA 能力 16 4 7 功能和资源权限管理 17 5 Primeton DITM产品的特点和优势 18 6 Primeton DITM产品组成及功能概述 21 6 1 DI Server 21 6 2 DI Component Library 22 6 3 DI Studio 23 6 4 DI Governor 24 6 5 DI Metadata Warehouse 24 7 Primeton DITM产品环境配置 25 7 1 支持的操

3、作系统 25 7 1 1 Primeton DI Studio 数据集成建模工具支持的操作系统 25 普元信息技术股份有限公司 3 7 1 2 Primeton DI Server 数据集成引擎支持的操作系统 25 7 1 3 Primeton DI Governor 数据集成治理环境支持的操作系统 25 7 2 支持的 JavaEE 服务器 25 7 3 支持的数据库 26 7 4 支持的浏览器 26 7 5 支持的 JDK 版本 26 7 5 1 开发环境支持的 JDK 26 7 5 2 运行环境支持的 JDK 26 8 典型案例 27 8 1 诸暨市智慧安居工程数据交换平台建设 2

4、7 8 1 1 客户简介 27 8 1 2 背景与问题 27 8 1 3 产品与方案 27 8 1 4 实施效果 29 8 2 上海银行 CRM 系统 30 8 2 1 上海银行简介 30 8 2 2 背景与问题 30 8 2 3 产品与方案 30 8 2 4 实施效果 31 9 联系我们 32 10 关于普元 34 普元信息技术股份有限公司 4 1 Primeton DITM产品定位描述产品定位描述企业大量的 IT 投资建立了众多的信息系统但是随着信息系统的增加各自孤立工作的信息系统将会造成大量的冗余数据和业务人员的重复劳动企业急需通过建立底层数据集成平台来联系横贯整个企业的异构

5、系统应用数据源等完成在企业内部的 ERP CRM SCM 数据库数据仓库以及其它重要的内部系统之间无缝的共享和交换数据在实施数据集成的过程中不同的数据内容数据格式和数据质量千差万别有时甚至会遇到数据格式不能转换或数据转换格式后丢失信息等棘手问题严重阻碍了数据在各部门和各应用系统中的流动与共享因此对企业内各异构系统底层数据进行有效的整合已成为增强企业商业竞争力的必然选择 Primeton DITM产品定位于企业数据集成通过 DI 实现异构数据源的 ETL 操作于此同时 Primeton DITM产品更可以完成对数据集成过程中的模型进行管控处理过程中的数据监控

6、以及模型作业自动化等工作普元信息技术股份有限公司 5 2 Primeton DITM产品概述产品概述 Primeton DITM是一个高性能易管控的数据集成平台通过 Primeton DITM可以完成对各种类型数据的访问过滤清洗转换加载等 ETL 过程通过 Primeton DITM实现不同模式如基于触发器基于时间戳基于全文比对基于日志的数据同步最终实现异构数据的有机整合在数据集成的过程中借助 Primeton DITM其强大的模型管控能力在实施过程中进行开发过程的规范化代码自动化代码和质量可控化调度管理统一化和监控可视化普元信息技术股份有限

7、公司 6 3 Primeton DITM产品客户价值产品客户价值 Primeton DITM产品带给客户的价值主要来自三个方面无需编码快速的数据集成模型以及 ETL 处理开发快速通过模型设计器或者作业自动化生成工具实现数据处理模型完成数据库半结构化非结构化数据之间的 ETL 工作大大节约了开发周期以及开发难度强大的作业调度以及管控能力使得数据处理更加业务化可视化使得企业的信息化部门可以更加方便全面地了解数据处理模型的运行情况有助于迅速定位和排除故障更重要的是为及时主动的采取业务优化措施提供了可能性组件模型持续积累能力可高效的开发积累和复用已经设计好的数据

8、处理模型通过元数据仓库对模型信息进行有效管理持续性的降低了开发成本管理成本以及人员流失成本普元信息技术股份有限公司 7 4 Primeton DITM产品关键特性产品关键特性 4 1 数据集成平台部署结构数据集成平台部署结构数据集成平台中 DI Server 可搭建集群进行部署各自运行在独立的 JVM 上各自之间通过基于 HTTP 的心跳信号进行信息交互 DI Metadata Warehouse 可采用文件形式进行存储也可引入关系型数据库存储元数据可部署在独立的服务器上多个 DI Server 共用一个元数据仓库 DI Studio 安装在技术开发人员工作机上用于

9、开发数据处理模型开发出的数据处理模型可通过 Governor 进行部署管理执行监控等操作 4 2 增量数据抽取模式增量数据抽取模式增量数据抽取的核心问题是通过什么办法可以找出上次数据处理完成之后变化的数据普元数据集成产品 Primeton DITM 提供了以下几种方式可以找出这种数据变化基于触发器的增量数据抽取基于触发器的增量数据抽取在这种方式下需要在业务数据库中针对增删改三种操作建立触发器并由触发器将变化的数据写入临时表中最后由 DI 从临时表中读取数据实现增量数据抽取优点借助数据库本身的机制可靠性强普元信息技术股份有限公司 8 缺点对源系统有影响需要

10、建立触发器以及临时表或临时数据存储文件基于日志文件的增量数据抽取基于日志文件的增量数据抽取这种方式是使用数据库本身的日志系统由 DI 读取并解析数据库的日志文件然后在目标数据库中进行相应操作优点可靠性强对源系统没有影响缺点各数据库系统的日志文件绝大部分都是私有的例如 Oracle 数据库的日志文件只有 Oracle 本身的 ETL 工具才可以读取基于时间戳的增量数据抽取基于时间戳的增量数据抽取使用这种方式进行增量数据抽取的前提是源数据库与目标数据库都必须有时间戳字段 DI 先读取目标数据库中的最大时间然后以这个时间作为参数从源数据库中读取大于这个时间的所有数据

11、优点处理速度快数据处理逻辑相对简单缺点源数据库没有时间戳字段的表需要更改表结构而且需要源数据库来维护时间戳字段无法实现数据同步因为使用时间戳字段无法获取删除后的数据下图使用 DI 实现基于时间戳的增量数据抽取 1 上图黄色连接线表示将上一组件获取的数据作为参数传给下一组件 2 插入更新源数据库以目标数据库最大时间作为参数进行数据查询得到的数据有些是新增的有些是修改的插入更新组件根据主键字段进行逻辑判断如果目标数据库存在这一主键所描述的数据行那么这条数据就进行更新操作如果没有就进行新增操作基于全文比对的增量数据抽取基于全文比对的增量数据抽取通过 ETL

12、引擎获取某一时刻源数据库与目标数据库的数据快照然后逐一进行对比找出新增删除修改的数据后进行相应操作优点对源系统没有任何影响普元信息技术股份有限公司 9 缺点面对海量数据千万级万万级进行比对时有一定的性能问题备注全文比对的核心算法是将每条数据的每一列进行逐一比对很显然这种频繁的 I O 操作以及复杂的比对运算会造成较大的性能开销在实际的应用过程中可以事先对数据进行预处理将每一条数据生成一个唯一的 HASH 值然后由 DI 对这个 HASH 值进行比对找出变化的数据这样既减少了 I 0 操作又提高了计算效率下图使用 DI 实现基于全文比对的增量数据抽

13、取上图实现了人力资源管理系统与财务系统间的数据同步 DI 处理逻辑首先获取两个系统的数据快照根据比对记录组件对数据进行逐一比对并产生状态字段存储比对的结果最后由过滤记录组件根据状态字段将数据划分类型并交给相应组件对目标数据库进行操作 4 3 两种数据处理模型同步异步两种数据处理模型同步异步 4 3 1 同步数据处理模型同步数据处理模型在同步数据处理过程中没有中间步骤过渡 Primeton DITM真正的充当的数据源到目标数据库之间集数据传输数据处理的桥梁 4 3 2 异步数据处理模型异步数据处理模型异步 ETL 流程的架构需要在数据源与目标数据库两个端点部署两

14、个 DI 引擎搭建一个集普元信息技术股份有限公司 10 群环境数据源端的 DI 引擎负责从数据源中抽取数据然后写到文本文件中目标数据库端的 DI 引擎根据文本文件的内容将数据加载到目标数据库中中间通过网络互联目前 Primeton DITM支持 FTP JMS P2P Socket 等多种传输方式 4 3 3 两种体系架构的比较两种体系架构的比较类别异步数据处理同步数据处理性能比同步模式提供了更好的数据处理性能因为在网络传输过程中通过 FTP P2P 这种传输方式要比直接通过数据库链接要快很多要避免出现性能瓶颈的解决方法是尽量缩小数据抽取的时间粒度比如将

15、抽取周期定位每日抽取这样可以保证每次抽取的增量数据是相对较少的这样可以降低 ETL 处理的压力灵活性数据处理包括两个步骤 1 将数据库中的数据导出到中间过渡的文本 2 装载数据文件导出的处理过程比较灵活可以从源表中导出也可以从相关视图中导出甚至也可以先将源表输出到前置机然后再导出到文本文件在数据处理过程中一次性的完成数据导出和装载的工作这样简化了设计和测试的过程但是从另一方面也降低了灵活性适应性通过中间的过渡文件进行数据交换数据源和目标数据仓库之间没有直接的联系所以只要文本文件的数据结构不发生变化源和目标的数据结构即使改变也不会对 ET

16、L 流程产生很大的影响在数据处理过程中数据源和目标数据仓库的字段关系被绑定到具体的映射 Mapping 中当源或者目标的数据结构发生变化相对应的映射关系也要做出修改开发效率在异步 ETL 处理模式中因为数据源和目标数据仓库的数据接口是分开的所以只要定义好中间的文本文件数据接口就可以将开发任务独立成两个模块分别完成源数据抽取与目标数据仓库装载的开发工作各自模块完成之后再将其装配这样可以大大提高开发效率要求 ETL 开发人员不仅需要全面了解源数据的体系结构而且对目标数据仓库的数据结构也要非常熟悉这对开发人员自身的素质有很高的要求数据类型支持如果数据源中包含图形数据需要将其导出成字节流 Byte Stream ASCII OR Unicode 并写入文本文件中实现起来有从源到目标可以直接映射不需要使用 ASCII 或 Unicode 作为中间过渡普元信息技术股份有限公司 11 类别异步数据处理同步数据处理一定的难度 4 3 4 两种体系架构所适应的环境两种体系架构所适应的环境条件异步 ETL 同步 ETL 数据传输

展开阅读全文