DI产品白皮书

上传人:ali****an 文档编号:121612370 上传时间:2020-02-24 格式:PDF 页数:35 大小:1.39MB
返回 下载 相关 举报
DI产品白皮书_第1页
第1页 / 共35页
DI产品白皮书_第2页
第2页 / 共35页
DI产品白皮书_第3页
第3页 / 共35页
DI产品白皮书_第4页
第4页 / 共35页
DI产品白皮书_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《DI产品白皮书》由会员分享,可在线阅读,更多相关《DI产品白皮书(35页珍藏版)》请在金锄头文库上搜索。

1、普元信息技术股份有限公司 1 Primeton DITM 高性能 易管控的数据集成平台高性能 易管控的数据集成平台 Primeton DITM产品白皮书 普元信息技术股份有限公司 2 目录目录 1 Primeton DITM产品定位描述 4 2 Primeton DITM产品概述 5 3 Primeton DITM产品客户价值 6 4 Primeton DITM产品关键特性 7 4 1 数据集成平台部署结构 7 4 2 增量数据抽取模式 7 4 3 两种数据处理模型 同步 异步 9 4 3 1 同步数据处理模型 9 4 3 2 异步数据处理模型 9 4 3 3 两种体系架构的比较 10 4 3

2、 4 两种体系架构所适应的环境 11 4 4 业务模型调度 11 4 5 作业监控 14 4 5 1 对资源的重点监控 15 4 6 企业级的负载均衡 HA 能力 16 4 7 功能和资源权限管理 17 5 Primeton DITM产品的特点和优势 18 6 Primeton DITM产品组成及功能概述 21 6 1 DI Server 21 6 2 DI Component Library 22 6 3 DI Studio 23 6 4 DI Governor 24 6 5 DI Metadata Warehouse 24 7 Primeton DITM产品环境配置 25 7 1 支持的操

3、作系统 25 7 1 1 Primeton DI Studio 数据集成建模工具 支持的操作系统 25 普元信息技术股份有限公司 3 7 1 2 Primeton DI Server 数据集成引擎 支持的操作系统 25 7 1 3 Primeton DI Governor 数据集成治理环境 支持的操作系统 25 7 2 支持的 JavaEE 服务器 25 7 3 支持的数据库 26 7 4 支持的浏览器 26 7 5 支持的 JDK 版本 26 7 5 1 开发环境支持的 JDK 26 7 5 2 运行环境支持的 JDK 26 8 典型案例 27 8 1 诸暨市智慧安居工程数据交换平台建设 2

4、7 8 1 1 客户简介 27 8 1 2 背景与问题 27 8 1 3 产品与方案 27 8 1 4 实施效果 29 8 2 上海银行 CRM 系统 30 8 2 1 上海银行简介 30 8 2 2 背景与问题 30 8 2 3 产品与方案 30 8 2 4 实施效果 31 9 联系我们 32 10 关于普元 34 普元信息技术股份有限公司 4 1 Primeton DITM产品定位描述产品定位描述 企业大量的 IT 投资建立了众多的信息系统 但是随着信息系统的增加 各自孤立工作的信 息系统将会造成大量的冗余数据和业务人员的重复劳动 企业急需通过建立底层数据集成平 台来联系横贯整个企业的异构

5、系统 应用 数据源等 完成在企业内部的 ERP CRM SCM 数据库 数据仓库 以及其它重要的内部系统之间无缝的共享和交换数据 在实施数据集成的过程中 不同的数据内容 数据格式和数据质量千差万别 有时甚至会遇 到数据格式不能转换或数据转换格式后丢失信息等棘手问题 严重阻碍了数据在各部门和各 应用系统中的流动与共享 因此 对企业内各异构系统底层数据进行有效的整合已成为增强 企业商业竞争力的必然选择 Primeton DITM产品定位于企业数据集成 通过 DI 实现异构数据源的 ETL 操作 于此同时 Primeton DITM产品更可以完成对数据集成过程中的模型进行管控 处理过程中的数据监控

6、以及模型作业自动化等工作 普元信息技术股份有限公司 5 2 Primeton DITM产品概述产品概述 Primeton DITM是一个高性能 易管控的数据集成平台 通过 Primeton DITM可以完成对各 种类型数据的访问 过滤 清洗 转换 加载等 ETL 过程 通过 Primeton DITM实现不同模 式 如 基于触发器 基于时间戳 基于全文比对 基于日志的数据同步 最终实现异构数 据的有机整合 在数据集成的过程中 借助 Primeton DITM其强大的模型管控能力 在实施 过程中进行开发过程的规范化 代码自动化 代码和质量可控化 调度管理统一化和监控可 视化 普元信息技术股份有限

7、公司 6 3 Primeton DITM产品客户价值产品客户价值 Primeton DITM产品带给客户的价值主要来自三个方面 无需编码 快速的数据集成模型以及 ETL 处理开发 快速通过模型设计器或者作业自动化生成工具实现数据处理模型 完成数据库 半结构 化 非结构化数据之间的 ETL 工作 大大节约了开发周期以及开发难度 强大的作业调度以及管控能力 使得数据处理更加业务化 可视化 使得企业的信息化部门可以更加方便 全面地了解 数据处理模型的运行情况 有助于迅速定位和排除故障 更重要的是为及时主动的采取 业务优化措施提供了可能性 组件模型持续积累能力 可高效的开发 积累和复用已经设计好的数据

8、处理模型 通过元数据仓库对模型信息进 行有效管理 持续性的降低了开发成本 管理成本以及人员流失成本 普元信息技术股份有限公司 7 4 Primeton DITM产品关键特性产品关键特性 4 1 数据集成平台部署结构数据集成平台部署结构 数据集成平台中 DI Server 可搭建集群进行部署 各自运行在独立的 JVM 上 各自之间通 过基于 HTTP 的心跳信号进行信息交互 DI Metadata Warehouse 可采用文件形式进行存 储 也可引入关系型数据库存储元数据 可部署在独立的服务器上 多个 DI Server 共用一 个元数据仓库 DI Studio 安装在技术开发人员工作机上用于

9、开发数据处理模型 开发出的 数据处理模型可通过 Governor 进行部署管理 执行监控等操作 4 2 增量数据抽取模式增量数据抽取模式 增量数据抽取的核心问题是 通过什么办法可以找出上次数据处理完成之后变化的数据 普元数据集成产品 Primeton DITM 提供了以下几种方式可以找出这种数据变化 基于触发器的增量数据抽取基于触发器的增量数据抽取 在这种方式下需要在业务数据库中针对增 删 改三种操作建立触发器 并由触发器将 变化的数据写入临时表中 最后由 DI 从临时表中读取数据 实现增量数据抽取 优点 借助数据库本身的机制 可靠性强 普元信息技术股份有限公司 8 缺点 对源系统有影响 需要

10、建立触发器以及临时表或临时数据存储文件 基于日志文件的增量数据抽取基于日志文件的增量数据抽取 这种方式是使用数据库本身的日志系统 由 DI 读取并解析数据库的日志文件 然后在 目标数据库中进行相应操作 优点 可靠性强 对源系统没有影响 缺点 各数据库系统的日志文件绝大部分都是私有的 例如 Oracle 数据库的日志 文件只有 Oracle 本身的 ETL 工具才可以读取 基于时间戳的增量数据抽取基于时间戳的增量数据抽取 使用这种方式进行增量数据抽取的前提是源数据库与目标数据库都必须有时间戳字段 DI 先读取目标数据库中的最大时间 然后以这个时间作为参数从源数据库中读取大于 这个时间的所有数据

11、优点 处理速度快 数据处理逻辑相对简单 缺点 源数据库没有时间戳字段的表需要更改表结构 而且需要源数据库来维护时 间戳字段 无法实现数据同步 因为使用时间戳字段无法获取删除后的数据 下图使用 DI 实现基于时间戳的增量数据抽取 1 上图黄色连接线表示将上一组件获取的数据作为参数传给下一组件 2 插入 更新 源数据库以目标数据库最大时间作为参数进行数据查询得到的数据有 些是新增的 有些是修改的 插入 更新组件根据主键字段进行逻辑判断 如果目 标数据库存在这一主键所描述的数据行 那么这条数据就进行更新操作 如果没有 就进行新增操作 基于全文比对的增量数据抽取基于全文比对的增量数据抽取 通过 ETL

12、 引擎获取某一时刻源数据库与目标数据库的数据快照 然后逐一进行对比 找出新增 删除 修改的数据后进行相应操作 优点 对源系统没有任何影响 普元信息技术股份有限公司 9 缺点 面对海量数据 千万级 万万级 进行比对时有一定的性能问题 备注 全文比对的核心算法是将每条数据的每一列进行逐一比对 很显然这种频繁的 I O 操作以及复杂的比对运算会造成较大的性能开销 在实际的应用过程中 可以事先对数 据进行预处理 将每一条数据生成一个唯一的 HASH 值 然后由 DI 对这个 HASH 值 进行比对 找出变化的数据 这样既减少了 I 0 操作又提高了计算效率 下图使用 DI 实现基于全文比对的增量数据抽

13、取 上图实现了人力资源管理系统与财务系统间的数据同步 DI 处理逻辑首先获取两个系 统的数据快照 根据比对记录组件对数据进行逐一比对 并产生状态字段存储比对的结 果 最后由过滤记录组件根据状态字段将数据划分类型并交给相应组件对目标数据库进 行操作 4 3 两种数据处理模型 同步 异步 两种数据处理模型 同步 异步 4 3 1 同步数据处理模型同步数据处理模型 在同步数据处理过程中没有中间步骤过渡 Primeton DITM真正的充当的数据源到目标数据 库之间集数据传输 数据处理的桥梁 4 3 2 异步数据处理模型异步数据处理模型 异步 ETL 流程的架构 需要在数据源与目标数据库两个端点部署两

14、个 DI 引擎 搭建一个集 普元信息技术股份有限公司 10 群环境 数据源端的 DI 引擎负责从数据源中抽取数据 然后写到文本文件中 目标数据库 端的 DI 引擎根据文本文件的内容 将数据加载到目标数据库中 中间通过网络互联 目前 Primeton DITM支持 FTP JMS P2P Socket 等多种传输方式 4 3 3 两种体系架构的比较两种体系架构的比较 类别 异步数据处理 同步数据处理 性能 比同步模式提供了更好的数据处理性能 因为在网络传输过程中 通过 FTP P2P 这种传输方式要比直接通过数据库链接要 快很多 要避免出现性能瓶颈的解决方法是尽 量缩小数据抽取的时间粒度 比如将

15、抽 取周期定位每日抽取 这样可以保证每 次抽取的增量数据是相对较少的 这样 可以降低 ETL 处理的压力 灵活性 数据处理包括两个步骤 1 将数据库中的 数据导出到中间过渡的文本 2 装载数据 文件 导出的处理过程比较灵活 可以从 源表中导出 也可以从相关视图中导出 甚至也可以先将源表输出到前置机然后再 导出到文本文件 在数据处理过程中一次性的完成数据 导出和装载的工作 这样简化了设计和 测试的过程 但是从另一方面也降低了 灵活性 适应性 通过中间的过渡文件进行数据交换 数据 源和目标数据仓库之间没有直接的联系 所以只要文本文件的数据结构不发生变 化 源和目标的数据结构即使改变也不会 对 ET

16、L 流程产生很大的影响 在数据处理过程中 数据源和目标数据 仓库的字段关系被绑定到具体的映射 Mapping 中 当源或者目标的数据 结构发生变化 相对应的映射关系也要 做出修改 开发效率 在异步 ETL 处理模式中 因为数据源和目 标数据仓库的数据接口是分开的 所以只 要定义好中间的文本文件数据接口就可以 将开发任务独立成两个模块 分别完成源 数据抽取与目标数据仓库装载的开发工 作 各自模块完成之后再将其装配 这样 可以大大提高开发效率 要求 ETL 开发人员不仅需要全面了解 源数据的体系结构 而且对目标数据仓 库的数据结构也要非常熟悉 这对开发 人员自身的素质有很高的要求 数据类型支持 如果数据源中包含图形数据 需要将其导 出成字节流 Byte Stream ASCII OR Unicode 并写入文本文件中 实现起来有 从源到目标可以直接映射 不需要使用 ASCII 或 Unicode 作为中间过渡 普元信息技术股份有限公司 11 类别 异步数据处理 同步数据处理 一定的难度 4 3 4 两种体系架构所适应的环境两种体系架构所适应的环境 条件 异步 ETL 同步 ETL 数据传输

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号