数据共享及交换平台解决方案

上传人:cn****1 文档编号:497782026 上传时间:2022-11-29 格式:DOCX 页数:2 大小:12.06KB
返回 下载 相关 举报
数据共享及交换平台解决方案_第1页
第1页 / 共2页
数据共享及交换平台解决方案_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

《数据共享及交换平台解决方案》由会员分享,可在线阅读,更多相关《数据共享及交换平台解决方案(2页珍藏版)》请在金锄头文库上搜索。

1、数据共享与互换平台解决方案、 方案概括跟着信息社会的到来,计算机网络环境和散布办理技术的深入发展。信息系统中的数据源所体现的形式也日趋众多,在这些数据中有模式固定的构造化数据,也有无模式的无序数据。这类不论是已知确立来自数据库的数据或是来自网络上的各式各种构造不固定、不完好或不规则的数据,都给信息系统在向公民经济信息化发展的过程中产生了很大的阻碍。所以,达成不一样数据的共享与互换成为各个公司与部门进行信息互换时所一定要解决的重要问题。主要原理以下列图:、 主要工具1. 工具简介数据集成的目的就是要运用必定的技术手段将系统中的数据按必定的规则组织成为一个整体, 使得用户能有效地对其进行操作。 数

2、据办理的对象是系统中的各种异构数据库中的数据或许无格式数据, 而数据集成的主要过程则是成立完善的数据库房, 以及采纳数据发掘技术获得更多半据信息。 ETL 作为数据库级的数据集成工具, 善于大批数据的迁徙, 能从多个数据源中抽取数据, 而后进行数据变换和加载, 最后获得一致的、齐备的主题数据库或数据库房,本来分其他 应用仍独立运作。 ETL 中三个字母分别代表的是 Extract 、 Transform 、Load ,即抽取、变换、加载。数据抽取: 从源数据源系统抽取目的数据源系统需要的数据;数据变换: 将从源数据源获得的数据依据业务需求, 变换成目的数据源要求的形式, 并对错误、不一致的数据

3、进行清洗和加工。数据加载: 将变换后的数据装载到目的数据源。ETL 本来是作为建立数据库房的一个环节,负责将散布的、异构数据源中的数据如关系数据、平面数据文件等抽取到 暂时中间层后进行冲洗、变换、集成,最后加载到数据库房或数据市集中,成为联机剖析办理、数据发掘的基础。一 个简单的 ETL 系统构造以下图。2. ETL 重点技术数据抽取 数据抽取是从数据源中抽取数据的过程。实质应用中,数据源许多采纳的是关系数据库。从数据库中抽取数据一 般有以下几种方式:全量抽取:全量抽取近似于数据迁徙或数据复制,它将数据源中的表或视图的数据纹丝没动的从数据库中抽 拿出来,并变换成自己的 ETL 工具能够识其他格

4、式。增量抽取:增量抽取只抽取自上一次抽取以来数据库中要抽取的表中新增或改正的数据。在 ETL 使用过程中。 增量抽取较全量抽取应用更广。当前增量数据抽取中常用的捕捉变化数据的方法有:触发器、时间戳、全表比 对、日记对照。数据变换和加工从数据源中抽取的数据不必定完好知足目的库的要求,比如数据格式的不一致、数据输入错误、数据不完好 等等,所以有必需对抽拿出的数据进行数据变换和加工。数据的变换和加工能够在 ETL 引擎中进行,也能够在数据 抽取过程中利用关系数据库的特征同时进行。对比在ETL引擎中进行数据变换和加工,直接在SQL语句中进行变换和加工更为简单清楚,性能更高。关于SQL语句没法办理的能够

5、交由ETL引擎办理。数据装载将变换和加工后的数据装载到目的库中往常是 ETL 过程的最后步骤。装载数据的最正确方法 取决于所履行操作的种类以及需要装入多少量据。当目的库是关系数据库时,一般来说有两种装载方式: 1)直接 SQL 语句进 insert、update 、delete操作; 2 )采纳批量装载方法, 如 bcp 、行bulk 、关系数据库独有的批量装载工具或 api 。3. 主流 ETL 工具ETL 工具从厂商来看分为两 , 一种是数据库厂商自带的 ETL 工具 , 如 Oracle warehouse builder、Oracle Data种Integrator 。此外一种是第三方

6、工具供给商,如 Kettle 。Oracle Data Integrator(ODI):ODI 主要定位于在 ETL 和数据集成的场景里使用, ODI 能够检测事件,一个事件可以触发 ODI 的一个接口流程,进而达成近乎及时的数据集成。 ODI 的主要功能特色有:使用 CDC 作为更改数据捕捉的 捕捉方式、 代理支持并行办理和负载平衡、 完美的权限控制、 版本管理功能、 支持数据质量检查, 冲洗和回收脏数据、 支持与 JMS 信息中间件集成、支持 Web Service 。KETTLE:说到ETL开源项目,Kettle当属翘首,项目名称很存心思,水壶。按项目负责人Matt的说法:把各种数据放到一个壶里,而后呢,以一种你希望的格式流出。 Kettle 分为四大块: Chef 工作 (job) 设计工具 (GUI 方式 ) 、Kitchen 工作 (job) 履行器 ( 命令行方式 ) 、 Spoon 变换 (transform) 设计工具 (GUI 方式 ) 、 Span 变换 (trasform) 履行器 ( 命令行方式 )三、 数据集成工具选择1. 对平台的支持程度2. 对数据源的支持程度3. 抽取和装载的性能能否是较高,且对业务系统的性能影响大不大,倾入性高不高4. 数据变换和加工的功能强不强5. 能否拥有管理和调动功能6. 能否拥有优秀的集成性和开放性

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 建筑资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号