异构数据集成思路总结

上传人:ji****72 文档编号:37686851 上传时间:2018-04-20 格式:DOCX 页数:14 大小:630.77KB
返回 下载 相关 举报
异构数据集成思路总结_第1页
第1页 / 共14页
异构数据集成思路总结_第2页
第2页 / 共14页
异构数据集成思路总结_第3页
第3页 / 共14页
异构数据集成思路总结_第4页
第4页 / 共14页
异构数据集成思路总结_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《异构数据集成思路总结》由会员分享,可在线阅读,更多相关《异构数据集成思路总结(14页珍藏版)》请在金锄头文库上搜索。

1、基于基于 XML 的异构数据集成方案的异构数据集成方案一、设计任务一、设计任务设计出基于 XML 的异构数据集成方案,具体要求: i.数据源包括:结构化数据、非结构化数据和半结构化数据 ii.实现功能包括:能够用统一的方式实现查询等处理 iii.应用的技术为 XML 技术,实现异构数据集成二、设计应用的具体集成方法二、设计应用的具体集成方法2.1 异构数据集成方法简介:异构数据集成方法简介:异构数据集成方法包括:模式集成和数据复制方法。 1、模式集成方法中的数据仍保存在各数据源上,由集成系统提供一个虚拟的集成视图 (即全局模式)以及全局模式查询的处理机制。用户直接在全局模式的基础上提交请求,由

2、 数据集成系统处理这些请求,转换成各个数据源在本地数据视图基础上能够执行的请求。 2、数据复制方法将各个数据源的数据复制到与其相关的其它数据源上,并维护数据源 整体上的数据一致性、提高信息共享利用的效率。 3、模式集成包括:联邦数据库和中间件集成方法是现有的两种典型的模式集成方法。 4、数据复制方法:数据仓库方法。2.2 异构数据集成方案分析异构数据集成方案分析1.联邦数据库数据集成联邦数据库数据集成联邦数据库是数据库集成的最简单结构,将所有组件数据库进行一对一的连接为了实 现各个数据库和其它数据库数据之间的互操作,需要解决各个数据库之间的格式冲突问题, 就要为每一个数据库向其它数据库的数据类

3、型转换提供转换规则。这就是说这样的异构数 据库系统需要建立 N X(N 一 1)/2 个转换规则,或者说要编写 N X (N 一 1)/2 段代码来支 持两两之间的查询访问。 在联邦数据库数据集成方式中,如果要向系统中加入新的节点,就需要再建立很多转 换规则,并且为系统之间只有通过编写软件来实现互相的信息正确地传递,这样做既费时 又费工。如果各个子系统需要修改,那么会带来更多的问题,大大影响了系统的可扩展性、 移植性和稳定性。其模型示意图如下图所示:图 1 联邦数据库集成方法示意图2 中间件集成方法中间件集成方法中间件数据集成基于一个“公共数据模型” ,实质上数据仍旧保存在各个参加集成的数 据

4、源中,通过各数据源的“包装器将数据虚拟成公共数据模式,用户的查询是基于公共 数据模式基础上的,即建立基于公共数据模式的虚拟数据库集成系统。中间件将用户提交 的基于公共数据模型的查询分解、解析成针对一个或多个数据源的查询,然后将数据源的 查询结果综合处理成公共数据模型的数据,并将结果返回给用户。这种方法中向用户屏蔽 了底层数据源的差异,使得用户的查询表面上是针对单一数据源的,而实际上查询是对各 个数据源的子查询的结果综合而成的,因此也叫做虚拟视图法。中间件异构数据集成模型 示意下图所示:图 2 中间件异构数据集成模型示图3 数据仓库集成方法数据仓库集成方法数据仓库数据集成方法是建立一个数据仓库,

5、并将参加集成的各个不同的信息源的数 据的副本载入到数据仓库,合成一个全局模式,用户的访问是基于数据仓库中的数据进行 的查询等处理。数据仓库集成方法如下图所示:图 3 数据仓库集成方法示意图4 几种数据库集成的比较几种数据库集成的比较联邦数据库集成方法、中间件数据库方法和数据仓库集成方法,它们拥有各自己的特 点,具体特点如下表所示: 表 1 各类异构数据集成方法比较集成方法解决的问题优点缺点联邦数据库 系统数据源间异构 问题支持读写访问缺乏必要的标准,只适用于数 据源个数很少的数据库系统中, 对非数据库系统的数据库无能 为力。模式集成中间件系统屏蔽了系统的异 构性,使应用软 件能够在不同平 台上

6、运行1.利于复用 2.管理方便 3.易维护 4.节约成本 5.利于移植1.缺乏通用标准 2.耦合度要求高 3.对于穿越防火墙 4.模式构建和异构性解决比 较复杂数据复制数据仓库技术解决了数据分布 性问题1.访问效率高 2.网络依赖性 弱1.实时性差 2.开发周期长 3.费用昂贵 4.更新困难2.3XML 技术技术1.XML 语言语言XML 可扩充的标记语言 (Extensible Markup Language)标准是一个基于文本的 World Wide Web 协会(W3C)规范的标记语言。与 HTML 使用标签来描述外观和数据不同,XML 严 格地定义可移植的结构化数据。它能作为定义数据描

7、述语言的语言,例如标记语法或词汇、 交换格式和通讯协议。XML 己经成为开放环境下描述数据、描述信息的标准技术。 Web Services 全部的规范、技术都是以 XML 为底层核心和构架基础的,对 Web Services 而言, 无论是 SOAP、WSDL,UDDI,都是使用 XML 作为信息描述和交换的标准手段。2.XML 的特点的特点XML 是一种元标记语言,强调以数据为核心,这两大特点在的众多技术特点中最为突 出,同时也奠定了在信息管理中的优势。 XML 是一种元标记语言与 HTML 不同。XML 不是一种具体的标记语言,它没有固定的 标记符号,是一种元标记语言,是一种用来定义标记的

8、标记语言,它允许用户自己定义一 套适于应用的 DTD 或 XMLSchema。 XML 的核心是数据。在一个普通的文档里,往往混合有文档数据、文档结构、文档样 式三个要素。而对于 XML 文档来说,数据是其核心。将样式与内容分离是 XML 的巨大优 点。一方面可以使应用程序轻松的从文档中寻找并提取有用的数出蓦信息,而不会迷失在 混乱的各类标签中。另一方面,由于内容与样式的独立,也可以为同一内容套用各种样式, 使得显示方式更加丰富、快捷。 正是 XML 的特点决定了其卓越的性能表现。作为一种标记语言有以下几个主要特点:可扩展性可扩展性XML 是设计标记语言的元语言,而不是像 HTML 这样的只有

9、一个固定标记集的特定的 标记语言。XML 在两个意义上是可扩展的。首先,它允许开发者创建他们自己的 DTD 或 XMLSchema,有效地创建可被用于多种应用的“可扩展的”标志集。其次,使用几个附加 的标准,用户可以对 XML 进行扩展,这些附加标准可以向核心的 XML 功能集增加样式、 链接、和参照能力。作为一个核心标准,XML 为可能产生的别的标准提供了一个坚实的基 础。灵活性灵活性与 HTML 相比,XML 提供了一种结构化的数据表示方式,使得用户界面分离于结构化 数据。这样既可以只关心数据的逻辑结果,也可以通过样式表来格式化数据的表现,甚至 可以定义自己的个人样式表来显示各种不同的 X

10、ML 数据。自描述性自描述性XML 文档通常包含一个文档类型声明,从而 XML 文档是自描述的,不仅人能读懂 XML 文档,而且计算机也能处理。XML 文档中的数据可以被任何能够。XML 数据进行解析的应 用所提取、分析、处理,并按所需格式显示。这个特性使计算机可以在没有人为干涉的情 况下,理解数据的定义,处理数据。简明性简明性作为 SGML 的一个子集,它只有 SGML 的 20%的复杂性,但具有 SGML 约 80%的功能。 同完整的 SGML 相比,XML 简单得多,易学、易用并容易实现。此外,XML 的诞生也吸收 了人们多年来在 W 亡 b 上使用 HTML 的经验,正如 HTML 开

11、辟了一种计算机用户能浏览 Intemet 文档的途径,XML 将成为人们读和写的世界语。所有这一切使 XML 成为数据表示 的一个开放标准,这种数据表示独立于机器平台、提供商和编程语言。它将为数据交换带 来新的机遇。3 .XML 的相关技术的相关技术DTD 与与 XML SchemaXML 文档的实质就是保存数据信息的结构化载体。为了能够得到有效的 XML 文档,必 须要明确文档中的信息必须遵守哪些结构,即需要一种用来描述 XML 文档中信息结构的数 据模型。DTD 和 Schema 就是规范 XML 文档的技术。DTD(document type definition,文档类型定义,文档类型

12、定义)一个 DTD 可以看作是标记语言的语法文件,它是一套定义 XML 标记如何使用的规则。 刚开始建立 XML 时,它是 Standard Generalized Mark 即 Language(SGML)的一个应用。 SGML 通过让设计人员创建 DTD 来允许不同的系统彼此对话。只要数据符合该 DTD,每个 系统就能阅读它。然而,DTD 有着不少缺陷: 1、DTD 基本上没有数据类型的定义,尤其对数据元素的内容而言。DTD 中所有的表示 都是基于字符串,所以对于价格、数量是无法表示成数字的。在计算机与计算机之间 进行信息交换,常涉及数据格式,这就显现出 DTD 的局限性。2、DTD 只能

13、进行有限的扩展,扩展性不好。 3、DTD 中约束定义能力不足,无法做出更细的语义定义。例如,表示价格精确到小数 点后两位数是有困难的。 4、DTD 不够结构化,重用的代价相对较高。相对于 DTD 的不足, XML Schema 出现 较好的解决了 DTD 的缺点。XML SchemaXML Schema 如同 DTD 一样是负责定义和描述 XML 文档的结构和内容模式。它可以定 义 XML 文档中存在哪些元素和元素之间的关系,并且可以定义元素和属性的数据类型。 XML Schema 本身是一个 XML 文档,它符合 XML 语法结构。可以用通用的 XML 解析器解析 它。 XML schema

14、 的优点 :XML Schema 基于 XML,没有专门的语法;XML 可以像其他 XML 文件一样解析和处理;支持一系列的数据类型 (int.、neat、Boolean、date 等),提供可扩充 的数据模型;支持综合命名空间;支持属性组。三、基于三、基于 XML 的异构数据集成方案设计的异构数据集成方案设计设计的基于 XML 的数据集成系统的功能目标主要是实现异构数据源的集成,方便数据 的访问、分析。在对异构数据源数据查询上通过查询处理层将查询语句分解成对各个数据 源的子查询,并将各个子查询结果合并返回给用户。基于 XML 的数据集成系统设计的具体 目标有: (1)解决数据的异构性问题,使

15、不同格式、不同数据管理系统中的数据能够互相交流 和转换。 (2)保持已有系统的自治性,在进行数据集成的同时不影响已有系统的正常运行。 (3)能够满足用户不同层次的数据集成要求,通过中间件集成满足。 (4)系统具有较好的可扩展性,能够适应需求的不断变化。 (5)系统对用户层提供统一的、透明的数据访问接口。使用户不必过多的关系各个底 层数据源的差异结构。 考虑到集成方法有多种,所以将集成分为:基于 XML 的数据仓库异构数据集成方法和 基于 XML 的中间件异构数据集成方法。3.1.基于基于 XML 的数据仓库集成方法的数据仓库集成方法充分发挥 XML 作为载体时的可扩展性、结构性、平台无关性等特

16、点,用于数据异构集 成是本设计的突出特点.基于基于 XML 的数据仓库集成方法系统架构的数据仓库集成方法系统架构数据仓库集成的主要思想是,将分散在不同地点的异构数据集中到一个数据库,使之 统一管理。在这个转移过程中,主要运用 XML 作为载体实施操作。基于 XML 的数据仓库 集成示意图:数据挖掘数据交换数据共享数据分析.快照法API法时间戳法日志法 .影子表法数据压缩数据加密XML数据模块数据签名数据结构转换数据加密数据解密数据解压模块数据仓库查询响应接口模块MySQLSQL ServiceOracle网络交互接口数据提取数据源数据转换数据载入数据应用层图 4 基于 XML 的数据仓库集成系统示意图详细分析设计图详细分析设计图基于 XML 数据仓库集成系统设计分为:数据源层、数据提取层、数据转换层、数据载 入层和数据应用层。数据源层数据源层数据源层是数据最原始存储处,它主要是分布在不同地区或者不同机器上的原始数据。 从其存在形式可以将数据分为:结构化数据、非结构化数据和半结构化数据三大类。由于 数据存在形式的不同,外部应用程序不能直接按一种模式进行管理应用。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号