基于本体的数据集成方法及应用

资源描述

《基于本体的数据集成方法及应用》由会员分享，可在线阅读，更多相关《基于本体的数据集成方法及应用（40页珍藏版）》请在金锄头文库上搜索。

1、曲阜师范大学博士硕士学位论文原创性说明 ( 在口划“ ) 本人郑重声明：此处所提交的博士口硕士日论文基于本体的数据集成方法及应用，是本人在导师指导下，在曲阜师范大学攻读博士口硕士日学位期间独立进行研究工作所取得的成果。论文中除注明部分外不包含他人已经发表或撰写的研究成果。对本文的研究工作做出重要贡献的个人和集体，均已在文中已明确的方式注明。本声明的法律结果将完全由本人承担。作者签名：章 7 扬日期：冽仉上曲阜师范大学博士硕士学位论文使用授权书 ( 在口划“ ) 基于本体的数据集成方法及应用系本人在曲阜师范大学攻读博士口硕士日学位期间，在导师指导下完成的博士口硕士回学位论文。本

2、论文的研究成果归曲阜师范大学所有，本论文的研究内容不得以其他单位的名义发表。本人完全了解曲阜师范大学关于保存、使用学位论文的规定，同意学校保留并向有关部门送交论文的复印件和电子版本，允许论文被查阅和借阅。本人授权曲阜师范大学，可以采用影印或其他复制手段保存论文，可以公开发表论文的全部或部分内容。作者签名：萼惭1 日期：矽似彭L 导师签名：标记闭合。 5 文档区分大小写字母。 6 属性值必须使用“ 括起来。 7 限定的关键字不可以随意使用。 X M L 是由许多部分组成的，但是其中最重要的就是文档类型定义D T D ；可扩展的样式语言X S L ；可扩展链接语言X L L 。只要

3、明白了他们的工作原理，那么就能对X M L 有一个很好的了解了【I6 1 。 1 文档类型定义D T D D T D 的主要作用就是对文档的逻辑结构进行规定。它可以对文档的语法进行定义，而定义好的文档语法反过来又能够给X M L 语法分析程序以指导作用，使其能够确认某个页面标记使用的合法性。D T D 不仅仅可以定义页面中的元素和元素的属性，而且还可以定义元素与元素属性之间的关系。对于一个应用程序来说D T D 是可有可无的。设计人员可以不使用D T D ，也可以基于本体的数据集成方法及应用浮现定义一个公共的D T D ，这样在开发程序的时候就不用临时建立自己的D T D 了。 X

4、 M LS c h e m a 也是用来对文档的逻辑结构进行定义的，它是对D T D 的继承发展的得来的，是第二代用来描述X M L 文档的标准。它可以对X M L 文档的数据类型及组织方式进行定义，X M LS c h e m a 是对D T D 的继承，但是功能上要更强大一些。 2 可扩展的样式语言X S L X S L 的主要作用是对X M L 文档的样式进行规定。如果用户想改变w e b 浏览器中文档的显示法那么用户就可以直接通过改变X S L 来实现。如果想要解析X M L 文档，首先就要对X S L 进行处理。这是因为X S L 语言的主要作用就是对X M L 的样式进行

5、表示，它定义了X M L 样式的语法规范。一个X S L 样式表包含了一系列的设计规则，可以利用这些规则从X M L 文档中抽取信息，并将其转换为其他格式。 X S L 主要包括两大部分：一是对X M L 文本内容进行转换，二是对X M L 文本内容进行格式化。首先对X M L 数据内容进行的转化包括过滤和整理，然后再对数据内容的显示方式进行格式化，比如显示的字体，大小，颜色等等。 3 可扩展链接语言X L L X L L 主要是对w e b 上已经存在的简单链接的支持，并且它能够对链接进行进一步的扩展。下面我们介绍一下X M L 的解析器，通俗一点来讲，一个X M L 的解析器是

6、一些代码，这些代码可以完成对一个X M L 中的数据的提取工作。目前，市场上存在的解析器主要有：例如I B M 公司的X M L 4 J ，M i c r o s o f t 公司的M S X M L ，等。划分解析器的方法很多，一般来说根据解析器在处理文档时的不同方式，可将解析器分为基于S A X 的解析器和基于D O M 的解析器。S A X 解析器是基于事件驱动的，处理文档的方式为串行方式，有一个开始标记和一个结束标记，当它遇到这些标记的时候，它就会向应用程序发送消息。D O M 解析器则是首先建立一个有层次的数据结构，这个数据结构依据文档内容产生，然后为用户提供一个操作文

7、档的接口。 1 S A X 解析器 S A X 解析器是以事件为驱动的，它具有一个基于事件的X M L 文档的解析标准。 S A X 主要是通过发现文档中的特殊符号来触发相关的事件。正是因为S A X 的这一特性，程序的开发人员可以在程序中写入特定的代码来对文档进行解析。S A X 处理文档主要是以序列的形式进行的，因此与D O M 相比较而言，对内存的需求要少很多，因此它是一个轻量级的接口集合。 2 D O M 解析器 D O M 是由W 3 C 发展而来的，它的主要作用是对X M L 文档进行浏览。它要求内存中存储的X M L 文档要有一个完整的树形结构，这样它对内存的需求比较高。

8、D O M 通常会给用户提供一个接口，这个接口主要足完成对X M L 文档的装载、定位等操作。 8 基于本体的数据集成方法及应用一般来说D O M 主要是作为脚本和对象的通信平台来使用，将结果提交给浏览器。通过D O M 的作用，在用户的眼睛里X M L 文档就可以以一个结构树的形式存在，而不仅仅是一个简单的文本。这样应用程序即使不知道X M L 的语义细节也能够对 X M L 文档进行操作了。下面简单介绍一下X M L 和J a v a 的关系。J a v a 语言是由S u n 公司于l9 9 6 年推出的一种面向对象的编程语言，他具有一系列的面向对象的程序设计规范。J a v

9、a 具有与平台无关性的特征，正是他的这种特征导致了2 0 世纪编程世界的一场革命。目前 J a v a 仍然是互联网上最流行的编程语言之一。它不但具有跨平台性，而且也通用于各种计算机网络、特别是互联网的技术。它最大的特点就是简单，并且对硬件环境依赖程度很低。现在由于大量J a v a 程序的出现，它已从一种编程语言转变为一个独立的计算机编程平台。 X M L 的特点是具有很好的可靠性和很好的互操作性，并且它是针对w e b 设计的，因此它在电子商务时代得到了很好的应用。另外X M L 具有的的可扩展性和自描述性使它在信息的共享方面具有不可替代的地位。另外X M LS c h e m

10、 a 中引入了原型和命名空间等概念，能够支持更多的数据类型，因此X M L 文档在S c h e m a 的约束下更加严格和有效。总之，X M L 各种特性使它真正的做到了独立于任何应用系统，独立于硬件与软件。 J a v a 实现了应用程序的跨平台性，而X M L 实现了数据的跨平台性。把两者结合在一起，可以使两个技术的特性有很好的互补，将它们结合成了一个最佳的跨平台解决方案。J a v a 带来的是一种完全可移植的编程语言，X M L 带来的是一种完全可移植的数据格式。 2 3 本章小结本章主要是对系统所使用的一些技术的介绍，包括W e bS e r v i c e 和X M

11、 L 两项技术，其中W e bS e r v i c e 主要介绍了它的定义和它的一些优良特性，而X M L 主要介绍了它的发展历程以及它使用时的一些规范。基于本体的数据集成在最底层需要将各个异构数据源转化为标准的X M L 格式，同时系统的实现还要使用W e bS e r v i c e 技术，因此本章对这两项技术进行了详细的介绍。 9 基于本体的数据集成方法及虑用第三章数据集成的方法研究当前传统的数据集成方法可以分为三种。第一种是数据的复制集成方法，这种集成方法是一种比较低层次的集成方法，主要是通过一些转换工具将一个数据库中的数据复制到另一个数据库当中，从而达到共享的目的，

12、这种方法主要适用于企业数据的松散集成，它比较容易实现，且易于企业人员操作。第二种是数据仓库集成方法，这种方法主要是建立一个总体的数据仓库，然后把各个异构数据源中的数据进行分析，转换格式以后存储到这个总体的数据仓库中，供企业使用。这种方法主要是有利于企业决策的一种数据集成方法。第三种是数据模式映射集成方法，它首先建立一个虚拟的全局数据模式，同时在各个异构数据源上建立局部数据模式，然后通过一个中间件系统来完成从全局模式到局部模式的映射，从而达到数据集成的效果。 3 1 数据复制集成方法数据的复制集成方法是数据集成方法中最传统的一种，和其他数据集成方法比较来说，它是最为简单也最容易实

13、现的一种集成方法，目前在一些企业当中仍然使用。它主要是通过一种转换工具将一个数据库中的数据复制到另外一个数据库中，从而实现数据在数据库之间的共享。目前实现数据复制的方式比较多，但是总体上可以分为三类：一是有些数据库管理系统自带的工具可以进行数据的复制集成：二是应用系统在开发的时候内部附加的数据复制功能：三是市场上通用的用于数据复制集成的工具。目前市场上大多数的数据库管理系统都具有数据的转换和复制功能，用于实现数据库和数据库之间的数据转换和复制。如O r a c l e 、S q l S e r v e r 等数据库都具有导入导出的功能。这些数据库的功能都能完成常见的不同数据库之

14、间数据的转换与复制。应用系统内部附加的数据集成工具其实本质上是一个接口，能够完成本系统和其他系统之间的数据复制功能。这类数据接口一般分为两类：一类是企业内部在各个应用系统之间进行数据的交互，这个时候数据交互的各个应用系统之间的接口参数是由设计人员设计好的：二是按照国家制定的某种标准或者是国际公认组织制定的标准而形成的转换和复制接口，各个应用系统都将自己的数据转换为标准格式，然后再实现各个应用系统之间的复制共享。第一种接口的试用局限性很大，因为只有通过专业设计人员进行精细的设计才能实现各个应用系统之间的数据共享，难度比较大。第二种类型因为遵循的是国家或者是国际标准，使用的面比较

15、宽广，例如目前仍然在各个企业中使用的各种电子数据交换软件( E D I ) 就是例子。E D I 主要用于企业各个应用系统之I H J 的数据转换。随着 1 0 基于本体的数据集成方法及应用 I n t e r n e t 的发展和X M L 技术的出现，基于因特网的X M L E D I 也发展了起来，有逐步取代传统的E D I 方式的趋势。它的工作流程是：首先被集成的一方将数据库中的数据转换为X M L 格式，然后系统通过H T T P 协议将X M L 文档发送给需要数据的一方，然后收到数据的一方按照约定的X M LS c h e m a 对传来的数据进行校验，并通过解析器取出

16、文档中的数据供自己使用。集成转换和复制工具是一种通用性比较强的独立软件，它独立于数据库管理系统和应用软件。它可以对任意两个常见的数据格式进行转换和复制。目前市场上成熟的集成数据转换工具比较多，这里就不再介绍了。 3 2 数据仓库集成方法数据仓库集成方法其本质就是对多个数据源中的数据进行处理，将处理过的数据装载到另一个数据库，即数据中心或者数据仓库，以供集成系统的调用，实现数据的集成。该方法其实是复制法的升级版本，主要是完成对异构数据源的集中存储、集中管理。数据仓库集成的方法首先是数据格式的转换，然后从多个数据源中提取数据，最后进行数据的复制和加载，得到一个最终的数据仓库。原来分散的应用系统仍然独立运作，不受到影响。但是这种方法在整合数据库的时候也存在一些问题。这些问题如下： 1 数据冗余因为采用这种方法集成的数据源是不同的应用系统，并且这些应用系统之间并没有设计好的关联，因此集成的数据中存在着数据冗余的现象。但是根据数据必须满足唯一性

展开阅读全文

基于本体的数据集成方法及应用

最新文档