自-基于WebService的异构数据库检索系统的设计(论文)

资源描述

《自-基于WebService的异构数据库检索系统的设计(论文)》由会员分享，可在线阅读，更多相关《自-基于WebService的异构数据库检索系统的设计(论文)（33页珍藏版）》请在金锄头文库上搜索。

1、目目录录 1 引言 .1 1.1 课题背景 1.2 国内外研究现状 .1 .1 数据转换服务.1 2.2 数据转换工具及软件.1 1.3 本课题研究的意义 .2 1.4 本课题的研究方法 .3 1.5 数据库的选择3 1.6 关键技术 .4 1.6.异构数据库 . 1.6. Webervice .6 2 需求分析8 2.1 功能需求 . .2 性能需求 .1 时间特性.9 2.适应性 .2.独立性 .10 2运行需求0 .3.1 用户界面01 2.3.2 硬件接口1 2.3.软件接口01 3 系统设计11 .设计方案 .1 .2 数据源的采集设计31 3.3 数据处理设计31 34 XML

2、数据文件设计.15 3.5 数据导出设计 . 4 系统实现81 41 开发环境 .8 42 部分编码详解 .18 5 测试 .27 1 测试方法72 52 测试结果 .27 6 结论2 7 参考文献 .30 8 致谢13 引言引言 1.11.1 课题背景课题背景随着 Intert 的飞速发展,网络迅速成为一种重要的信息传播和交换的手段, 数据资源的共享成为一个热门话题。如何获取网络上自治、异构、分布的数据并加以综合利用，即数据集成1，成为一个引起广泛关注的研究领域。数据集成的概念是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，实现分布的、异构的、自治的数据共享的主要技术，

3、数据集成一般还应满足用户数据访问的实时性和安全性等方面的要求。数据集成的核心任务是要将互相关联的分布式异构数据源集成到一起，使用户能够以透明的方式访问这些数据源，而不用关心数据源的存储位置和存储方式。数据集成的数据源:包括结构化的数据,如关系数据库；半结构化数据，如 XM 文档;已经存在的文件系统等2。 1.1.国内外研究现状国内外研究现状目前,数据库的数据转换方法很多，例如微软公司的 SQL Serer 数据库,就有导入和导出数据的服务,它可以启动数据转换服务（Dta ransform Servce,简称 DTS),来完成各类异构数据库的转换。同时国内也存在一些数据转换工具和软

4、件，比如 Beeload 等。 1.1. .数据转换服务数据转换服务数据可能以各种格式保存并分布在不同的位置3。数据转换服务(DT）通过提供一组工具，可以将来自完全不同的源的数据析取、转换和合并到 DTS 所支持的单个或多个目标数据库以满足需求。通过 DTS 工具图形化地生成TS 包或使用TS 对象模型编制包,可创建适合自己需要的自定义数据移动解决方案。此服务以向导的形式引导使用者实现 DT的功能，如数据和对象的导入、导出、验证以及在异类 OEDB 和 ODBC 数据源之间的转换。 1.2.1.2.数据转换工具及软件数据转换工具及软件 Beead 是第一款国产 ETL(Extrac

5、tTsform Load）工具。它不仅支持 Orace、 QL、se 等主流数据库的数据抽取及装载,而且还支持文本文件的抽取备份。此外,Belad 内置了大量的 API 函数,提供强大的数据转换功能；通过直观的图形操作界面，使用户通过简单的拖拽动作即可实现 ET规则的定义，使得元数据管理变得相当容易。同时 Beload也是一种数据整合软件,可对企业经营过程中所产生的各类业务数据进行抽取、转换和汇总，为数据仓库提供高质量的数据;它还集成了元数据管理、工作流管理及作业调度等功能。除提供直观的图形化操作方式外，还提供强大的脚本解释功能,既适合一般用户,又可充分满足高级用户需要的产品。

6、Beelo数据转换流程图如图-1 所示可用数据源 Oracle MySQL MS SQL DB2 Access FoxPro FlatFile InterBase Beeload 数据仓库定时采集定时刷新定时抽取操作型系统图图1 11 1 Beelad 数数据据转转换换流流程程图图 1.31.3 本课题研究的意义本课题研究的意义在 Intenet 这样一个动态环境中,各种数据库不断的加入或去除,数据库中的数据也在不断变化,而现在的绝大多数应用是建立在这些分离的数据库基础之上,因而,为了实现信息资源的共享和交流，不同数据库间相互操作和协作不可避免。这样随着时间的推移和技术的

7、进步，这些由不同核心技术构建的信息系统就像一个个 “信息孤岛”,各自有着不同的处理对象、操作方法和专用客户端,在各个环节之间存在着数据交流和部门协同的问题。这些情况都表明：在现代信息化进程中，不同数据库联合使用的要求是非常迫切并会长期存在下去的,并且往往还伴随着一个复杂的分布异构环境。这种分布异构性表现为:场地分布，由 LAN 或AN 支撑，存在多种网络协议；数据分布，各种形式的数据分散在各节点,以各种形式存在:硬件平台多样化，从台式机、工作站到大型主机等;操作系统多样化,如 Winows tre，各种 UNIX 以及 VS 等:应用平台多样化,包括来自不同开发组织的各种应用软件、

8、中间件和开发工具。然而，要求用户面对所有这些复杂的分布异构特性,并指望他学会操作每一种数据库是不现实的,在使用中也不方便。对于用户而言, 希望屏蔽掉各种层次的异构特性,他们不必知道各个物理数据库系统的分布,不必知道各个物理数据库的机构组成和操作方法,不必自己去进行数据转换和结果汇总，只需通过简单的全局访问就可以得到结果,这正是异构数据库集成技术的主要研究内容，也是其意义所在。 1.41.4 本课题的研究方法本课题的研究方法本系统的主要功能是实现跨平台的异构数据库系统之间的数据转换,所以结合当前所具备条件提出以下研究方法。 (1)通过数据库接口软件与不同的数据库直接连接，如 ODC

9、和 JB等。在同时检索的数据库数量较少时,使用此技术可在一定程度上解决异构检索问题,但数据库达到一定数量时，处理速度很难保证。这种方式仅适用于对属于本单位的少量异构数据库进行统一检索。（)不同数据库间的格式转换。主要是利用数据库产品本身提供访问异构数据库的功能,以实现在异构环境下建立具有较高性能的分布式数据系统。现在一些图书馆制作的学科导航系统就此利用此方法设计的，其利用一些程序将各种异构数据库的部分数据导入一个数据库系统中，以方便读者访问,但是收录的数据库数量不能太多，此外还涉及版权问题。 (3)运用元搜索引擎的基本原理,利用数据库的 Web 客户端进行统一检索。元搜索引

10、擎主要运用在网页信息的搜索方面,但现有各种电子资源数据库都提供相应的客户端接口，因此可利用元搜索引擎的原理对各个异构数据库进行统一检索。这种方法的缺点在于需要对各个数据库的 Wb 处理接口进行详尽分析,各个数据库的 Web 处理接口如发生改变则需重新设计,接口的稳定性较差。 1.51.5 数据库的选择数据库的选择数据库有许多种，桌面的数据库 Acess 以及大型的关系型数据库 SL r，Oacle 等。 Aces数据库 Aes 数据库虽然使用比较简单灵活，但功能并不强大,一些数据库的维护功能不强。另外ccess 是文件形式的,安全性极低。 .Oracle 数据库 Ole 数据库是比较大

11、型的数据库,适合在大项目中使用,特点如下: 1) 支持大数据量、多用户的高性能的事务处理 Orcl支持的最大数据量可以达到几百千兆，并可充分利用硬件设备资源。支持多用户同时在同一数据上执行各种数据应用，并保证数据一致性。系统维护具有高的性能，Orcle 可持续工作,正常的系统操作（后备或个别计算机系统故障) 不会中断数据库的使用。可控制数据库数据的可用性,可在数据库级或在子数据库级上控制。 2) 支持分布式数据库和分布处理 Orle 为了充分利用计算机系统和网络,允许将处理分为数据库服务器和客户应用程序,所有共享的数据管理由数据库管理系统的计算机处理，而运行数据库应用的工作站集中于解

12、释和显示数据。通过网络连接的计算机环境，Orce 将存放在多台计算机上的数据组合成一个逻辑数据库，可被全部网络用户存取。分布式系统像集中式数据库一样具有透明性和数据一致性。 3) 具有可移植性、可兼容性和可连接性。由于rcl软件可在许多不同的操作系统上运行，以致racle 上所开发的应用可移植到任何操作系统，只需很少修改或不需修改。rale 软件同工业标准相兼容,包括许多工业标准的操作系统,所开发应用系统可在任何操作系统上运行。可连接性是指 Orcl允许不同类型的计算机和操作系统通过网络可共享信息。 3SQL Srr 数据库 Srer 是基于服务器端的中型的数据库，可以适合大容量数

13、据的应用,在功能管理上也比较强大。在处理海量数据的效率，后台开发的灵活性,可扩展性等方面强大。因为现在数据库都使用标准的 SQ语言对数据库进行管理,所以如果是标准 SQL 语言,两者基本上都可以通用的。SQL Server 还有更多的扩展,可以用存储过程,数据库大小无极限限制。由上可知 SQServer 和cle 这两个数据库比较适合作为数据检索系统的数据库。 1.61.6 关键技术关键技术 . .异构数据库异构数据库异构数据库系统是相关的多个数据库系统的集合5，可以实现数据的共享和透明访问，每个数据库系统在加入异构数据库系统之前本身就已经存在,拥有自己的 DS（aabasMa

14、nagment Syse）。异构数据库的各个组成部分具有自身的自治性,实现数据共享的同时,每个数据库系统仍保有自己的应用特性、完整性控制和安全性控制。异构数据库系统的异构性主要体现在以下几个方面： 1. 计算机体系结构的异构各个参与的数据库可以分别运行在大型机、小型机、工作站、PC 或嵌入式系统中。 2. 基础操作系统的异构各个数据库系统的基础操作系统可以是 Unix、Wdos N、 Lnu等。 3. DMS 本身的异构可以是同为关系型数据库系统的l、 SQLerve等,也可以是不同数据模型的数据库，如关系、模式、层次、网络、面向对象，函数型数据库共同组成一个异构数据库系统。

15、异构数据库系统的目标在于实现不同数据库之间的数据信息资源、硬件设备资源和人力资源的合并和共享。其中关键的一点就是以局部数据库模式为基础，建立全局的数据模式或全局外视图。这种全局模式对于建立高级的决策支持系统尤为重要。大型机构在许多地点都有分支机构，每个子机构的数据库中都有着自己的信息数据，而决策制订人员一般只关心宏观的、为全局模式所描述的信息。建立在数据仓库技术基础上的异构数据库全局模式的描述是一种好的解决方案。数据仓库可以从异构数据库系统中的多个数据库中收集信息，并建立统一的全局模式，同时收集的数据还支持对历史数据的访问,用户通过数据仓库提供的统一的数据接口进行决策支持的

16、查询。对于异构数据库系统，实现数据共享应当达到两点：一是实现数据转换;二是实现数据的透明访问。在转换的过程中，有时要想实现严格的等价转换是比较困难的。首先要确定两种模型中所存在的各种语法和语义上的冲突,这些冲突可能包括： 1.命名冲突:即源模型中的标识符可能是目的模型中的保留字,这时就需要重新命名。 2.结构冲突:如果两种数据库系统之间的数据定义模型不同，如分别为关系模型和层次模型,那么需要重新定义实体属性和联系，以防止属性或联系信息的丢失。总之,在进行数据转换后，一方面源数据库模式中所有需要共享的信息都转换到目的数据库中，另一方面这种转换又不能包含冗余的关联信息。数据库转换工具可以实现不同数据库系统之间的数据模型转换,需要进一步研究的问题是：如果数据库转换同时进行数据定义模式转换和数据转换,就可能引起同一数据集合在异构数据库系统中存在多个副本，因此需要引入新的访问控制机制。在保证各个参与数据库自治,维护其完整性、安全性的基础上,对于异构数据库系统提供全局的访问控制、并发机制和安全控制。数据的透明访问。在异构数据系统中实现了数据的透明访问,用户就可以将异构

展开阅读全文