异构数据总库的跨库检索技术综合概述

上传人:人*** 文档编号:492211915 上传时间:2022-12-30 格式:DOCX 页数:5 大小:20.33KB
返回 下载 相关 举报
异构数据总库的跨库检索技术综合概述_第1页
第1页 / 共5页
异构数据总库的跨库检索技术综合概述_第2页
第2页 / 共5页
异构数据总库的跨库检索技术综合概述_第3页
第3页 / 共5页
异构数据总库的跨库检索技术综合概述_第4页
第4页 / 共5页
异构数据总库的跨库检索技术综合概述_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《异构数据总库的跨库检索技术综合概述》由会员分享,可在线阅读,更多相关《异构数据总库的跨库检索技术综合概述(5页珍藏版)》请在金锄头文库上搜索。

1、异构数据库的跨库检索技术综述摘要 异构数据库的跨库检索是电子资源整合的核心技术,本文介绍了异构数据库的特 征、异构数据库的连接和数据交换技术;探讨了跨库检索系统应具备的功能和应注意的问题, 并对国外一些有影响的跨库检索系统进行了介绍。关鍵词 异构数据库跨库检索 数据库连接 Webfeat MetaLib分类号 G250.73Review of Cross Searching Technique for Heterogeneous DatabaseHuang DiShanghai Jiaotong University Library, Shanghai 200030Abstract Cross

2、 searching technique for heterogeneous database is core technology of integrating electronic resource. The paper has introduced the character of heterogeneous database, the technology of heterogeneous databases connection and information exchanging. It also discussed the function of cross retrieval

3、system for heterogeneous databases. The paper has also included a survey of foreign products in cross database searching.Keywords Heterogeneous databases Cross database searching Database connection Webfeat MetaLib1引言近几年,图书馆通过引进和自建数据库,已使电子资源的建设具有相当规模,电子文 献在文献服务中所占的比重也不断增加。在继续加强电子资源建设的同时,图书馆开始更加 关注电子

4、资源的管理工作,整合已有的资源,将不同类型、不同结构、不同环境、不同用法 的各种异构数据库纳入统一的检索平台,以便于用户更方便、更高效地获取信息。2数据库的异构特征图书馆要整合的数据库主要包括:书目数据库(OPAC)、题录/文摘数据库、全文数据库、 电子期刊和电子图书、相关的WEB网站等。这些数据库分布在不同的服务器,由不同的信 息服务公司和出版社提供、或由图书馆自建,成为各具不同特性的异构数据库,其异构特征 表现为以下几个方面:2.1 数据模型的异构 分层次、网状、关系和面向对象4 种。2.2数据结构不同 如ORACLE与Sybase数据库物理模型异构、数据结构不同,而有些数 据还是半结构或

5、非结构的。2.3 系统控制方式不同 有集中式与分布式。2.4 计算机平台的异构 从巨、大、中、小型机到工作站、 PC。2.5通信协议的不同 有Z39.50、HTTP及非标准等。2.6 通信结构模式的不同 有主从结构、客户机/服务器模式、浏览器/服务器模式。2.7 操作系统的异构 有 UNIX、NT、OS/2、Apache、Sun Solaris、Linux 等。2.8网络的异构有LAN、WAN、以太总线结构与令牌环结构等。3异构数据库连接与存取的相关技术 面对当前信息资源和网络环境的复杂性,要实现异构数据库的跨库检索,传统的 DBMS(数据库管理系统)已经很难解决。近几年许多新的相关技术相继推

6、出,综合应用这些技术 可进行异构数据库之间的连接和数据转换,接受用户对些数据库的并行交叉访问和查询,对 查询结果进行融合处理并反馈给用户端。纵览近年来的进展,主要包括以下相关技术:3.1 公共网关接口技术 CGI利用CGI可实现 Web与数据库的连接,CGI(Common Gateway Interface)是最早的Web 程序设计方式,它提供一个外部应用程序与Web服务器交互的标准接口,遵循CGI标准编 写的Web服务器端的可执行程序称为CGI程序。CGI最大的用处之一是其与浏览Web站点 的用户之间的交互能力,使信息网关、反馈机制、访问数据库、查询等一系列灵活复杂的操 作得以实现。利用 C

7、GI 实现与数据库的连接,最大的优点在于其通用性。目前几乎所有的 HTTP 服务器都支持 CGI。3.2 开放式数据库互连技术 ODBCODBC(Open Database Connector)是由Microsoft推出的基于C语言的开放数据库互连技 术,主要针对客户端/服务器结构的数据库。它包含访问不同数据库所要求的ODBC驱动程 序及驱动程序所支持的函数,应用程序通过调用不同的驱动程序所支持的函数来操纵不同的 数据库。若想使应用程序操作不同类型的数据库,就要动态地链接到不同的驱动程序上。3.3 JAVA 数据库互连技术 JDBCJDBC(Java Database Connector)是J

8、avaSoft公司设计的Java语言的数据库API (应用编程 接口),主要针对浏览器/服务器结构的WEB数据库。JDBC的出现是Java编程中最重大的 突破之一,它使得Java程序与数据库服务器的连接更加方便。与其他的数据库存取技术相 比,JDBC继承了 Java语言的所有特点,不仅具有独立于平台运行、面向对象、坚固性好的 优点,而且具有多线程、内置检校器来防止病毒入侵等功能,更加适合网络应用oJDBC的 这些特点也特别适合于实现对Web异构数据库的访问。JDBC是连接Internet上异构数据 库的最好方法。使用JDBC能够方便地向任何关系数据库发送SQL语句。浏览器从服务器 上下载含有J

9、DBC接口的Java Applet,由浏览器直接与数据库服务器连接,自行进行数据交 换。JDBC完成三项工作:(1)建立与数据库的连接;(2)发送SQL语句;(3)处理查询结果。 应用Java语言和JDBC编写具有统一的用户查询界面的应用程序,可实现在浏览器端对多 个位于不同数据库服务器上的异构数据库的选择查询。3.4 ASP技术和JSP技术ASP(Active Serve Page)是Microsoft公司于1997年推出的一个功能强大的WEB应用程 序开发技术,ASP在Web服务器上解释脚本,可产生并执行动态交互式、高效率的站点服 务器应用程序。ASP可以胜任基于微软Web服务器的各种动态

10、数据发布。ASP脚本是在 Web 服务器端解释执行的,当遇到访问数据库的脚本命令时, ASP 通过 ActiveX 组件 ADO(ActiveX Data objects)与数据库对话,通过ODBC与后台数据库相连,由数据库访问组 件执行访库操作。并将执行结果动态生成一个HTML页面,返回web服务器端,以响应浏 览器的请求。在用户端浏览器所见到的是纯HTML表现的画面,例如用表格来表现的后台 数据库表中的字段内容。由于ASP结合了脚本语言,可以通过编程访问ActiveX组件,并 且具有现场自动生成HTML的能力,所以它成为建立动态Web站点的有效工具。在结构关 系上,ASP是通过ODBC与数

11、据库打交道。因此,可向上层兼容各类数据。另一种相似的动态网页技术JSP由Sun公司于1999年发布,JSP支持的是完全的Java, 可以充分发挥Java面向对象编程的强大功能,可以使用J2EE标准服务,使用大量的Java API,如 JDBC APIo3.5 XML中间件技术目前网上有很多信息格式是半结构化或非结构化的,其来源极端异构。利用XML作为 中间件对这些信息进行元数据搜索,提供一个统一界面的检索系统是一个较好的应用方案。 XML(Extensible Markup Language,可扩展标记语言)是由 W3C(World Wide Web Consortium) 组织于1998年2

12、月制定的一种通用语言规范,它是专门为Web应用程序而设计的SGML 的简化子集。XML最大的优点在于它的数据描述和传送能力,具备很强的开放性。为了使 基于XML的数据交换成为可能,必须实现数据库的XML数据存取,并且将XML数据同 应用程序集成,进而使之同现有的规则和技术相结合。开发基于 XML 动态应用(如动态信 息发布、动态数据交换等)的前提是所支持的数据库必须能支持XML。XML提供描述不同 类型数据的标准格式,例如:数据库记录、图形、声音等,并且可一致而正确地解码、管理 和显示信息。4. 电子资源跨库检索应具备的功能跨库检索技术不等同于搜索引擎,它应为用户呈现图书馆的整体信息资源、帮助

13、用户 定位相关的资源、并直接融合这些资源,在各类学术信息资源中通过知识元的搜索实现知识 发现。具体应具有以下功能:4.1 浏览与检索 系统应提供主题树等索引系统,帮助用户以浏览的方式选取合适的检索词进行查询。检 索应包括简单和高级检索,简单检索应包括自然语言、短语检索及布尔算符、位置算符、截 词符和通配符等检索。高级检索应提供多字段检索和多种限制选项。同时,系统还应提供检 索策略的保存及定题跟踪服务,以方便用户再次检索。4.2 用户定制功能 系统应提供特定的学科入口,把同一学科相关的数据库整合在一起。同时应提供可供跨库检索的数据库列表,并允许用户自由选择和组合,一次检索到相关数据库的各种信息。

14、4.3 统计功能 数据库使用数据是电子资源利用率的重要指标,因此跨库检索系统应提供完善的统计功能,包括用户利用跨库检索系统访问各数据库的各种使用数据,如访问各数据库的登录数、 检索次数、下载题录文摘数、下载全文数等。并提供各时间段、各用户IP或帐户的使用统 计。4.4 数据间的连接系统应兼容 CrossRef、 OpenURL、 SFX 等数据库无缝链接技术或标准,使不同数据库 之间的各种记录能互相链接,包括书目数据库、文摘数据库、全文数据库中各种数据之间的 互连。4.5 数据的显示与保存 系统应对来源于不同数据库的结果进行融合,检索结果输出应具备排序功能,如按日期、篇名、作者、相关性排序。检

15、索记录应可以打印、下载、Email发送。最好能兼容各种Citation Manager 软件,如 Reference Manager、 Endnote、 Refworks 等。5. 电子资源跨库检索应注重的问题5.1 网络安全跨库检索系统要与Internet及各种不同软硬件环境的数据库进行连接,黑客和病毒入侵 的危险就会始终存在。跨库检索系统支持各种脚本和 CGI 程序,以实现一些页面的交互功 能,例如数据采集和确认。这些程序为Internet上的任何人提供了一个连向web服务器操作 系统的直接链接。攻击者们可以利用CGI程序来修改web页面,窃取帐号,为未来的攻击 设置后门。“预防是理想的,

16、但检测是必须的”,跨库检索系统应及时更新安全补丁,检测和发现 安全隐患。在系统上应定期做日志,而且日志应被定期保存和备份,以发现攻击者都做了什 么。5.2 知识产权和用户认证通过跨库检索系统可以访问的资源包括有版权的资源、签订许可协议的资源、网上免费 的资源、及自建或自有版权的各种资源。因此系统应有严格的用户认证功能,以保证系统只 有合法用户才能使用,一般以IP或用户帐号和密码来控制。5.3 全局共享与独特性 跨库检索系统为用户提供了从统一界面访问图书馆所有各类资源的便利,从而使用户不 必再一一了解不同检索平台的各种功能和检索规则。但同时各数据库具有不同的字段和索 引,原检索系统完备的检索功能和规则是对数据查全与查准的保证,跨库检索系统应尽量实 现原检索系统的功能。6. 国外跨库检索系统介绍 目前,已有很多商业机构和图书馆在从事跨库检索技术的研发,如 W

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号