开源仓储软件在清华大学图书馆的研究应用与思考

上传人:飞*** 文档编号:10393833 上传时间:2017-10-07 格式:DOC 页数:9 大小:501KB
返回 下载 相关 举报
开源仓储软件在清华大学图书馆的研究应用与思考_第1页
第1页 / 共9页
开源仓储软件在清华大学图书馆的研究应用与思考_第2页
第2页 / 共9页
开源仓储软件在清华大学图书馆的研究应用与思考_第3页
第3页 / 共9页
开源仓储软件在清华大学图书馆的研究应用与思考_第4页
第4页 / 共9页
开源仓储软件在清华大学图书馆的研究应用与思考_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《开源仓储软件在清华大学图书馆的研究应用与思考》由会员分享,可在线阅读,更多相关《开源仓储软件在清华大学图书馆的研究应用与思考(9页珍藏版)》请在金锄头文库上搜索。

1、开源仓储软件在清华大学图书馆的研究应用与思考曾婷 董丽 邹荣 姜爱蓉(清华大学图书馆 北京 100084)摘要 清华大学图书馆在数字图书馆系统建设中注重引进新技术和思想,近年来,对国际上主流的开源仓储软件开展了较深入的研究,在本馆进行了一系列应用开发和实践。本文将对应用较多的两个开源仓储软件:DSpace 和 Fedora 的发展和应用实践展开介绍。首先概要介绍两个开源软件的最新发展和特点,再分别介绍本馆在长期保存,机构知识库建设中所作的系列扩展应用和开发,并提出未来构建本地仓储的一些思考和建议。关键词 开源仓储软件;DSpace ;Fedora;数字保存;机构知识库分类号 G250.76St

2、udy, practice and prospect for open source repository softwares application in Tsinghua University LibraryZeng Ting Dong Li Zou Rong Jiang Airong( Library of Tsinghua University, Beijing, 100084)Abstract Tsinghua University Library pays lots of attention to the introduction of new technology and ide

3、a in the Digital Library System development. We have carried out some in-depth study on the mainstream open-source repository software in recent years, and conducted a series of application development and practice too. This paper will discuss the latest development and our local application practic

4、e of two widely used open source repository software - DSpace and Fedora. First, an overview of the latest developments in the two software and their features are introduced. Then, a series of extended application and development about the long-term preservation and institutional repository are pres

5、ented. At last, we give some thoughts and suggestions about the future construction of local repositories. Keywords open-source repository software; DSpace; Fedora; digital preservation; institutional repository仓储软件主要被用于构建数字仓储,提供数字对象的管理和服务。最近几年来,开源仓储软件在高校尤其是图书馆界得到越来越广泛的应用。清华大学图书馆在数字图书馆系统建设中注重引进新技术和思

6、想,近年来,对国际上主流的开源仓储软件开展了较深入的研究,在本馆进行了一系列应用开发和实践。本文将对应用较多的两个开源仓储软件:DSpace 和 Fedora 的发展和应用实践展开介绍。首先概要介绍两个开源软件的最新发展和特点,再分别介绍本馆在长期保存,机构知识库建设中所作的系列扩展应用和开发,并提出未来构建本地仓储的一些思考和建议。1 DSpace 和 Fedora 的最新发展和特点美国 MIT 大学图书馆和惠普实验室在 2002 年推出 DSpace,美国康奈尔大学和弗吉尼亚大学在 2003 年推出 Fedora。DSpace 和 Fedora Commons 于 2008 年7 月宣布合

7、作,DuraSpace(DSpace+Fedora Commons)组织现在统一对这两个仓储软件的开发进行管理,并促进两个平台的互操作。DuraCloud 是 DuraSpace的云计算管理层服务,提供云存储及计算服务,在 2009 年秋季启动试用,计划2011 年正式提供服务。1.1 DSpace 的最新发展和特点从 2002 年 12 月发布 1.0 版开始,DSpace 的版本随着功能的增加不断更新。目前的最新版本为 1.7.1 版,增加了(1)Mirage,针对 XMLUI 的一种更加干净专业的主题(theme) , (2)Discover,一种分面浏览和搜索接口, (3)Archiv

8、al Information Package (AIP) 备份和恢复过程, (4)Curation 系统,一种用来构建和运行多个任务的框架,以帮助保存和改进仓储内容, (5)核心代码的自动单元测试, (6)改进了对于 Google Scholar 暴露的元数据, (7)使用若干代码质量工具包对所有代码进行了全面分析,在性能和可伸缩性方面有各种改进 1。DSpace 系统设计比较合理,层次比较清晰,分为应用层(也称表现层),业务层(也称核心层),存储层(也称数据层)3 个明显的层次,上面的服务都是通过 API 调用下层的服务。但是 DSpace 1.x 在可伸缩性、互操作性、数据模型、可扩展性方

9、面存在一些问题,因此 DSpace 体系结构审核组在 2007 年 1月发布了关于下一代 DSpace 体系结构的推荐说明,主要是在信息模型、扩展框架、用户界面、事件机制、工作流方面提出了未来几年 DSpace 的发展方向。一些架构上面的变化已经在 1.x 的版本中体现出来:在 DSpace 1.5 中已经应用了DSpace 2.x 的事件机制,实现了 Spring 框架&Cocoon 升级(XMLUI) ,在DSpace 1.6 中包括了服务框架,在 DSpace 1.7 包括了 Stats 和 Discovery(作为服务) 1。1.2 Fedora 的最新发展和特点从 2003 年 5

10、月发布 1.0 版本开始,Fedora 的版本随着功能的增加不断更新,最新的为 3.4.2,之间历经 20 多个版本,进展迅速。Fedora 具有灵活、可扩展的、模块化的架构,支持数字资产的长期保存,可通过数字对象及内容文件重构整个仓储。(1)数字对象模型Fedora 数字对象模型在版本 2 以后有较大的改变。针对老版本中“传播器”静态绑定带来的数字对象频繁更新问题,新版本引入内容模型架构(Content Model Architecture,CMA) ,将数字对象与内容模型关联,实现了数据对象与服务定义对象及服务部署对象的动态绑定。基本的内容模型架构关系如图 1 所示,其中的内容模型对象是

11、CMA 引入的特殊的控制对象。内容模型是描述数字对象特性的一种正式模型,可以包括结构/行为/语义的信息,也可以包括与其它对象及实体之间关系的描述,它有点类似于面向对象编程中的类。CMA 被设计为一种框架,用来开发和部署内容模型驱动的仓储体系结构。目前第一代CMA 背后的设计理念,参考了软件工程中的面向对象编程、设计模式、模型驱动的架构等概念 2。图 1. Fedora 的内容模型架构 2(2)Fedora 服务框架Fedora 在版本 2 以后引入了 Fedora 服务框架,以便新服务与 Fedora 仓储的集成。Fedora 核心仓储服务是由仓储管理接口(API-M)、访问接口(API-A)

12、、基本查询接口、基于 RDF 搜索的索引接口等组合成的网络服务,实现数字对象的创建、管理、存储、访问和重用。Fedora 服务框架采用了一种 SOA 模式,围绕着 Fedora 仓储实现新功能的构建和添加,这使得 Fedora 仓储具有相对稳定的核心功能,对于仓储有用的其它服务组件与核心功能整合在如图 2 所示的Fedora 服务框架之下,用户可以根据自己的应用需要选择相关服务,并通过与位于中心的 Fedora 核心仓储服务的松散耦合来提供一些附加的功能 2。图 2. Fedora 的服务框架 22 DSpace 在清华大学图书馆的应用实践2.1 电子资源长期保存与服务系统清华大学图书馆希望建

13、立一个本馆电子资源的长期保存和管理平台,一方面提供对购进资源的长期保存功能,另一方面提供对这些资源的检索访问功能。DSpace 设计和实现的一个主要目的就是为了提供数字资源的长期保存服务,较好地遵照了 OAIS 参考模型,符合对外购电子资源进行长期保存的基本需求,我们选择它进行了一些电子资源数据库(如 IEEE 数据库,AIP 电子期刊)的长期保存工作。在电子资源长期保存与服务系统中,最早采用的版本是 DSpace 1.4.0,后来经过历次升级,最新版本为 1.7.0 版。当前已经建成的 IEEE 电子资源长期保存与服务系统集成了近 270 万条数据,正式向校内读者提供检索服务。主要的扩展开发

14、工作包括:(1)电子资源数据库的长期保存。由于电子资源数据库的格式各异,需要提供多种常见格式的资源转换程序,转换成 DSpace 支持的导入格式,批量导入系统。同时为了资源迁移的需要,也需要提供导出工具,导出成常见的格式 3。(2)对电子资源数据库的检索服务。对电子资源数据库进行长期保存的一个重要目的是为了能够提供长期检索服务,DSpace 提供了基本的检索功能,可以满足常见的检索需要,而且提供了扩展的接口,用于定制扩展的检索需要 3。为了使读者在使用本系统时能够保持与原始数据库平台一致的使用习惯和效果,将高级检索的检索字段重新组织映射,提供与 IEL 新平台一致的高级检索功能。(3)逐级优化

15、资源导入模块,以适应大批量数据加载的性能需求。DSpace本身的资源导入工具在处理小批量数据时(10 万条以内) ,性能还可以接受。当数据规模超过 100 万条之后,数据导入的性能急剧降低,几乎无法满足及时的数据更新要求。针对这些问题,我们对 DSpace 的资源导入模块进行了逐级优化,通过采用数据库优化,多线程等技术提高数据加载的性能,使得系统能够及时更新数据,尽快给读者提供新数据的检索服务。(4)基于 XML 的界面升级和定制。从 DSpace 1.5 版本之后,基于 XML 的界面技术 Manakin 被集成到 DSpace 系统中。Manakin 采用 Apache Cocoon 网页

16、发布框架,使用管道的概念来描述将内容发布成 Web 页面的过程。Manakin 通过配置这条像积木玩具一样的 Cocoon 管道,实现从管道的输入设备输入页面请求文档,而从输出设备得到系统用户想要的结果和表现形式 4。为了提供更好的用户体验,我们在服务平台中采用了 XML 界面,并创建了与 IEL 新平台界面风格相似的主题(Theme),对高级检索,检索结果列表,检索结果简单显示,复杂显示等页面进行了修改和定制。图 3 基于 Manakin 技术的电子资源长期保存服务系统界面2.2 清华大学机构知识库建设清华大学机构知识库建设主要分为三个阶段:第一阶段,探索阶段,在2005 年底开始基于 DSpace 的清华大学学生优秀作品数据库建设,在 2008 年底开始 OAPS 联合网站的建设。第二阶段,正式启动阶段,在 2009 年正式启动我校机构知识库中心平台的建设。第三阶段,深入推广阶段,部分院系机构知识库的建设,协助清华深圳研究生院机构知识库的建设,环境学院机构知

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号