lockss数字资源长期保存策略精选

上传人:小** 文档编号:39283008 上传时间:2018-05-14 格式:PDF 页数:7 大小:216.86KB
返回 下载 相关 举报
lockss数字资源长期保存策略精选_第1页
第1页 / 共7页
lockss数字资源长期保存策略精选_第2页
第2页 / 共7页
lockss数字资源长期保存策略精选_第3页
第3页 / 共7页
lockss数字资源长期保存策略精选_第4页
第4页 / 共7页
lockss数字资源长期保存策略精选_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《lockss数字资源长期保存策略精选》由会员分享,可在线阅读,更多相关《lockss数字资源长期保存策略精选(7页珍藏版)》请在金锄头文库上搜索。

1、 LOCKSS 数字资源长期保存策略 吴振新 李春旺 郭家义 (中国科学院文献情报中心,北京:100080) 文 摘:本文介绍了斯坦福大学图书馆发起的数字资源持久保存研究项目LOCKSS系统,讨论了 LOCKSS 项目的体系结构、系统运行原理、系统技术概况和合作机制等。 关键词:电子出版物;长期保存;LOCKSS; 分类号:G253 Long-term Preservation Project LOCKSS Research Wu Zhenxin Li Chunwang Guo Jiayi (Library of Chinese Academy of Science, BeiJing:1000

2、80) Abstract: This article introduces LOCKSS, a long-term preservation project of electric publication developed by the Library of Stanford University. This article also discusses system architecture, system functions, technologies and cooperation mechanism, etc. Keywords: electric publication; long

3、-term preservation; LOCKSS project 数字资源长期保存问题已经受到越来越多的重视, 国内外有很多研究项目, 提出了多种解决方案,其中美国斯坦福大学的 LOCKSS 项目以其 peer-to-peer 分布式保存策略在欧美引起了广泛关注,目前国内部分图书馆也对该项目产生了浓厚兴趣。作为数字资源持久保存国际合作项目的参与人,我们曾与 LOCKSS 项目组在系统测试以及中文期刊 plug-in 开发等方面进行了合作,本文对 LOCKSS 系统进行全面介绍和分析,以期推动 LOCKSS 系统在国内的研究与应用。 1 LOCKSS 长期保存思想长期保存思想 LOCKSS

4、(Lots of Copies Keep Stuff Safe)1 ,意为通过建立多个副本保证数据的安全,即通过建立出版商与图书馆之间的协作关系,允许图书馆在本地收藏、管理电子期刊(图书馆订阅期刊的电子版)并提供用户服务的信息系统。它是由美国Stanford 大学图书馆发起并组织实施的,受美国国家自然基金、Sun Microsystems Inc 以及the Andrew W. Mellon 基金支持。LOCKSS主要致力于解决电子期刊的永久保存与利用问题。它通过建立出版商与图书馆、图书馆与图书馆之间的协作平台,提出了从电子资源出版、发布到永久性保存与利用等一整套解决方案。 图书馆获得出版商授

5、权后,可以利用 LOCKSS 工具在本地创建一个低费用、永久保存的数字化信息缓存站点, 实现对订购电子信息的采集、 本地存储、 管理以及用户服务等功能。LOCKSS 还包括图书馆之间的协作,即建立联盟图书馆间资源共享与协作机制,实现本地资源的动态更新、损坏修复、丢失补遗等功能,保证资源的完整性及永久有效性。在这种管理模式下,图书馆的电子信息收藏不会受到出版商变化、恶意攻击、自然灾害、政府法令以及丢失等问题的影响, 以电子期刊取代印刷本期刊的安全性得到了有力的保证。 由于图书馆可以为读者提供持续的、永久性电子信息存取服务,从而也保证了图书馆的社会利益。 基于 LOCKSS 协作模式,出版商将以最

6、小的经营模式及出版平台改变风险实现电子期刊的发布,通过 LOCKSS 联盟不断扩大发行范围与访问数量,同时拥有更高的数据访问与交流控制能力。另外,在 LOCKSS 模式下,出版商不再承担信息永久保存的责任,将永久1性保存以及读者服务功能归还给图书馆,使出版商仍然专注于自己传统的出版发行工作。 当前,LOCKSS 系统保存的数字对象主要是通过网络传递的、内容具有权威性的连续出版物,包括电子期刊、报纸、政府文件等类型的资源,这也是目前图书馆使用比较多的数字资源类型,并迫切希望实现对这类电子资源的永久性保存与利用。LOCKSS 系统可以实现商业电子资源以及开放资源的收集与保存。对于商业电子资源,LO

7、CKSS 要求保存单位必须已经获得相关资源的使用权,即保存单位已经订阅或购买了相关资源。LOCKSS 系统支持出版商在线权限认证, 利用图书馆从出版商处获得的授权信息, 通过出版商网站认证后,才可以采集授权范围内的资源, 越权采集将被拒绝。 这不但实现了图书馆本地保存已订购电子资源副本的需求,而且,出版商的利益也得到了保证。 LOCKSS 系统支持开放资源的采集及本地保存。学术资源开放使用在国外发展很快,过去图书馆对此重视不够,没有对开放获取资源进行采集、保存、编目以及有组织的利用。随着科研环境的变化以及人们使用学术信息习惯的改变, 开放存取资源的组织与利用将成为图书馆的一项重要工作。LOCK

8、SS 已经注意到这种发展趋势,并在系统结构设计及功能实现上支持对开放存取资源的采集、保存与使用。 2004 年春,LOCKSS项目发布了LOCKSS正式版。作为一个开放源码的工具系统2,LOCKSS可以方便、快捷地联络出版商与图书馆、图书馆与图书馆之间的关系,实现分布式信息发布、永久性保存以及用户服务等功能。目前,LOCKSS在继续完善软件系统的同时,积极发展联盟成员, 希望能吸引更多的图书馆及出版商参加进来, 实现全球图书馆和出版商之间的协作。现在全球有 80 多个图书馆和 50 多个出版商参加了LOCKSS项目,出版商提供的数据内容目前已逐渐加入到系统中。 亚洲地区的香港理工大学, 印度甘

9、地原子能研究中心(Indira Gandhi Centre for Atomic Research) ,新加坡国立大学和中国科学院文献情报中心等参加了LOCKSS项目的测试与研究。 2 LOCKSS体系结构体系结构3(1)LOCKSS 系统层次模型系统层次模型 LOCKSS 系统包含一个重要名词:Caches,一个 Caches 就是本地图书馆内的一台存储电子出版物的计算机,一个图书馆可以拥有多个 caches。 一个完整的 LOCKSS 系统包括三部分内容: 顶层的出版商数据库、 中间的图书馆 Caches点、底层的用户群。Caches 与出版商网站之间实现初始电子资源的采集,即图书馆根据授

10、权从出版商网站采集电子资源。中间层 Caches 既包括同一图书馆内部的多个 Caches,也包括不同图书馆间的 Caches,各个 Caches 之间彼此互连,呈网状结构分布,这种结构实现了Caches 间互相备份支持的目标。底层是用户,每个 Caches 都提供本地服务,也可以将多个Caches 集成后为特定的用户群提供服务。 在技术实现上, LOCKSS采取灵活的、 可扩展的 3 层结构: 基础平台、 后台程序和plug-in。2图 1 LOCKSS 系统 Cashes 网状分布示意图 基础平台是一个分布式操作系统环境,用户安装非常简单;后台(Daemon)是LOCKSS系统运行管理、调

11、度层,在操作系统的支持下,实现采集任务调度、资源本地存储、信息损坏检测与修补、用户服务代理以及管理管理员界面等全部功能;plug-in是LOCKSS系统采集期刊资源的基本配件,针对不同的出版商及电子期刊,LOCKSS开发不同的plug-in,以实现对特定网站电子资源的搜索与采集4。 (2) LOCKSS 系统工作流程系统工作流程 LOCKSS 系统的基本工作流程是:出版商在 web 上发布一个 manifest 页,包括允许LOCKSS 系统爬行网站内容的声明、可选择的元数据标准以及资源内容链接;图书馆的Caches 保存并验证此页内容,然后将资源内容链接作为爬行起点,LOCKSS 爬行器开始

12、在网络中漫游并按用户指定策略收集相关信息,Caches 将爬行下来的内容进行保存;通过web 浏览器为本地用户提供浏览服务;利用出版商数据库及联盟 Caches,定期进行资源审核和修补服务,以保证信息的完整性。 LOCKSS 支持多种文件格式的采集与本地保存,如 html、 jpg、 gif、 wav、 pdf 等。出版者最新出版的内容可以及时被 LOCKSS caches 收集。一旦一个图书馆激活了对某一电子期刊的保存, 那么它的新发布内容就会被不断地收集和保存, 只有图书馆改变目录集合或出版者改变许可时,这个过程才中断。出版商只对自己授权的 Caches 提供信息访问和修补服务,互相提供修

13、补服务的 Caches 也应该是数据库出版商授权用户,这样既保证信息的可访问性,又解决了信息服务的授权问题。 3 LOCKSS 长期保存策略长期保存策略 3.1 LOCKSS 基本技术策略基本技术策略 LOCKSS 采取点(caches)到点(caches)的通信方式。 Caches 预先爬行 web 获取相关新出版的信息,和普通 caches 不同的是其内容不会被冲消(flushed) ,caches 协同工作,自动检测修复任何被损坏的内容,Cache 资源被永久性审核,无须人的干预。其内容可以是 HTTP 传递的任何格式的信息。 Caches 之间起到内容互相备份的作用,caches 越多

14、,整个系统的安全系数就越高。 (1)安全策略 LOCKSS 系统开发过程充分考虑可能遇到的安全性问题,并尽可能采用系统特定的技术方法和解决方案将系统的风险降低到最小, 从而建立具有良好安全性的分布式长期保存系统。 首先,采取存储与操作系统分离策略。LOCKSS 系统作为一个完全的网络应用,操作系统可能受到的安全威胁最大,因此,LOCKSS 系统在设计过程中,将操作系统和存储系统分离,防止非法用户对操作系统的攻击。具体措施是 LOCKSS 系统使用 OpenBSD 作为操作系统,并将该操作系统保存在光盘中,系统通过光盘引导运行,利用 PC 机存储缓存内容,配置信息存储在一张软盘上,无需向硬盘安装

15、任何软件。LOCKSS 系统会有规律地进行自我检测,并通过重新启动完成更新。同时系统也充分考虑了主机网络安全问题、对攻击的解决办法等。其次,采用轮询和投票策略。为了保证系统缓存内容的安全性和完整性,LOCKSS 系统采用 peer-to-peer 的轮询和评价机制,定期检查存储内容的完整性,一旦发现问题,可以通过其他 LOCKSS 系统修复内容。LOCKSS caches 之间通过合作检验并修复损坏的内容,使得这个系统既精力充沛又安全。最后,采用权利分离策略。LOCKSS 使用无特权 child 处理程序错误, 如果在无特权的 child 中发生 bug 不会导致系统瘫痪。 即系统是在Open

16、SSH 彻底的权利分离。 3(2)成本效益策略 LOCKSS 项目在开发、运作过程非常注意成本投入与产出的合理性,在系统工作过程中试图以最小的成本,获得数字资源持久保存的最佳效果。 首先是系统开发的成本分担。LOCKSS系统是由多方基金支持的合作项目,并通过合作机制确保开发费用的均摊,尽可能降低开发成本。LOCKSS开发组通过开放系统源代码的方式,鼓励项目合作者参与到软件开发过程中,并在合作者软件开发过程给予技术支持,从而一方面保证开发成本的分享,另一方面可能避免合作开发者的成本的提高。例如,LOCKSS系统鼓励合作者中国科学院文献中心开发中文期刊的相关软件, 并通过各种途径给予了技术上的支持。 其次, 系统采用低投入的用户硬件实现技术降低成本。 LOCKSS运行在低档硬件,即个人电脑上,不需要特殊的技术上的管理,所以硬件成本很低;由于系统的安全性和易用性,系统管理的投入很少,所以管理的费用也很低。同时系统开发者考虑到硬件产品价格下降等因素,认为,从长远角度,保存数字资源的成本将从 2004 年的 0.35 美元下降到 2007年的 0.07

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 其它文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号