国外WebArchive项目对我国的启示

资源描述

《国外WebArchive项目对我国的启示》由会员分享，可在线阅读，更多相关《国外WebArchive项目对我国的启示（11页珍藏版）》请在金锄头文库上搜索。

1、国外Web Archive项目对我国的启示以澳大利亚PANDORA为例闫晓创2012-11-13 9:38:07来源：浙江档案(杭州)2011年10期【英文标题】Enlightenment of Foreign Web Archive Project to China： With Australian PANDORA Project as an Example【作者简介】闫晓创，中国人民大学信息资源管理学院（北京100872）。【内容提要】分析澳大利亚PANDORA项目的网络信息采集策略、资源保存方式、服务提供、信息检索及技术架构，提出对我国网络信息资源保存在法律环境、战略定位、合作模式等方面

2、的启示。【关键词】Web Archive/PANDORA/网络信息保存目前，网络信息资源已经成为世界上最大的信息资源库，许多网页具有重要的社会、经济等价值；然而由于网页不断更新，其寿命一般较短，因此对网络信息资源进行保存，建立网页档案馆（Web Archive）十分必要和迫切。从国际上来看，网络信息资源保存的研究始于1996年，目前开展了众多的相关项目，其中澳大利亚PANDORA项目是开展较早且至今发展较完善的一个项目；我国在网络信息资源保存方面还未取得太多进展，仅有国家图书馆和北京大学进行了相关的研究。本文通过对PANDORA项目的分析，提出了它对我国网络资源保存的借鉴意义，进一步明确我

3、国档案部门应在其中发挥的作用。一、PANDORA项目分析（一）基本情况1996年，澳大利亚国家图书馆发起了对澳大利亚在线出版物、具有重要文化价值网站开展的长期保存计划，即PANDORA（Preserving and Accessing Networked Documentary Resources of Australia）项目。它是世界上最早的Web Archive项目之一，现在已发展为与其他11个澳大利亚各地的图书馆和文化遗产机构共同合作进行，到目前为止已经较为完善。PANDORA保存的网络资源主要包括：政府的公开出版物、教育机构出版物、会议论文、电子期刊、索引和摘要代理商提供的item、

4、在某主题领域运行三年以上和记载当前重要社会、政治等内容的网站（如选举网站、2000年悉尼奥运会网站）等。截止到2011年6月22日，PANDORA共保存超过240 437 896条网络资源，提供艺术与人文、商业与经济、电脑与网络、教育、环境、健康、历史与地理、青少年、法律与犯罪学、新闻与媒体、政治与政府、科学与技术、社会与文化、运动与休闲15个主题的网络信息资源1。（二）采集策略：选择性采集PANDORA项目是对网络资源进行选择性地搜集，一般情况下对网站资源进行全部采集，有时只会选择一部分，如对于一个较大网站只会采集电子期刊、科技报告等网络出版物。进行选择性采集时，依据指定的相关采集指南，PA

5、NDORA项目在采集前会征求所有采集对象所有者的许可，而对外部链接，如果不在采集范围内，或没有征得所有者的许可是不会采集的。由于PANDORA项目包括的12个成员中，除了澳大利亚国家图书馆之外都是地区性的，每个成员所关注的内容不同，采集的内容也不相同，所以每个成员都有各自的选择指南。PANDORA项目对网络连续出版物，进行周期性采集，对专著进行一次性采集。采集的格式主要为常见的15种，占据了收藏的95，有HTML、JPEG、PDF、TXT等格式。这样在有限的格式范围内可以保障资源最大程度上的统一，更重要的是减少了格式转换的复杂性以及可能出现的各种问题2。PANDORA项目对采集到的资源按照澳大

6、利亚国家图书馆的标准进行加工，开发了PANDAS系统，工作流程主要包括：识别、选择和登记主题；征求发布者的许可并存档；制定相应的采集制度；进行采集；对质量控制进行检查；进行归档；对归档的资源组织相关的元数据。PANDORA项目的成员利用PANDAS工作的内容包括：登记归档文件题名；标明出版商的权限；设置采集时间表；保证一个文件的质量和准确性；将文件名进行归档；生成书名款目；链接到出版商的版权声明3。由于所有的成员统一采用了PANDAS系统进行质量控制、并且由项目成员对采集到的资源实施严格的审核，通过审核后才能归档，这就保障了PANDORA项目中网络资源的质量。但由于选择性采集具有主观性，并且割

7、裂了网络资源之间的关系，不能完整反映网络信息资源的全貌，并且选择性采集加入了较多的人工干预，因此成本非常高。为了弥补选择性采集的不足之处，从2005年开始PANDORA还进行了三次大规模的采集：第一次基于时间限制对.au域名进行采集，后两次基于文档规模，限定最小采集对象为500 Million个对立URL4。采集数据如表1、表2和表3所示5，从表中可以看出不同性质域名三年的采集数据及所占的比例。除了PANDOILA项目成员进行网络资源的采集外，它还接受公众、出版商、网站所有者等提供资源，在PANDORA网站中有notification form，可以进行相关网络信息资源的提交。提交的信息主要

8、包括机构名、负责人名字、电话、e-mail，URL的题名，发布日期和发布地点等。这就增加了项目归档的内容的丰富性，调动全社会的力量进行也必定能够取得良好的社会效果。（三）资源存档：基于多文件服务网络资源的存档与一般资源不同，不但需要适应网络资源动态性强和更新增长速度快的特点，更关键的是还要能够支撑现在和将来的访问服务。PANDORA为解决大量数据访问和保存之间的冲突，将存档分为三个层次：一是持续工作所需的存档，主要是预存档数据；二是确保长期保存的存档，包括长期保存资源、元数据；三是提供访问的存档，主要用于访问派生物。出于存档安全的考虑，PANDORA同一份资源不能用于多种服务，因此，PANDA

9、S系统对数字对象进行了分类，需要保存的网络资源经过检测后，保存在数字对象存储服务系统（Digital Object Storage Service, DOSS）中。该系统是基于SAN结构的底层存储系统。DOSS包括三部分：1.Preservation Master：采集获得未经改动的备份文件，以tar格式保存在DOSS存储系统中。2.Archive Master，将经过数据检测的备份文件，以tar格式保存在DOSS存储系统中。3.Metadata Master，保留目录结构和源web服务文件名，以及从每个文件中的HTTP应答的元数据，也以tar格式保存在DOSS存储系统中并以描述性元数据为主6

10、。PANDORA的这种存档策略，通过几个阶段不同的备份形式进行存档，并将保存和使用资源的方式进行分离，缓解保存和访问冲突的同时也保障了数据的可还原性。（四）资源检索：独立的检索系统PANDORA为检索服务建立了一个专门的网站Trove（http:/trove.nla.gov.au/website）。Trove界面非常友好且内容丰富，可注册论坛，还可购买检索出的内容。它支持对书目、图片、电子报纸、音视频、地图、1996年至今归档的网站、人和组织机构等的检索。它提供关键词、短语、位置、通配符检索等基本检索；还提供多项字段组合的高级检索；打开某主题后，可进一步限定语种、格式、是否可以免费得到等信息限

11、定检索，并提供每种的具体的数目信息。（五）服务提供：分类服务PANDORA针对不同主体提供更加细致、有效和针对性的分类服务，四大主体分别为出版商、索引和摘要机构、研究者和其他档案机构。1.针对出版商：提供了四个指导准则，并且出版商可以通过复制PANDORA提供的相应代码将PANDORA的检索框放置到自己的网站上，实现在自己的网站中检索PANDORA系统中的资源。2.针对索引和摘要机构：允许机构填写相关的表格进行相关信息的提交，信息主要包括机构名、负责人名字、电话，E-Mail，URL的题名、发布日期和发布地点等。当完成审核后可以对摘要和索引提供永久的UPL，这可以保证在PANDORA中对这些文

12、献进行索引时将会永久存在。3.针对研究者：服务主要体现在研究中文献的引用，它解决了当引用网页文献时，由于网页寿命过一段时间可能消失的情况，PANDORA为网页文献提供唯一的标识符（PURL），永远不用担心网页消失。PANDORA的检索系统还积极与其他商业搜索引擎合作，可以通过Yahoo！和GOOGLE可以检索到它保存网页的标题。这也极大地方便了用户，也扩大了PANDORA的社会影响以及为公众提供更加便捷的服务。为了更好地提供服务，PANDORA还在首页提供了一个quick survey服务，用户可以通过它进行反馈，提出自己的意见和建议。便于PANDORA立生行不断地完善和改进。PANDORA的

13、服务考虑到了各个层面，相对较为完善，不过对动态网页和音视频等资源的服务还需进一步提高。此外，在信息采集中如何解决采集的质量和速度以及信息采集的合法性问题等都需要深入的进一步研究。（六）技术架构PANDAS采集系统是一个工作流程系统，它能使采集信息的负责人依据设定的采集标准，基于网络进行采集，可以通过一系列的网络搜索插件和关联的软件来查看归档的信息。这个系统包括利用Web Objects应用框架写成的Java程序；利用Oracle 8i RDMS进行元数据存储；离线浏览器工具和镜像工具HTT rack：基于Oracle表格和报告的阅读设施。流程和元数据系统是基于Sun Solaris serve

14、r，而采集器采用Linux服务器。采集系统主要由以下几部分构成：1.存储系统（DOSS）：它是基于SAN结构的底层存储系统，web对象经过数据检测后以压缩的形式保存到DOSS存储系统中（详细见上文）。2.传递系统（Delivery system）：该系统利用Apache/WebObjects/Java and Oracle来提供资源开发，导航和获取的服务，该服务由Sun Solaris server提供托管。3.检索系统（Search index via Trove discovery service）：Trove是PANDORA专门建立的一个提供搜索服务的平台，这个平台实现了与归档的所有资源的无缝连接。Trove检索平台非常人性化，进行相关内容的推送等服务。二、PANDORA项目对我国网络信息资源保存的启示（一）建立网络资源保存系统体系我国的互联网事业发展迅速，网络上产生的众多非常有价值的资源，如果得不到有效的保存，随着时间的流逝这些都会消失，从而造成巨大的文化记忆的损失。目前对于网络信息资源的保存，国内的研究非常少，主要有北京大学的“web信息博物馆”（http:/

展开阅读全文