学科信息门户建设中深层网页资源采集的方法与策略

上传人:洪易 文档编号:40528888 上传时间:2018-05-26 格式:DOC 页数:4 大小:41KB
返回 下载 相关 举报
学科信息门户建设中深层网页资源采集的方法与策略_第1页
第1页 / 共4页
学科信息门户建设中深层网页资源采集的方法与策略_第2页
第2页 / 共4页
学科信息门户建设中深层网页资源采集的方法与策略_第3页
第3页 / 共4页
学科信息门户建设中深层网页资源采集的方法与策略_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《学科信息门户建设中深层网页资源采集的方法与策略》由会员分享,可在线阅读,更多相关《学科信息门户建设中深层网页资源采集的方法与策略(4页珍藏版)》请在金锄头文库上搜索。

1、随着网络技术的日益发展,网络信随着网络技术的日益发展,网络信 息资源正以人们难以想象的速度增息资源正以人们难以想象的速度增 长,网络也日渐成为人们获取信息长,网络也日渐成为人们获取信息 的主要途径之一。搜索引擎为人们的主要途径之一。搜索引擎为人们 从海量网络信息资源中查找所需信从海量网络信息资源中查找所需信 息提供了便捷途径,但由于其返回息提供了便捷途径,但由于其返回 的信息资源在查准率和查全率上都的信息资源在查准率和查全率上都 无法得到保证,人们经常会得到许无法得到保证,人们经常会得到许 多无用信息,反而降低了信息资源多无用信息,反而降低了信息资源 的使用效能。因此学科信息门户顺的使用效能。

2、因此学科信息门户顺 应时代发展需要应运而生,用户可应时代发展需要应运而生,用户可 通过学科信息门户快捷、有效地发通过学科信息门户快捷、有效地发 现高质量的网络信息,同时使他们现高质量的网络信息,同时使他们 尽可能多地获得有价值的信息和信尽可能多地获得有价值的信息和信 息资源。本文认为高质量学科信息息资源。本文认为高质量学科信息 门户建设应注重深层网页资源的收门户建设应注重深层网页资源的收 集与整合利用,并应重视深层网页集与整合利用,并应重视深层网页 资源采集的方法与策略。资源采集的方法与策略。1 学科门户网站建设现状学科门户网站建设现状学科信息门户学科信息门户(Subject Informat

3、ion Gateway,SIG)是是“提供提供 可检索和可浏览的互联网资源目录可检索和可浏览的互联网资源目录 的联机服务系统,一般集中于某一的联机服务系统,一般集中于某一 相关的学科领域,提供对经图书馆相关的学科领域,提供对经图书馆 工作人员遴选和按学科组织的互联工作人员遴选和按学科组织的互联 网资源的利用。网资源的利用。 ”1它致力于将特定它致力于将特定 学科领域的信息资源、工具与服务学科领域的信息资源、工具与服务 集成到一个整体中,为用户提供一集成到一个整体中,为用户提供一 个方便的信息检索和服务入口。从个方便的信息检索和服务入口。从 本质上讲,学科信息门户是含有不本质上讲,学科信息门户是

4、含有不 同分类主题的网页及相关链接的网同分类主题的网页及相关链接的网 上图书馆。主要特点是有较多的人上图书馆。主要特点是有较多的人 工参与,通过质量标准规范资源的工参与,通过质量标准规范资源的 选择,并提供对资源的丰富描述;选择,并提供对资源的丰富描述; 提供依据学科体系结构和资源类型提供依据学科体系结构和资源类型 分类的浏览和检索入口;有对资源分类的浏览和检索入口;有对资源 的管理和长期发展的政策、元数据的管理和长期发展的政策、元数据 应用与标引规范、资源共享与互操应用与标引规范、资源共享与互操 作机制等作机制等2。自自 1996 年年 DESIRE 一期工程开一期工程开 始,学科信息门户就

5、在欧洲范围内始,学科信息门户就在欧洲范围内 逐渐普及,一大批面向数学、工程逐渐普及,一大批面向数学、工程 科学、医学、社会科学的学科信息科学、医学、社会科学的学科信息 门户相继建立,到门户相继建立,到 2001 年年 DESIRE项目进入第二期时,学科信息门户项目进入第二期时,学科信息门户 已经在世界范围内呈已经在世界范围内呈“燎原燎原”之势,之势, 在美洲、欧洲、大洋洲广泛实施。在美洲、欧洲、大洋洲广泛实施。 并且在并且在 2000 年以后逐渐从单个的研年以后逐渐从单个的研 究项目向大规模的建设项目转化,究项目向大规模的建设项目转化, 模块化的功能组件又使学科信息门模块化的功能组件又使学科信

6、息门 户呈现出丰富多彩的形态,并且在户呈现出丰富多彩的形态,并且在 组织上、商业模式上同其他的企业组织上、商业模式上同其他的企业 信息门户、知识门户相互交融,出信息门户、知识门户相互交融,出 现了形式和内容的统一态势现了形式和内容的统一态势3。国。国 际上比较权威的学科信息门户网站际上比较权威的学科信息门户网站 有英国的有英国的 RDN、SOSIG,欧洲的,欧洲的 RENARDUS,美国的,美国的 LII 等。等。随着国外大规模的学科信息门随着国外大规模的学科信息门 户建设以及国内学者对学科信息门户建设以及国内学者对学科信息门 户的研究,学科信息门户建设的思户的研究,学科信息门户建设的思 想和

7、理念逐步为国内业界接受。国想和理念逐步为国内业界接受。国 内最早是上海图书馆于内最早是上海图书馆于 1999 年开始年开始 建设的建设的“数字图书馆资源总汇表数字图书馆资源总汇表” , 现在已发展成为现在已发展成为“数字图书馆数字图书馆”资资 源门户。源门户。2002 年年 3 月开始至今,在月开始至今,在 中科院知识创新工程科技基础设施中科院知识创新工程科技基础设施 建设专项建设专项“国家科学数字图书馆国家科学数字图书馆 (CSDL)项目项目”的子项目资助下,我的子项目资助下,我 国已建成的有生命科学、化学、数国已建成的有生命科学、化学、数 字物理、资源环境、图书情报、长字物理、资源环境、图

8、书情报、长 江流域资源生态环境、天然药物、江流域资源生态环境、天然药物、 微生物、科技政策与管理等微生物、科技政策与管理等 9 个学个学 科信息门户和中心门户科信息门户和中心门户4。热点门。热点门 户是国家科技图书文献中心组织建户是国家科技图书文献中心组织建 设的一个网络信息资源门户类服务设的一个网络信息资源门户类服务 栏目,目前已建成纳米科技、认知栏目,目前已建成纳米科技、认知 科学、食物与营养、艾滋病预防与科学、食物与营养、艾滋病预防与 控制等四个热点门户。其它的学科控制等四个热点门户。其它的学科 信息门户还有武汉理工大学图书馆信息门户还有武汉理工大学图书馆 的的“材料复合新技术信息门户材

9、料复合新技术信息门户” ,中,中 国林业科学研究院科技信息所和中国林业科学研究院科技信息所和中 国林科院图书馆合作建设的国林科院图书馆合作建设的“林业林业 学科信息门户学科信息门户”等。等。国内学科信息门户在软件平台国内学科信息门户在软件平台 的完善性、数据标准化、数据共享的完善性、数据标准化、数据共享 性、高质量信息资源数量、描述对性、高质量信息资源数量、描述对 象数量等方面存在着一定的不足象数量等方面存在着一定的不足5, 有些学科信息门户缺乏高质量的有有些学科信息门户缺乏高质量的有 效网络信息资源。除材料复合新技效网络信息资源。除材料复合新技 术信息门户、数字图书馆资源门户、术信息门户、数

10、字图书馆资源门户、微生物特色学科信息门户、青藏高微生物特色学科信息门户、青藏高 原研究专题信息门户等能管理网络原研究专题信息门户等能管理网络 信息资源和本地实体信息资源外,信息资源和本地实体信息资源外, 其它门户均只链接网络信息资源。其它门户均只链接网络信息资源。 这种现状不利于信息资源的整合、这种现状不利于信息资源的整合、 服务和信息资源开发,不能适应数服务和信息资源开发,不能适应数 字图书馆集成服务的发展方向,也字图书馆集成服务的发展方向,也 不能满足用户对信息资源一站式服不能满足用户对信息资源一站式服 务的要求。务的要求。2 深层网页资源的价值深层网页资源的价值由于目前标准的搜索引擎只能

11、由于目前标准的搜索引擎只能 发现互联网上的静态网页并建立索发现互联网上的静态网页并建立索 引,无法对被深埋在动态产生的网引,无法对被深埋在动态产生的网 站之下的大量信息资源进行搜索。站之下的大量信息资源进行搜索。 因此,有许多信息由于其身处网络因此,有许多信息由于其身处网络 深层而无法被发现。对于这些处在深层而无法被发现。对于这些处在 网络深层的信息资源,有学者称其网络深层的信息资源,有学者称其 为不可视网络、隐蔽网络为不可视网络、隐蔽网络6 (invisible web,hidden web)、深层网、深层网 页资源页资源(Deep Web,Deep Internet)7。自自 1994 年

12、年 Dr.Jill Ellswonh 提提 出出 Invisible web 这个概念以来,国这个概念以来,国 外针对深层网页资源的研究相当热外针对深层网页资源的研究相当热 烈,且成果众多。内容涉及理论研烈,且成果众多。内容涉及理论研 究、检索软件、搜索引擎等,形式究、检索软件、搜索引擎等,形式 有专著、论文、软件及博客等。深有专著、论文、软件及博客等。深 层网页资源的潜在价值及商机还引层网页资源的潜在价值及商机还引 起了商界的重视,起了商界的重视,2004 年年 9 月月 14 日日 下午,微软亚洲研究院负责互联网下午,微软亚洲研究院负责互联网 搜索和数据挖掘的马维英向记者演搜索和数据挖掘的

13、马维英向记者演 示微软在网络搜索技术方面的三大示微软在网络搜索技术方面的三大 新近展,其中一个就是从表层万维新近展,其中一个就是从表层万维 网到深层万维网,充分利用大量隐网到深层万维网,充分利用大量隐 藏的高质量信息藏的高质量信息7。雅虎推出了。雅虎推出了 “内容获取项目内容获取项目” ,该项目意在为公,该项目意在为公 共数据库中的数十亿个网页提供搜共数据库中的数十亿个网页提供搜 索索引索索引8。与此形成鲜明对比的是,。与此形成鲜明对比的是, 国内学者并不太重视这个问题,相国内学者并不太重视这个问题,相 关论述较少,极少有学科信息门户关论述较少,极少有学科信息门户 网站将这部分极具学术研究价值

14、的网站将这部分极具学术研究价值的 网络信息资源作为特色信息资源加网络信息资源作为特色信息资源加 以收集整合。以收集整合。根据根据 Bright Planet 对深层网页对深层网页资源的范围、数量及相关性调查结资源的范围、数量及相关性调查结 果表明,深层网页资源有以下特点果表明,深层网页资源有以下特点 9:(1)信息量大。深层网页的信息信息量大。深层网页的信息 量达量达 7500TB,是,是 WWW 资源的资源的 400550 倍。它拥有近倍。它拥有近 5500 亿个文亿个文 档,而表层网络只有档,而表层网络只有 10 亿个。亿个。2000 年深层网页站点已超过年深层网页站点已超过 20 万个,

15、万个, 2004 年达到年达到 30.7 万个,其中万个,其中 60 个个 最大的深层网页站点收集的信息约最大的深层网页站点收集的信息约 有有 750GB,超过表层网络范围,超过表层网络范围 40 倍。倍。(2)利用率高。深层网页站点的利用率高。深层网页站点的 访问率很高,月访问量是表层网络访问率很高,月访问量是表层网络 站点的站点的 150%,且经常被其它网络资,且经常被其它网络资 源链接;但是许多典型的深层网页源链接;但是许多典型的深层网页 站点不为大众所熟知。站点不为大众所熟知。(3)发展迅速。深层网页资源是互发展迅速。深层网页资源是互 联网上新生信息增长最大的一个种联网上新生信息增长最

16、大的一个种 类,类,2000 年年2004 年间增长了年间增长了 3-7 倍。倍。(4)信息质量高。深层网页站点信息质量高。深层网页站点 倾向于学科范围更狭窄、内容更深倾向于学科范围更狭窄、内容更深 入的方向发展。信息内容与每个所入的方向发展。信息内容与每个所 需信息、市场及领域具有较高的关需信息、市场及领域具有较高的关 联性,且大部分联性,且大部分(54%)深层网页资源深层网页资源 存放在专题数据库存放在专题数据库(topic-spe-cific databases)中,经统计分析其高质量中,经统计分析其高质量 内容比表层网络多内容比表层网络多 1000-2000 倍。倍。(5)免费开放。免费开放。95%的深层网页的深层网页 资源对公众免费开放,即无需支付资源对公众免费开放,即无需支付 费用或订购使用。付费资源前费用或订购使用。付费资源前 3 位位 分别是分别是 DBT Online、Lexis-Nexis 和和 DIALOG,占付费资源的,占付费资源的 71%; 免费开放资源的前

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号