网络资源特点与自动化采集技术方案

上传人:第*** 文档编号:55153047 上传时间:2018-09-25 格式:PPT 页数:21 大小:644KB
返回 下载 相关 举报
网络资源特点与自动化采集技术方案_第1页
第1页 / 共21页
网络资源特点与自动化采集技术方案_第2页
第2页 / 共21页
网络资源特点与自动化采集技术方案_第3页
第3页 / 共21页
网络资源特点与自动化采集技术方案_第4页
第4页 / 共21页
网络资源特点与自动化采集技术方案_第5页
第5页 / 共21页
点击查看更多>>
资源描述

《网络资源特点与自动化采集技术方案》由会员分享,可在线阅读,更多相关《网络资源特点与自动化采集技术方案(21页珍藏版)》请在金锄头文库上搜索。

1、网络信息资源自动化采集技术方案策划,网络信息资源的特点,数量巨大网络信息资源量大,内容丰富,信息增长较快。随着计算机信息处理能力的不断增强和数字化技术的广泛应用,许多形式的信息都可以在网络中存储和传递。因此,网络信息资源将越来越丰富。 结构复杂网络信息资源分别存储在世界不同国家、不同地区的服务器上。对信息资源的组织管理没有统一标准,不同的服务器采用不同的操作系统及数据结构, 从整体上看,基本处在无序的状态。,质量参差不齐网络信息资源具有不同的层次与效用,既有科学前沿的研究报告,也有大众通俗读物;既有已经整理的信息,也有无序的原始信息;既有较大参考价值的信息,也可能混有毫无用处的“信息垃圾”,甚

2、至还有不少有害的信息。信息质量参差不齐,利用的价值差异较大。 类型多样因特网内容包罗万象,覆盖了不同学科、不同领域、不同地域和不同语言。在形式上,包括文本、图像、声音、软件、数据库等。,动态性网络信息资源是一个动态系统,许多服务器处在不断的变化之中, 网络信息更新迅速,网页的增加、删除、更新地址经常发生,信息的时效性强。由于网页更新周期缩短,使有关的内容处于一种动态的变化中。这无疑增加了网络信息搜集的难度。 关联程度强网络信息资源可利用超文本技术,通过超级链接手段,构成立体网状的联系,各个国家、各种服务器、各种网页、各种文章上的相关信息都可以通过结点连接起来,从而直接指导用户去查阅所引用的原始

3、文献。,图书馆网络信息资源整合方案策划,随着数字图书馆和信息化浪潮在全世界的兴起,网络信息资源的重要性越来越明显。网络信息资源是由数字化技术、信息存储技术、数据库技术、网络通讯技术与超文本、超媒体技术所支撑的信息资源。由于网络信息资源的内容丰富,数量巨大,网络信息资源可以成为图书馆数字资源的重要补充。,天津师范大学图书馆网络信息资源的类型结构主要包括网络文本信息资源、网络多媒体资源(视频、音频)、图片等。,天津师范大学图书馆网络资源管理系统的主要服务对象为天津师范大学学生、教师。从用户需求出发,语种以中文为主,英语及其他语种兼顾。,类型结构,语种结构,网络百科包括事物的基础名词概念(可只搜集偏

4、学术的概念解释),各个学科的原理、原则、理论等。将几个著名百科网站(百度百科、维基百科)综合汇总,对有异议的进行鉴定。同时可结合文献资料完善不完全的条目。 新闻类可对一些重要历史时刻的新闻进行搜集,除此之外可提高学术类新闻的重视,如重大学术突破、科技创新、新理论的推出等。,内容结构,零次信息 零次文献也称灰色文献。是指介于公开发行的白色文献与不公开发行的保密文献之间的既不公开发行、又不是保密的文献。主要包括政府的行政报告与科技报告、高校、科研院的内部刊物、专家学者的手稿、学术会议资料、社会调查报告等等。这些文献具有信息新、质量高、专业性强,同时信息量大、种类多、涉及面较广。 标准类对国家发布的

5、行业标准、或企业内部发行的标准进行等汇总。(只在内部使用是否侵权?),开源网络信息资源 开放获取资源是指通过互联网在线访问、永久免费阅读、下载、复制、发布、打印、检索,且不受很多版权和许可限定的学术文献和信息资源。 开放获取资源可以简称为“OA资源”(0pen Access) 。 开放获取资源的保存包括所有附件、授权声明在内的完整作品,以适当的标准存储格式存在至少一个仓储中,仓储要由学术机构、学会、政府或其他知名组织设立并管理,以确保作品能够长期持续地开放获取。 开放资源主要有四种表现形式:开放期刊、开放数据、开放仓储、科研博客。,学术科研博客 博客的思想理念与图书馆的核心精神是一致的,博客的

6、促进交流与共享的特点使得图书馆利用学术博客进行学术信息服务具有很多先天的优势。而图书馆所拥有的文献资源,人才队伍与信息技术也为图书馆应用学术博客提供了物质基础和便利条件。 学术博客这种信息服务方式还有传统图书馆不具备的一些优势,学术博客提供了了现代信息环境下非正式交流的途径,这种可交流的机制调动了用户的积极性与互动性,并且在知识共享的过程中建立了社交关系。 向用户提供博客来源的链接,可以对博主进行关注或者在原文中与博主进行探讨交流。,可选用类似搜索引擎的信息分类方法,采用多级菜单与数据库结合的方式,将经过选择的网络信息资源分为若干个类目,每个类目下又设若千个子目,其后就是数据库。除此之外还要考

7、虑天津师范大学学科分布情况,可适当删减一些本校不涉及的学科。,分类体系,网络信息资源搜集方案,设定专门人员进行定期浏览和搜索是一项非常重要的信息机构的常规性工作。网络信息搜索不同于文献收集,主要区别在于文献的收集是物化的实体,有相应出版信息,可以采购获得。而网络信息则是动态的、变化的、虚拟的,需要利用一定的计算机技术方法和文献组织专门知识进行连接、下载、存储,以便利用。因此网络信息资源的搜集不但需要娴熟的网络搜索、存储、建档技能,以及语言能力,还要具备相应的基础设施,如大容量存储设备,标准友好的检索系统等,使之在搜集之后,可以随时利用。网络信息资源搜集方式主要为,自动搜集 自动搜集指用一种网络

8、机器人(网络爬虫)的软件在因特网上漫游,定期地到指定的网站自动搜集网上从了、和站点上的各种相关信息,并且把这些信息存于本站点上,然后再对其进行加、组织和提供服务。 人工搜集 人工搜集信息的工作由网站管理员完成,浏览因特网以及利用政府机关、国内相关机构、相关学术活动与商业活动等进行信息搜集。通过信息搜集,获得该学科或领域有关的研究机构、电子图书、学术期刊、会议论坛、专家学者及其他相关的网址。这种搜集方式的优点是链接站点经人工选择,相关度较高。其缺点是效率较低,难以完整地搜集到相关的。另外,网站管理员还需周期性地检测原有链接是否依然有效,并及时排除“死链”。,对于新闻类这种时效性强的网络信息资源,

9、为了保障信息的完整性,应设置自动搜集的周期应该短一些。 百科类的网络信息资源再完成一次搜集之后,数据不会出现大范围的更新,但为了完善信息的正确性还需要进行人工介入操作。 对于零次信息类、学术博客类、标准类网络信息资源,可采用人工检索与自动搜集技术相结合。运用自动搜集技术对政府网站、知名学术博客网站进行定期搜集,并由网站管理员对这部分网络信息资源手动进行补充。,如何在宽泛的网络信息中选择有价值的信息源,提供用户利用,是各馆面临的重要问题。选择的原则与方法主要包括,浏览认定法、内容评估法和利用评估法。 浏览认定法 即由信息搜集人员定期浏览有关网站,搜索重要信息资源内容,发现有利用价值的网站或文档,

10、进行内容下载或对网页做详细描述著录,提供给用户使用。也可以直接进行链接。国外许多图书馆已将网络信息资源搜集和建档作为日常工作的一个重要内容,有专人搜集和维护。,网络信息资源选择,内容评估法 采集人员查到某些网络后,选择有关内容,送学科专家进行评价,对有利用价值的资源内容进行整理存档,或直接链接。也可专门建立网络信息资源目录,像查询图书馆文献目录一样,不同的是选择了某一个网络目录,便可以直接进入该网页浏览,快捷方便。 利用评估法 网络信息资源丰富多变,对选择的网络信息资源进行利用情况评估是进行再选择的有效办法。通过一段时间的利用,进行利用统计分析,或直接向用户调研,都可以判定该网络信息源的利用价

11、值,从而做最终的选择和取舍。专家推荐法网络万千,资源无数,单靠几个采集人员决难浏览众多的信息源。因此,可由老师或学者向图书馆推荐高质量的网站,以使更多的用户和同行专家利用。,根据需要存储的网络信息资源数据类型(文本、视频、图片、URL等)建立非结构化数据库。 采用B/C架构,在提供一定安全保障的同时,省去了对客户端的更新维护。 在进行网络资源描述时,根据需求,选择合适的元数据和专门的软件对元数据进行描述和抽取。 使用全文检索引擎,以便于对非结构化数据进行检索。,管理信息系统,其他,可以借助web2.0技术,在显示界面下提供讨论区,可由用户辅助修正网络信息资源的正确性,同时讨论区还可以提供学术讨论功能。 给予权威人士一定的管理操作权限(老师),辅助完善网络信息资源的完整性和正确性。 可向用户提供RSS推送订阅服务,便于相关主题更新的信息。,谢谢观赏,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号