201110第5章网络信息检索资料教程

上传人:youn****329 文档编号:143140758 上传时间:2020-08-26 格式:PPT 页数:144 大小:13.84MB
返回 下载 相关 举报
201110第5章网络信息检索资料教程_第1页
第1页 / 共144页
201110第5章网络信息检索资料教程_第2页
第2页 / 共144页
201110第5章网络信息检索资料教程_第3页
第3页 / 共144页
201110第5章网络信息检索资料教程_第4页
第4页 / 共144页
201110第5章网络信息检索资料教程_第5页
第5页 / 共144页
点击查看更多>>
资源描述

《201110第5章网络信息检索资料教程》由会员分享,可在线阅读,更多相关《201110第5章网络信息检索资料教程(144页珍藏版)》请在金锄头文库上搜索。

1、第五章 网络信息检索,图书馆参考咨询部 2011.10 QQ:516338407 微博: ,本章主要教学内容,网络信息检索概述 网络信息检索工具搜索引擎 常用搜索引擎介绍,5.1 网络信息检索概述,网络信息资源,网络信息资源的定义,并没有一个统一的说法,目前的一般理解为“通过计算机网络可以利用的各种信息资源的总和”。,中国互联网络信息中心(CNNIC)统计,截至2011年6月底,中国的网民已经达到4.85亿人,手机网民民规模更达3.18亿。,网络信息资源的特点,(1)信息数量巨大而庞杂 (2)信息类型多、范围广 (3)信息动态性高 (4)信息质量参差不齐 (5)信息有序与无序并存 (6)分布式

2、、非线性 (7)信息共享程度高 (8)信息使用成本低,网络信息资源类型,WWW信息资源 FTP信息资源 Telnet信息资源 用户服务组信息资源,按网络传输协议划分:,网络信息资源类型,WWW (World Wide Web的缩写形式,简称Web)被称作万维网或环球网,是以超文本标注语言(HyperText Mark-up Language,HTML)与超文本传输协议(HyperText Transfer Protocol,HTTP)为基础,采用超文本和超媒体的信息组织方式的一种多媒体信息服务系统。WWW信息资源在WWW客户端和服务器端之间传输,建立在超文本、超媒体等技术的基础之上,集文本、图

3、像、图形、声音等为一体,以网页的形式存在于Internet上。,WWW信息资源:,网络信息资源类型,WWW信息资源:,网络信息资源类型,FTP信息资源是借助于文件传输协议(File Transfer Protocol,FTP),以文件方式在互联网计算机之间传输的信息资源。FTP协议的主要功能是实现文件从一个系统到另一个系统的完整拷贝,通过FTP服务,用户可免费从网上获取别人的资源,达到信息共享的目的。,FTP信息资源,FTP信息资源,网络信息资源类型,Telnet(Telecommunication Network Protocol)是远程登陆协议。Telnet信息资源是指在远程登录协议的支持

4、下,用户计算机经由Internet与远程计算机连接,并在权限允许的范围内检索和使用远程计算机系统中的各种硬、软件资源,分享该主机的数据、文件等信息资源。,Telnet信息资源,网络信息资源类型,用户服务组包括新闻组(Usenet/Newsgroup),邮件列表( Mailing List)、专题讨论组(Discussion Group)等。它们都是由一组对某一特定主题有共同兴趣的网络用户组成的电子论坛,用户以邮件形式进行网上交流和讨论。,用户服务组信息资源,网络信息检索的一般方法,网址查询:如果用户要访问已知地址的信息资源,可以在浏览器地址栏中输入已知的网站或网页地址,直接进行浏览,这是一种最

5、常见最有效的信息资源的获取方式。 偶然发现:这是在网络上发现、检索信息的原始方法。即在日常的网络阅读、漫游过程中、意外发现一些有用信息。 顺“链”而行:指用户在阅读超文本文档时,利用文档中的链接从一网页转向另一相关网页。有些类似传统文献检索中的“追溯检索”。,1、直接浏览:,网络信息检索的一般方法,专业人员利用自身对网络信息资源的产生、传递和利用机制的广泛了解和对网络信息资源分布状况的熟悉,以及对各种网络信息资源的采集、组织、评价、过滤、控制、检索等手段的全面把握开发了可供浏览和检索的网络资源主题指南。几乎每一个学科专业、重要课题、研究领域的网络资源指南都可以在因特网上找到。,2、通过网络资源

6、指南来查找信息:,网络信息检索的一般方法,这是一种较为常规的、普遍的网络信息检索方式。搜索引擎是提供给用户进行关键词、词组或自然语言检索的工具。用户提出检索要求,搜索引擎代替用户在数据库中进行检索,并将检索结果提供给用户。,3、利用搜索引擎进行信息检索 :,网络信息检索技术,布尔逻辑检索是利用布尔逻辑算符进行检索词语或代码的逻辑组配,指定文献的命中条件和组配次序,凡符合逻辑组配所规定条件的为命中文献,否则为非命中文献。,1、布尔逻辑检索 :,布尔逻辑算符: 逻辑“与”:*、AND 逻辑“或”:+、OR 逻辑“非”:-、NOT,1、布尔逻辑检索 :,逻辑“与”,逻辑“或”,逻辑“非”,网络信息检

7、索技术,是指在检索词的合适位置进行截断,然后使用截词符进行处理。截词符多采用通配符“?”或者“”。截词检索一般有以下几种: 后截词:又称右截词、前方一致 中截词:也称屏蔽词 前截词:又称左截词、后方一致,2、截词检索 :,如:compu*,com?ter,网络信息检索技术,限制检索是通过限制检索范围,达到优化检索结果的方法。限制检索的方式有很多,如进行字段限制、使用限制符、使用限制检索命令等。在检索系统中,主要和常用的是字段限制。 字段检索是一种用于限定提问关键词在数据库记录中出现的区域,控制检索结果的相关性,提高检索效果的检索方法,,3、限制检索 :,网络检索中常用的字段有: title/t

8、:题名字段,表示查找标题中包含检索提问式的页面; subject:主题字段,表示查找主题中包含检索提问式的页面; text:文本字段,表示文本中包含检索提问式的页面; author:作者字段,表示查找作者中包含检索提问式的页面; keywords:关键词字段,表示查找关键词中包含检索提问式的页面。 此外,搜索引擎还提供了带有典型网络检索特征的字段限制类型,如主机名限制(host),URL限制(url),E-mail限制(from),新闻组限制(newsgroups),Link限制(link),网址限制(site)等。这些字段限定了检索词在记录中出现的位置,用来控制检索结果的相关性。,3、限制检

9、索 :,网络信息检索技术, 空格:其作用与逻辑“与”相同。 例如:用户要查找“飞机”这个关键词,但输入了 “飞 机”,由于“飞”和“机”两字之间插入了空格,而被处理为“与”的关系,查出所有同时含有“飞”和“机”两个字的页面。这个检索结果的范围要比“飞机”作关键词的结果扩大了许多,但很多结果中已不含有与“飞机”相关的信息。 逗号:其作用类似逻辑“或”。 也是查找那些至少含有一个指定关键词的页面,区别是,检索结果输出时,包含指定关键词越多的页面,其排列的位置越靠前。,4、空格、逗号、括号、引号的作用 :, 括号:其作用是使括在其中的运算符优先执行,用于改变复杂检索式中固有逻辑运算符优先级的次序。

10、例如,检索式“多媒体 and (计算机 or 网络)”,表示要求先执行括号中的“or”运算,再执行括号外的“and”运算。 引号:其作用是括在其中的多个词被当作一个短语来检索。 例如,检索式“electronic magazine”,表示把electronic magazine当作一个短语来搜索。如果不加引号,搜索引擎就会把两词之间的空格按“与”处理,查出包含electronic和magazine的页面,结果会与用户要求的主题内容相差甚远。,5.2 网络信息检索工具 搜索引擎,搜索引擎趣闻,新华社10月19电 澳大利亚SBS公司执行制片人迈克卡雷19日说,该公司记者约翰马丁库斯16日在伊拉克遭

11、到绑架,并在24小时后获释,而救了他一命的,很可能就是风靡全球的网络搜索引擎Google。 马丁库斯在约旦接受澳大利亚广播公司采访时说,他16日早晨在巴格达澳大利亚大使馆附近的饭店被持枪的武装分子劫持,这些武装分子最初威胁要杀了他。 马丁库斯说,当他告诉绑架者他是一个独立记者,与美国领导的联军没有关系后,绑架者对他的态度就变得很好。 卡雷说:“绑架者检查了他(马丁库斯)的身份,以确定他所说的是否属实。他们使用Google搜索了他的名字,并通过链接登录了他或他图书出版商的网站。”最后,绑架者们相信了他说的话。 马丁库斯是第一名被确认在伊拉克遭到绑架的澳大利亚人。他已经于18日到达约旦,并在19日

12、启程回国。 来源:北京青年报(2004/10/20),澳大利亚记者遭绑Google搜索救了命,搜索引擎概述,“我们若能更妥善地搜寻资料,实在已经改变世界。” Google创始人语 “在这个星球的历史上,从来没有这么多的人-依靠自身-有能力去找到这么多的东西和这么多关于其他人的信息。 ” 世上的一切问题你去问Google(Thomas Friedman),全球搜索引擎用户搜索数,据美国互联网流量监测机构comScore近日公布的统计数据显示,2009年7月份全球用户搜索数已达1137亿次,同比增长41%。,所谓搜索引擎(search engine),是指WWW环境中能够进行网络信息的搜集、组织并

13、能提供查询服务的一种信息服务系统。 搜索引擎是通过自己的算法规则对互联网上的信息资源进行采集,组织,管理,存储,然后提供一种直接面向信息查询使用者的服务,并且它能通过对用户查询字串的理解分析,给用户最想要的或最相关信息,帮助人们在茫茫网海中搜寻到所需要的资料。,搜索引擎的概念,围绕网络信息检索服务,先后出现过以FTP服务器中特定文档为查询对象的Archie检索服务、基于菜单的Gopher信息检索、基于关键词的Wais文档检索,直到1994年作为世界上第一个基于www服务器的搜索引擎WebCrawler的问世。自此,搜素引擎成为了主流的信息检索服务系统和检索工具。,搜索引擎的发展简史,搜索引擎的

14、雏形 蒙特利尔大学学生Alan Emtage等人在1990年发明的Archie算是现代搜索引擎的雏形。,蜘蛛程序的由来 机器人(Robot)指某个能以人类无法达到的速度不断重复执行某项任务的自动程序,由于专门用于检索网络信息的“机器人”程序像蜘蛛( spider )一样在网络间爬来爬去,因此,搜索引擎中的“机器人”程序就被称为“蜘蛛”程序。,1994年第一代搜索引擎出现 美国斯坦福大学的David Filo和美籍华人杨致远共同创办了大家熟知的超级目录索引Yahoo。同年4月,University of Washington的学生Brian Pinkerton开发出WebCrawler,它是互联

15、网上第一个支持搜索文件全部文字的全文搜索引擎。,搜索引擎的分类,全文搜索引擎 (Full Text Search Engine) 目录式搜索引擎 (Search Index/Directory) 元搜索引擎 (Meta Search Engine),按工作方式主要可分为三种:,全文搜索引擎,也有人称为索引式搜索引擎,它是我们使用的最为广泛的搜索引擎,是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。这类搜索引擎的服务方式是面向网页的全文检索服务。,1.全文搜索引擎(Full Text Search E

16、ngine ),目录式搜索引擎主要通过人工发现信息,并依靠标引人员的知识进行甄别和分类,由专业人员手工建立关键字索引,建立目录分类体系。用户在利用目录式搜索引擎时,可进行浏览查询,从最高层目录开始,逐层深入,直到找到所需的信息为止;也可进行关键词检索。国内的搜狐、新浪、网易搜索也都属于这一类。,2.目录式搜索引擎(Search Index/Directory ),元搜索引擎又称为集合式搜索引擎,是一种调用其它独立搜索引擎的引擎,亦称“搜索引擎之母(The mother of search engines)”。它是一种要调用其它搜索引擎的搜索引擎。它接收一个查询请求后,转交给其他若干个独立的搜索引擎处理,最后将多个搜索引擎的搜索结果进行整合后返给查询者。,3.元搜索引擎(Meta Search Engine ),搜索引擎的使用技巧,搜索技巧,最基本同时也是最有效

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号