第五章网络信息检索资料教程

上传人:yulij****0329 文档编号:141200915 上传时间:2020-08-05 格式:PPT 页数:30 大小:1.31MB
返回 下载 相关 举报
第五章网络信息检索资料教程_第1页
第1页 / 共30页
第五章网络信息检索资料教程_第2页
第2页 / 共30页
第五章网络信息检索资料教程_第3页
第3页 / 共30页
第五章网络信息检索资料教程_第4页
第4页 / 共30页
第五章网络信息检索资料教程_第5页
第5页 / 共30页
点击查看更多>>
资源描述

《第五章网络信息检索资料教程》由会员分享,可在线阅读,更多相关《第五章网络信息检索资料教程(30页珍藏版)》请在金锄头文库上搜索。

1、第五章 网络信息检索,一、网络信息资源 二、网络信息检索工具 三、重要的网络检索工具,一、网络信息资源,网络信息资源的特点 网络信息资源的类型,1。网络信息资源的特点,无序性 开放性 动态性 多样性 用户广,二、网络信息检索工具,1.网络信息检索工具及一般构成 网络信息检索工具是指在因特网上提供信息检索服务的计算机系统,其检索对象是存在于因特网信息空间中各种类型的网络信息资源。 早期的搜寻FTP资源的Archie,检索Gopher网站资源的Veronica和Jughead,查询 Usenet新闻组资源的WAIS等,以及Yahoo, Alta Vista, Lycos等 Web检索工具。 所谓W

2、eb检索工具是指利用超文本(超媒体)技术在因特网上提供网上信息资源导航、检索服务的专门Web 服务器或网站。由于Web检索工具既以Web 形式提供服务,又以Web资源为检索对象,检索范围还涉及其他网络资源形式,如Usenet ,Gopher , FTP等,所以Web检索工具成为人们获取因特网信息资源的主要检索工具和手段。,网络信息检索工具的一般构成,自动索引程序: 大多数网络检索工具一般采用一种称为Robot(又称Spider,Crawler,Worms,Wanders等)的网络自动跟踪索引程序 数据库: 自动索引程序将采集和标引的信息汇集成数据库,作为该网络检索工具提供检索服务的基础。不同的

3、网络检索工具的数据库的收录范围不同,标引方式也不同,规模大小不同。 检索代理软件: 当用户提出检索查询时,由检索软件负责代理用户在数据库中进行检索。不同的网络检索工具所采用的检索机制、算法有所不同,布尔逻辑检索是较普遍采用的一种机制。,2。网络信息检索工具的类型:,网络检索工具一般可分为: Web 资源检索工具:以Web 资源为主要检索对象, 又以Web形式提供的检索工具。 非Web 资源检索工具:即以非Web 资源为检索对象的检索工具,Archie,Veronica,WAIS 等。,Web 资源检索工具,(1)目录型检索工具(subject directory) (2)搜索引擎(search

4、 engine) (3)多元搜索引擎(metasearch engine),(1)目录型检索工具(subject directory),目录型检索工具也称作catalogue 目录型检索工具 是按照某种主题分类体系编制的一种可供检索的的等级结构式目录。在每个目录类及子类下提供相应的网络资源站点地址,并给以简单的描述。 优点:目录型检索工具经过信息管理专业人员、分类专家的人工设计和编制,所收录的网络资源经过专业人员的鉴别、选择和组织,保证了检索工具的质量,提高了检索的准确性。 局限性: 其更新、维护的速度或周期要受系统人员工作时间的制约,导致检索工具的新颖性不够; 若用户不熟悉其分类体系或对类分

5、标准理解与系统人员不一致,就会影响其检索; 在某些主题下收录范围不够全面,使检索到的信息数量有限。 目录型检索工具比较适合于查找综合性、概括性的主题概念,或对检索准确度要求较高的课题。最著名的目录型检索工具是Yahoo!(URL:www yahoocom)。,(2) 搜索引擎(search engine),搜索引擎的工作原理: 发现、搜集网页信息。首先需要有高性能的Robot程序去自动地在互联网中搜索信息 索引库的建立。建立信息索引就是创建文档信息的特征记录,使检索者能够快速地检索到所需信息 检索及结果输出。代替用户在数据库中查找出与提问匹配的记录,并返回结果且按相关度排序输出。 搜索引擎的特

6、点: 由自动索引软件生成数据库,收录、加工信息的范围广、速度 快,能及时地向用户提供新增信息。 检索时直接输入关键词或词组、短语,无需判断类目归属,比较方便。,局限性: 但由于标引过程缺乏人工干预,准确性较差,加之检索软件的智能化程度又不很高,导致检索误差较大; 虽一次检索输出的结果可能很多,但会包含许多的重复、虚假信息,即检索噪音较大。 不同的搜索引擎有不同的检索项选择、 检索界面,不同的句法要求和对符号、标识符的处理,因此检索策略的构造和输入方式也会直接影响检索结果。 搜索引擎适合于检索特定的信息及较为专、深、具体或类属不明确的课题。 较有代表性的英文搜索引擎有AltaVista,Exci

7、te,Lycos, Hotbot等。,目录型检索工具和搜索引擎之间的界限越来越模糊: 大多数流行的网络检索工具同时提供两种方式的检索,从而将目录型工具的组织、导引功能与搜索引擎的检索功能更好地结合起来。这种担负了网络资源主题指南和索引双重责任的混合型检索工具似乎代表了网络检索工具的发展趋势。 如:著名的目录型检索工具 Yahoo!曾与搜索引擎的典型代表AltaVista相挂接,当检索提问在Yahoo!的分类目录指南数据库中未找到相关的记录时,可自动转向AltaVista的索引数据库中继续检索,并将有关的结果提供给用户,从而加强了Yahoo!的检索功能。 其他一些著名的搜索引擎,如:Excite

8、,Lycos,Magellan,WebCrawler等均在过去主要 提供索引服务的基础上,增设了各种形式的分类目录,以强化其组织、导引、浏览等功能。这种发展趋势使得许多用户已将上述两种工具混为一谈,均称为搜索引擎。,(3)多元搜索引擎(metasearch engine),多元搜索引擎(metasearch engine或megasearch engine) 又称为集合式搜索引擎。多元搜索引擎是将多个搜索引擎集成在一起,并提供一个统一的检索界面。它可分为两种类型:搜索引擎目录和元搜索引擎。 搜索引擎目录: 也即检索工具的检索工具,它将主要的搜索引擎集中起来,并按类型或按检索问题等编排组织成目录

9、,帮助、导引用户根据检索需求来选择适用的搜索引擎。 它集中罗列检索工具,并将用户导引到相应的工具去检索; 检索的还是某一搜索引擎自己的数据库,与普通单一搜索引擎的检索是一样的。只不过是设立了又一层门户,通过其组织、检索界面,为用户选择适用的检索工具提供积极的帮助,以克服用户面对众多的检索工具的无所适从。较典型的搜索引擎目录有:All-in-One,CUSI, iTools!等。,元搜索引擎 是将多个搜索引擎集成在一起,提供一个统一的检索界面;且将一个检索提问同时发送给多个搜索引擎,同时检索多个数据库,再经过聚合,去重之后输出检索结果。它是一种集中检索的方式,与Dialog联机检索中的跨文档检索

10、 OneSearch非常类似。 优点:省时,不用就同一提问一次次地访问所选定的搜索引擎,每次均要输入同样的检索词等。且检索的是多个数据库,检索的综合性、 完整性也有所提高。 缺点:由于不同的搜索引擎的检索机制、算法及对提问式的解读均不同,没有一个共同规范,使检索的准确性要相对差一些,并且速度也较慢。有时多元搜索引擎检索出的结果可能还不如单个搜索引擎检索出的结果多,或给出的检索结果描述可能也不够详细,使用户虽得到了更多的检索结果,却缺少做进一步判断、阅读的相关指导信息。为此,有些检索人员提出避免使用多元搜索引擎。但仍有些检索专家建议,在查询一些较模糊的提问,或就某一课题的网络资源进行快速调查、摸

11、底、综览时使用多元搜索引擎。较常用的多元搜索引擎有:Dogpile,Metacrawler,Inference Find,SavvySearch,Highway61等。,三、重要的网络检索工具,目录型网络检索工具 Yahoo! ( http:/wwwyahoocom) InfoSeek (http:/infoseekgocom) 搜狐 (http:/wwwsohucomcn) 新浪搜索 (http:/search sina cn) 网易搜索 (http : /www yeah net),Yahoo!,Yahoo 是“Yet Another Hierarchical Officious Orac

12、le”的缩写。Yahoo!是最早开发的互联网搜索引擎,是Internet搜索工具的“元老”,也是目前WWW环境中最著名最常用的搜索工具。它是由美国斯坦福大学两位博士生开发的。 Yahoo!不同于其他搜索工具在于它提供了全面的分类体系。它提供14个宽泛的类目,用户可以利用它的引擎以关键词检索方式查询它的目录。Yahoo!目录的最大特点在于信息的分类工作由十几位专家手工进行,与其他由计算机自动分类的搜索引擎相比,Yahoo!的目录更具科学性。 Yahoo!提供分类查询方式。 Yahoo!也提供主题查询方式。通过简单关键词或关键词高级检索方式进行信息查询。 Yahoo!提供强大的全球信息查询功能,目

13、前已有法国、意大利、 挪威、瑞典、加拿大、澳大利亚、日本等13个国际站点。,InfoSeek,编制者:Infoseek属于Infoseek Corporation 公司,创立者是Steve Kirsch ,1995年提供服务。曾在PC Computing中,被评比为最佳的搜索服务节点。 服务范围与规模:其提供的搜索服务除WWW节点搜索外,还有Gopher、FTP、Usenet Newsgroup的文章查询,并且提供与电脑相关的报纸、杂志、电传新闻(news wires)、工商信息、电影/书籍/录影带评论等全文搜索。 检索性能: 管道检索,这是Infoseek的独特功能,即用管道符()连接两个或

14、更多的检索词。 Infoseek有一套自定义的标识符,例如词组检索要求把词组用“”括起来;对所要搜索的关键词加方括号 ,表示方括号内的词在文字中出现时,其间隔不超过100个词。“+”放在单词前表示该词出现在检索结果中。 评价:Infoseek庞大的全文数据库保证了它的查全率,而它独特的检索算法和检索功能,又提高了它的查准率,同时由于其丰富的服务内容,使得Infoseek由一个检索工具变为一个强大的信息服务中心。 Infoseek曾被PC Week杂志称为最全面的检索工具,搜狐,原名http/ 搜狐是由爱特信公司1998年开始研制的。搜狐是针对国际互联网上中文信息日渐丰富、查找困难的实际情况,根

15、据中国人的文化传统专门为中国用户度身设计推出的网络分类式查找引擎。曾被路透社誉为“the most popular website destination in China”。 搜狐的全面战略及内容合作伙伴有英特尔(Intel),道琼斯(Dow Jones),热连线(Hot Wired),时代华纳,NBA和新华社等。 搜狐提供了一个分类详尽的Web目录,采用树型结构对站点进行层次性分类,根据相应的网页内容,将所有的网页分为地区类、工商经济类、计算机与互联网、教育等18个类别,在18个大类下面又分成几百个小类。在关键词检索方面,搜狐自动在全部网页目录中利用全文检索的办法找到相关网页。,新浪搜索,

16、新浪搜索引擎是面向全球华人的网上资源查询系统,提供网站、中文网页、英文网页、新闻、软件、游戏等查询服务。是互联网上最大规模的中文搜索引擎之一。 新浪搜索具有URL自动检测功能,并提供个性化服务给经常使用新浪搜索的用户:所见即所得我的书签、桌面上搜索引擎新浪点点通两种服务。 新浪搜索提供“分类检索”和“关键词查询”两种查找方式。,网易搜索,网易搜索不仅能够全文搜索超过2400万个中文页面,还可以搜索10亿个以上的Web文件。根据互联网本身的链接结构对相关网站用自动方法进行分类,提供开放式信息目录,分18个类目,然后再有若干子类。 在网易查询时不需要使用“AND”,因为网易搜索引擎会在关键词之间自动添加“AND”。 网易搜索引擎将返回四个不同方面的结果:相关目录、相关网站、相关网页和相关新闻。,搜索引擎,Google (http:/www. google. com) AltaVista (http:/wwwaltavistacom) Lycos (http:/www1ycoscom) 百度(http:/www . baidu . com) 天网

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号