医学五年制检索课-第4章 网络搜索引擎

上传人:大米 文档编号:590407892 上传时间:2024-09-14 格式:PPT 页数:47 大小:1.51MB
返回 下载 相关 举报
医学五年制检索课-第4章 网络搜索引擎_第1页
第1页 / 共47页
医学五年制检索课-第4章 网络搜索引擎_第2页
第2页 / 共47页
医学五年制检索课-第4章 网络搜索引擎_第3页
第3页 / 共47页
医学五年制检索课-第4章 网络搜索引擎_第4页
第4页 / 共47页
医学五年制检索课-第4章 网络搜索引擎_第5页
第5页 / 共47页
点击查看更多>>
资源描述

《医学五年制检索课-第4章 网络搜索引擎》由会员分享,可在线阅读,更多相关《医学五年制检索课-第4章 网络搜索引擎(47页珍藏版)》请在金锄头文库上搜索。

1、第第4章章搜索引擎搜索引擎1.搜索引擎的概念搜索引擎的概念2.搜索引擎的搜索引擎的类型及特点型及特点3.常用通用搜索引擎常用通用搜索引擎4.常用元搜索引擎常用元搜索引擎5.常用医学常用医学专业搜索引擎搜索引擎面对网上扑面面对网上扑面面对网上扑面面对网上扑面而来的信息如而来的信息如而来的信息如而来的信息如何是好?何是好?何是好?何是好?在互联网发展初期,网站相对较少,信息查找比较容易。然而,伴随互联网的迅速发展,网上信息已呈爆炸性增长。目前Internet能找到的网页已多达数千亿之巨,并且仍以每几个月翻一番的速度增长。用户要在如此浩瀚的信息海洋里寻找信息,往往会“大海捞针”无功而返,搜索引擎的出

2、现正是为了解决这种“迷航”问题。目前已有数以千计的Web搜索引擎在 Internet上运行,Web搜索引擎已逐渐成为Web信息检索利用的主要方式之一。搜搜索索引引擎擎是是指指以以人人工工或或网网络机机器器人人软件件的的方方法法采采集集、标引引Web资源源和和其其他他类型型的的网网络资源源,并并将将索索引引信信息息内内容容存存储于于大大型型数数据据库中中,以以Web网网站站的的方方式式提供提供给网网络用用户查询的信息服的信息服务系系统。第第4章章搜索引擎搜索引擎1.搜索引擎的概念搜索引擎的概念2.搜索引擎的搜索引擎的类型及特点型及特点3.常用通用搜索引擎常用通用搜索引擎4.常用元搜索引擎常用元搜

3、索引擎5.常用医学常用医学专业搜索引擎搜索引擎索引式搜索引擎索引式搜索引擎目目录式搜索引擎式搜索引擎元搜索引擎元搜索引擎索引式搜索引擎索引式搜索引擎也也称称为为机机器器人人搜搜索索引引擎擎,主主要要采采用用机机器器人人技技术术,通通过过“机机器器人人”(Robot)、“蜘蜘蛛蛛”(Spider)、“爬爬虫虫”(Crawler)等等去去网网上上抓抓取取各各个个网网站站、网网页页的的信信息息,自自动动化化程程度度高高的的搜搜索索引引擎擎还还利利用用计计算算机机辅辅助助数数据据库库的的建建设设,如如进进行行自自动动分分类类、自自动动标标引引、自自动动文文摘摘等等。在在前前台台提提供供一一个个检检索索

4、入入口口,用用户户通通过过检检索索入入口口递递交交查查询询请请求求,通通过过后后台台对对数数据据库库的的检检索索操操作作将将结结果果反反馈馈给给用用户户,相相当当于于网网上上资资源源的的主主题题索引索引索引式搜索引擎的主要特点是索引式搜索引擎的主要特点是:1.交交互互性性更更强强,集集中中体体现现了了客客户户机机/服服务务器器模模式的优势。式的优势。2.检检索索功功能能强强大大,一一般般可可进进行行布布尔尔逻逻辑辑检检索索、词组检索、位置检索、截词检索等词组检索、位置检索、截词检索等3.提提供供二二次次检检索索,允允许许在在查查询询结结果果中中进进一一步步限定,从而缩小检索结果范围,提高查准限

5、定,从而缩小检索结果范围,提高查准率。率。目录式搜索引擎目录式搜索引擎又又称称目目录录导导引引式式搜搜索索引引擎擎,主主要要是是指指由由人人工工发发现现、抓抓取取、辨辨别别网网上上信信息息,依依靠靠编编目目、标标引引人人员员的的知知识识,按按照照图图书书分分类类、学学科科分分类类或或其其他他分分类类依依据据,建建立立主主题题树树分分层层目目录录,并并将将采采集集、筛筛选选后后的的信信息息分分门门别别类类地地放放入入各各大大类类或或子子类类下下面面。在在Web页页面面上上呈呈现现出出错错落落有有致致的的上上下下位位关关系系,用用户户通通过过层层层层点点击击,顺顺链链而而行行,随随着着范范畴畴的的

6、缩缩小小与与查查询询的的专专指指度度提提高高,最终满足用户的查询需求。最终满足用户的查询需求。目录式搜索引擎的特点目录式搜索引擎的特点1.比比较较适适合合主主题题浏浏览览、一一般般主主题题检检索索或或为为用用户户检检索索提提供供有有价价值值的的提提示示,而而且且通通过过这这种种体体系系分分类类来来归归整整资资源源,体体现现了了知知识识概概念念的的系系统统性性,有利于族性检索。有利于族性检索。2.查查准准率率高高。一一方方面面人人工工技技术术的的干干预预;另另一一方方面面用户参与程度高用户参与程度高.3.查查全全率率有有限限。信信息息涵涵盖盖量量不不大大,更更新新能能力力有有限是这类检索引擎的一

7、个弊端。限是这类检索引擎的一个弊端。4.分分类类依依据据的的科科学学性性与与标标准准性性。对对于于这这一一类类搜搜索索引引擎擎,分分类类标标准准是是其其提提供供优优质质检检索索服服务务底底重要保障之一。重要保障之一。目目录录式式搜搜索索引引擎擎与与索索引引式式搜搜索索引引擎擎的的主主要要区区别别在于:在于:1.目目录录式式搜搜索索引引擎擎的的数数据据库库是是依依靠靠人人工工建建立立起起来来的的,索索引引式式搜搜索索引引擎擎的的数数据据库库是是用用程程序序自动搜索和积累的。自动搜索和积累的。2.由由于于目目录录是是依依靠靠人人工工进进行行整整理理搜搜索索,而而且且只只在在保保存存的的对对站站点点

8、的的描描述述中中进进行行搜搜索索,因因此此站站点点本本身身的的动动态态变变化化不不会会反反映映到到搜搜索索结结果果中中来,其网站信息的更新速度受到一定影响。来,其网站信息的更新速度受到一定影响。3.由由于于目目录录是是依依靠靠人人工工来来评评价价一一个个网网站站的的内内容容,因因此此用用户户从从目目录录搜搜索索得得到到的的结结果果往往往往比比索引式搜索引擎得到的结果更具参考价值。索引式搜索引擎得到的结果更具参考价值。网网上上信信息息的的急急剧剧膨膨胀胀往往往往是是单单个个独独立立搜搜索索引引擎擎的的检检索索能能力力所所难难以以招招架架的的。任任何何一一个个搜搜索索引引擎擎都都不不可可能能100

9、%的的覆覆盖盖网网上上信信息息。据据专专家家评评测测,目目前前主主要要搜搜索索引引擎擎返返回回的的相相关关结结果果的的比比率率不不超超过过45%,而而且且由由于于机机制制、范范围围、算算法法等等差差异异,导导致致同同样样一一个个查查询询请请求求在在不不同同的的搜搜索索引引擎擎中中的的检检索索结结果果的的重重复复率率不不足足34%。因因此此,要要想想获获得得一一个个比比较较全全面面、准准确确的的结结果果,就就必必须须反反复复调调用用多多个个搜搜索索引引擎擎。于于是是,元元搜搜索索引引擎擎应应运运而而生生,在在一一定定程程度度上上解解决决了了搜搜索索引引擎擎的的这些问题。这些问题。元元搜搜索索引引

10、擎擎(MetasearchEngine),被被称称为搜索引擎之上的搜索引擎,是一个要调用其为搜索引擎之上的搜索引擎,是一个要调用其 他搜索引擎的搜索引擎。他搜索引擎的搜索引擎。元搜索引擎的主要特点元搜索引擎的主要特点1.查全率大大提高,但查准率更难保障;2. 一般只支持AND、OR、NOT等简单的操作;3. 运作机制有别于目录式和索引式;4.元搜索引擎需要与各个收录的搜索引擎网站建立协作关系,拥有对方数据库的访问权。第第4章章搜索引擎搜索引擎1.搜索引擎的概念搜索引擎的概念2.搜索引擎的搜索引擎的类型及特点型及特点3.常用通用搜索引擎常用通用搜索引擎4.常用元搜索引擎常用元搜索引擎5.常用医学

11、常用医学专业搜索引擎搜索引擎Google(http:/)Hotbot(http:/)Yahoo!(http:/)Baidu(http:/)Google1.概况概况 Google是由两个斯坦福大学博士生是由两个斯坦福大学博士生Larry Page与与SergeyBrin于于1998年年 9月月发明,并于明,并于1999年年创立了立了Google公司。公司。Google 的使命就是要提供网上最好的的使命就是要提供网上最好的查询服服务,促,促进全球信息全球信息的交流。的交流。Google 开开发出了世界上最大的搜索引擎,提供了最便出了世界上最大的搜索引擎,提供了最便捷的网上信息捷的网上信息查询方法。

12、通方法。通过对 多达一万多达一万亿网网页进行整理,可行整理,可为世界各地的用世界各地的用户提供适需的搜索提供适需的搜索结果。果。 Google 是由英文是由英文单词“googol”变化而来。化而来。“googol”是美是美国数学家国数学家 Edward Kasner 的侄子的侄子 Milton Sirotta 创造的一个造的一个词,表示表示 1后后边带有有 100 个零的数字。个零的数字。Google 使用使用这个个词代表公司代表公司想征服网上无想征服网上无穷无尽无尽资料的雄心。料的雄心。2.特点及技特点及技术支持支持(1)特点)特点 Google支支 持持 多多 语 言言 检 索索 , 包包

13、 括括 简 体体 中中 文文 和和 繁繁 体体 中中 文文 ;Google网网站站只只提提供供搜搜索索引引擎擎功功能能,没没有有花花里里胡胡哨哨的的累累赘;Google速度极快,有速度极快,有100多万台服多万台服务器;器; Google的的专利利网网页级别技技术PageRank能能够提提供供高高命命中中率率的的搜搜索索结果;果; Google的搜索的搜索结果摘果摘录查询网网页的含有关的含有关键字的内容,而不字的内容,而不仅 仅是网站是网站简介介 Google智能化的智能化的“手气不手气不错”功能,提供可能最符合要求的网站;功能,提供可能最符合要求的网站; Google的的“网网页快快照照”功

14、功能能,能能从从Google服服务器器中中直直接接取取出出缓存存的网的网页。 Google核心核心软件称件称为 PageRank(TM),这是由其是由其创始人始人LarryPage 和和 Sergey Brin 在斯坦福大学开在斯坦福大学开发出的一套用于网出的一套用于网页评级的系的系统。当从网。当从网页 A 链接到网接到网页B,Google 就就认为“网网页 A投了网投了网页 B 一票一票”,Google 根据网根据网页的得票数的得票数评定其重要性。定其重要性。除了考除了考虑网网页得票数(即得票数(即链接)的接)的纯数量之外,数量之外,Google还要分析要分析投票的网投票的网页,“重要重要”

15、的网的网页所投出的票就会有更高的所投出的票就会有更高的权重,有助重,有助于提高其它网于提高其它网页的的“重要性重要性”。重要的、高。重要的、高质量的网量的网页会会获得得较高的网高的网页级别; 另外,另外,Google还将网将网页级别与完善的文本匹配技与完善的文本匹配技术结合在一合在一起;采用自起;采用自动搜索方法,排除了任何人搜索方法,排除了任何人为因素因素对搜索搜索结果的影响。果的影响。 网页查询网页查询若要求搜索结果包含两个及两个以上的关键词,只需在若要求搜索结果包含两个及两个以上的关键词,只需在关键词中间留空格即可。如:关键词中间留空格即可。如:childnursing若若要要求求搜搜索

16、索结结果果不不包包含含某某些些特特定定信信息息时时,用用“-”紧紧密密地地加加在在作作用用的的关关键键词词前前面面。如如:nursing-child。这这里里的的“-”是是英英文文字字符符,而而不不是是中中文文字字符符,此此外外,操操作作符符与与作作用用的的关关键键词词之之间间,不不能能有有空空格格,如如加加入入空空格格,则则搜搜索索引引擎擎将将视视前前后后关关键键词词为为逻逻辑辑与与关系,中间的关系,中间的“-”被忽略。被忽略。若要求搜索结果至少包含多个关键词中的任意一个时,可用大若要求搜索结果至少包含多个关键词中的任意一个时,可用大写的写的OR来连接各检索词。如:来连接各检索词。如:nur

17、singORchildORelderGoogle只支持精确查找,不允许截词检索只支持精确查找,不允许截词检索Google搜搜索索不不区区分分英英文文字字母母大大小小写写。所所有有的的字字母母均均当当作作小小写写处处理理。如如:搜搜索索google、GOOGLE、GoOgLe,结结果果都都是是一一样样的。的。Google的关键词可以是词组,也可以是句子,但是,用句子的关键词可以是词组,也可以是句子,但是,用句子做关键词,必须加英文引号。如做关键词,必须加英文引号。如“whatisallergy”Google会忽略最常用的词和字符,这些词和字符称为忽略词。会忽略最常用的词和字符,这些词和字符称为忽

18、略词。如如:“http”、“.com”和和“的的”等等字字符符以以及及数数字字和和单单字字。使使用用英英文文双双引引号号可可将将这这些些忽忽略略词词强强加加于于搜搜索索项项,例例如如:输输入入“乙乙肝肝的治疗的治疗”时,加上英文双引号会使时,加上英文双引号会使“的的”强加于搜索项中。强加于搜索项中。要将搜索结果局限于某个具体网站或者网站频道,可用要将搜索结果局限于某个具体网站或者网站频道,可用site,如:搜索新浪文教频道中关于鲁迅的信息,可采用检索式如:搜索新浪文教频道中关于鲁迅的信息,可采用检索式鲁迅鲁迅。需需要要注注意意的的是是:site后后的的冒冒号号为为英英文文字字符符,并并且且冒冒

19、号号后后不不能能有有空空格格,否否则则,“site:”将将被被作作为为一一个个搜搜索索的的关关键键词词。网网站站域域名名不不能能有有“http”以以及及“www”前前缀缀,也也不不能能有有任任何何“/”的的目目录录后后缀缀。若若想想排排除除某某网网站站或或者者域域名名范范围围内内的的页页面面,只只需需用用“_网网站站/域名域名”。若想查询某一类文件(扩展名相同),可使用若想查询某一类文件(扩展名相同),可使用“filetype:”。最重要的文档搜索是最重要的文档搜索是PDFPDF搜索。搜索。PDFPDF是是ADOBEADOBE公司开发的电子文档公司开发的电子文档格式,现在已经成为互联网的电子化

20、出版标准。目前格式,现在已经成为互联网的电子化出版标准。目前GoogleGoogle检索检索的的PDFPDF文档大约有文档大约有25002500万左右。万左右。PDFPDF文档通常是一些图文并茂的综文档通常是一些图文并茂的综合性文档,提供的资讯一般比较集中全面。例如,搜索关于电子合性文档,提供的资讯一般比较集中全面。例如,搜索关于电子商务的商务的PDFPDF文档,可采用文档,可采用ecommerce filetype:pdfecommerce filetype:pdf检索式。检索式。若想要搜索的关键词包含在若想要搜索的关键词包含在URL链接中,可用链接中,可用“inurl:”。“inurl”语

21、法返回的网页链接中包含第一个关键词,后面的关键词语法返回的网页链接中包含第一个关键词,后面的关键词则出现在链接中或者网页文档中。有很多网站把某一类具有相则出现在链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名或者网页名称中,比如同属性的资源名称显示在目录名或者网页名称中,比如“MP3”等,于是,就可以用等,于是,就可以用INURL语法找到这些相关资源链接,然后,语法找到这些相关资源链接,然后,用第二个关键词确定是否有某项具体资料。如:用第二个关键词确定是否有某项具体资料。如:inurl:mp3歌歌曲曲要想搜索的关键词包含在网页标题中,可用要想搜索的关键词包含在网页标题

22、中,可用“intitle”。“intitle:”的用法类似于上面的的用法类似于上面的inurl,只是后者对,只是后者对URL进行查询,而前者对网页的进行查询,而前者对网页的标题栏进行查询。网页设计的一个原则就是要把主标题栏进行查询。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因页的关键内容用简洁的语言表示在网页标题中。因此,只查询标题栏,通常也可以找到高相关率的专此,只查询标题栏,通常也可以找到高相关率的专题页面。例如:题页面。例如:intitle:sars如果想知道有多少人对某一网站做了链接,用如果想知道有多少人对某一网站做了链接,用“link:”语法就能迅速达到这

23、个目的。如:搜索语法就能迅速达到这个目的。如:搜索所有含指向华军软件园链接的网页。可以采用所有含指向华军软件园链接的网页。可以采用link:检索式进行检索。但需要检索式进行检索。但需要注意,注意,“link”不能与其他语法相混合操作。不能与其他语法相混合操作。 查找与某个页面结构内容相似的页面,可用查找与某个页面结构内容相似的页面,可用“related:related:”。例例,搜搜索索所所有有与与中中文文新新浪浪网网主主页页相相似似的的页页面面(如如网网易易首首页页,搜搜狐狐首首页页,中中华华网网首首页页等等),可可输入输入. . 若想从若想从GoogleGoogle服务器上缓存页面中查询信

24、息,可用服务器上缓存页面中查询信息,可用“cache:cache:”。搜搜索索GoogleGoogle服服务务器器上上某某页页面面的的缓缓存存,通通常常用用于于查查找找某某些些已已经经被被删删除除的的死死链链接接网网页页,相相当当于于使使用用普普通通搜搜索索结结果果页页面面中中的的“网网页页快快照照”功功能能。例例如如,查查找找GoogleGoogle缓存的中文缓存的中文yahooyahoo首页,可首页,可. .图像像检索索在首在首页点点击“图像像”(images)链接就接就进入了入了图像搜索像搜索界面。在关界面。在关键词栏内内输入描述入描述图像内容的关像内容的关键字,如字,如“blue sk

25、y”,就会搜索到大量的,就会搜索到大量的蓝天的天的图片。片。Google的的图像搜索像搜索结果具有一个直果具有一个直观的的缩略略图,以及,以及对该缩略略图的的简单描述描述,如,如图像文件名称,以及大小等。点像文件名称,以及大小等。点击缩略略图,页面分成两面分成两祯,上,上祯是是图像之像之缩略略图,以及,以及页面面链接,下接,下祯是是该图像所像所处的的页。其其检索同网站索同网站检索相似,索相似,Google图像搜索目前支持的像搜索目前支持的语法包括法包括“_”、“OR”、 “site”、“filetype” 。新新闻(组)检索索新新闻组有有详尽的分尽的分类主主题,某些主,某些主题还有有专人管理和

26、人管理和编辑,具有大量的有价,具有大量的有价值信息。信息。由于新由于新闻组包含的信息包含的信息实在是海量,因此在是海量,因此不利用工具不利用工具进行行检索是不大可能的。索是不大可能的。进入入Google新新闻组,有两种信息,有两种信息查找方式。找方式。一种是一一种是一层层地点地点击进入特定主入特定主题讨论组,另一种另一种则是直接搜索。是直接搜索。新新闻检索也支持高索也支持高级检索索 分分类检索索即目即目录内内检索。如果不想搜索广泛的网索。如果不想搜索广泛的网页,而是想而是想寻找某些找某些专题网站,就可以网站,就可以访问Google的分的分类目目录。如:。如:查找关于找关于癌症治癌症治疗及及护理

27、理方面的中文方面的中文资料,先料,先进入中文入中文简体分体分类目目录,再,再进入入“健康健康”子目子目录,确定,确定选中中“只在健康中搜索只在健康中搜索”单选项目,在搜索目,在搜索栏内填入内填入“癌症癌症”进行行检索。索。该种种检索方式的索方式的查询结果比普通的果比普通的检索更索更有效,因有效,因为在分在分类健康健康项中中进行搜索剔除行搜索剔除了很多不相关的了很多不相关的诸如新如新闻之之类的无效信息。的无效信息。4.4.检索结果检索结果 (1 1)检索结果设置:)检索结果设置: 可以通过可以通过GoogleGoogle的的“preferencespreferences”( (使用偏好使用偏好)

28、 )对检索对检索结果进行预先设置结果进行预先设置 对指令指令语言言进行限定,目前共有世界行限定,目前共有世界语在内的在内的8888种种语言。言。 对查询语言言进行限定,共有行限定,共有3535种种语言供言供选择。 网网页过滤,已在前面,已在前面GoogleGoogle其他功能中其他功能中讲述。述。 对查询结果果的的数数量量进行行限限定定,可可选择1010、2020、3030、5050、100100条条记录不等。不等。 结果果视窗限定,可窗限定,可选择以开启新以开启新视窗的方式窗的方式显示示检索索结果。果。使用偏好设定好,要存储后进行检索。4.4.检索结果检索结果 (2 2)检索结果显示)检索结

29、果显示第第4章章搜索引擎搜索引擎1.搜索引擎的概念搜索引擎的概念2.搜索引擎的搜索引擎的类型及特点型及特点3.常用通用搜索引擎常用通用搜索引擎4.常用元搜索引擎常用元搜索引擎5.常用医学常用医学专业搜索引擎搜索引擎Cyber411(http:/)Dogpile(http:/)Highway61(http:/)Mamma(http:/)Metacrawler(http:/)Ixquick(http:/)第第4章章搜索引擎搜索引擎1.搜索引擎的概念搜索引擎的概念2.搜索引擎的搜索引擎的类型及特点型及特点3.常用通用搜索引擎常用通用搜索引擎4.常用元搜索引擎常用元搜索引擎5.常用医学常用医学专业搜索引擎搜索引擎MedicalMatrix(医源)(医源)MedicalWorldSearch(医学世界检索)(医学世界检索)Medscape(医景医景)HON(HealthOntheNetFoundation)

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 模板/表格 > 财务表格

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号