《最新医学五年制检索课-第4章 网络搜索引擎精品课件》由会员分享,可在线阅读,更多相关《最新医学五年制检索课-第4章 网络搜索引擎精品课件(48页珍藏版)》请在金锄头文库上搜索。
1、医学五年制检索课医学五年制检索课-第第4章章 网网络搜索引擎络搜索引擎面对网上扑面面对网上扑面面对网上扑面面对网上扑面而来的信息如而来的信息如而来的信息如而来的信息如何是好?何是好?何是好?何是好?索引式搜索引擎的主要特点是索引式搜索引擎的主要特点是:1.交交互互性性更更强强,集集中中体体现现了了客客户户机机/服服务务器器模模式的优势。式的优势。2.检检索索功功能能强强大大,一一般般可可进进行行布布尔尔逻逻辑辑检检索索、词组检索、位置检索、截词检索等词组检索、位置检索、截词检索等3.提提供供二二次次检检索索,允允许许在在查查询询结结果果中中进进一一步步限定,从而缩小检索结果范围,提高查准限定,
2、从而缩小检索结果范围,提高查准率。率。目录式搜索引擎目录式搜索引擎又又称称目目录录导导引引式式搜搜索索引引擎擎,主主要要是是指指由由人人工工发发现现、抓抓取取、辨辨别别网网上上信信息息,依依靠靠编编目目、标标引引人人员员的的知知识识,按按照照图图书书分分类类、学学科科分分类类或或其其他他分分类类依依据据,建建立立主主题题树树分分层层目目录录,并并将将采采集集、筛筛选选后后的的信信息息分分门门别别类类地地放放入入各各大大类类或或子子类类下下面面。在在Web页页面面上上呈呈现现出出错错落落有有致致的的上上下下位位关关系系,用用户户通通过过层层层层点点击击,顺顺链链而而行行,随随着着范范畴畴的的缩缩
3、小小与与查查询询的的专专指指度度提提高高,最终满足用户的查询需求。最终满足用户的查询需求。目录式搜索引擎的特点目录式搜索引擎的特点1.比比较较适适合合主主题题浏浏览览、一一般般主主题题检检索索或或为为用用户户检检索索提提供供有有价价值值的的提提示示,而而且且通通过过这这种种体体系系分分类类来来归归整整资资源源,体体现现了了知知识识概概念念的的系系统统性性,有利于族性检索。有利于族性检索。2.查查准准率率高高。一一方方面面人人工工技技术术的的干干预预;另另一一方方面面用户参与程度高用户参与程度高.3.查查全全率率有有限限。信信息息涵涵盖盖量量不不大大,更更新新能能力力有有限是这类检索引擎的一个弊
4、端。限是这类检索引擎的一个弊端。4.分分类类依依据据的的科科学学性性与与标标准准性性。对对于于这这一一类类搜搜索索引引擎擎,分分类类标标准准是是其其提提供供优优质质检检索索服服务务底底重要保障之一。重要保障之一。目目录录式式搜搜索索引引擎擎与与索索引引式式搜搜索索引引擎擎的的主主要要区区别别在于:在于:1.目目录录式式搜搜索索引引擎擎的的数数据据库库是是依依靠靠人人工工建建立立起起来来的的,索索引引式式搜搜索索引引擎擎的的数数据据库库是是用用程程序序自动搜索和积累的。自动搜索和积累的。2.由由于于目目录录是是依依靠靠人人工工进进行行整整理理搜搜索索,而而且且只只在在保保存存的的对对站站点点的的
5、描描述述中中进进行行搜搜索索,因因此此站站点点本本身身的的动动态态变变化化不不会会反反映映到到搜搜索索结结果果中中来,其网站信息的更新速度受到一定影响。来,其网站信息的更新速度受到一定影响。3.由由于于目目录录是是依依靠靠人人工工来来评评价价一一个个网网站站的的内内容容,因因此此用用户户从从目目录录搜搜索索得得到到的的结结果果往往往往比比索引式搜索引擎得到的结果更具参考价值。索引式搜索引擎得到的结果更具参考价值。网网上上信信息息的的急急剧剧膨膨胀胀往往往往是是单单个个独独立立搜搜索索引引擎擎的的检检索索能能力力所所难难以以招招架架的的。任任何何一一个个搜搜索索引引擎擎都都不不可可能能100%的
6、的覆覆盖盖网网上上信信息息。据据专专家家评评测测,目目前前主主要要搜搜索索引引擎擎返返回回的的相相关关结结果果的的比比率率不不超超过过45%,而而且且由由于于机机制制、范范围围、算算法法等等差差异异,导导致致同同样样一一个个查查询询请请求求在在不不同同的的搜搜索索引引擎擎中中的的检检索索结结果果的的重重复复率率不不足足34%。因因此此,要要想想获获得得一一个个比比较较全全面面、准准确确的的结结果果,就就必必须须反反复复调调用用多多个个搜搜索索引引擎擎。于于是是,元元搜搜索索引引擎擎应应运运而而生生,在在一一定定程程度度上上解解决决了了搜搜索索引引擎擎的的这些问题。这些问题。元元搜搜索索引引擎擎
7、(MetasearchEngine),被被称称为搜索引擎之上的搜索引擎,是一个要调用其为搜索引擎之上的搜索引擎,是一个要调用其 他搜索引擎的搜索引擎。他搜索引擎的搜索引擎。元搜索引擎的主要特点元搜索引擎的主要特点1.查全率大大提高,但查准率更难保障;2. 一般只支持AND、OR、NOT等简单的操作;3. 运作机制有别于目录式和索引式;4.元搜索引擎需要与各个收录的搜索引擎网站建立协作关系,拥有对方数据库的访问权。第第4章章搜索引擎搜索引擎1.搜索引擎的概念搜索引擎的概念2.搜索引擎的类型及特点搜索引擎的类型及特点3.常用通用搜索引擎常用通用搜索引擎4.常用元搜索引擎常用元搜索引擎5.常用医学专
8、业搜索引擎常用医学专业搜索引擎Google(http:/)Hotbot(http:/)Yahoo!(http:/)Baidu(http:/)Google1.概况概况 Google是由两个斯坦福大学博士生是由两个斯坦福大学博士生Larry Page与与SergeyBrin于于1998年年 9月月发发明,并于明,并于1999年年创创立了立了Google公司。公司。Google 的使命就是要提供网上最好的的使命就是要提供网上最好的查询查询服服务务,促,促进进全球信息全球信息的交流。的交流。Google 开开发发出了世界上最大的搜索引擎,提供了最便出了世界上最大的搜索引擎,提供了最便捷的网上信息捷的网
9、上信息查询查询方法。通方法。通过对过对 多达一万多达一万亿亿网网页进页进行整理,可行整理,可为为世界各地的用世界各地的用户户提供适需的搜索提供适需的搜索结结果。果。 Google 是由英文是由英文单词单词“googol”变变化而来。化而来。“googol”是美是美国数学家国数学家 Edward Kasner 的侄子的侄子 Milton Sirotta 创创造的一个造的一个词词,表示表示 1后后边带边带有有 100 个零的数字。个零的数字。Google 使用使用这这个个词词代表公司代表公司想征服网上无想征服网上无穷穷无尽无尽资资料的雄心。料的雄心。2.特点及技特点及技术术支持支持(1)特点)特点
10、 Google支支 持持 多多 语语 言言 检检 索索 , 包包 括括 简简 体体 中中 文文 和和 繁繁 体体 中中 文文 ;Google网网站站只只提提供供搜搜索索引引擎擎功功能能,没没有有花花里里胡胡哨哨的的累累赘赘;Google速度极快,有速度极快,有100多万台服多万台服务务器;器; Google的的专专利利网网页页级级别别技技术术PageRank能能够够提提供供高高命命中中率率的的搜搜索索结结果;果; Google的搜索的搜索结结果摘果摘录查询录查询网网页页的含有关的含有关键键字的内容,而不字的内容,而不仅仅 仅仅是网站是网站简简介介 Google智能化的智能化的“手气不手气不错错
11、”功能,提供可能最符合要求的网站;功能,提供可能最符合要求的网站; Google的的“网网页页快快照照”功功能能,能能从从Google服服务务器器中中直直接接取取出出缓缓存存的网的网页页。 Google核心核心软软件称件称为为 PageRank(TM),这这是由其是由其创创始人始人LarryPage 和和 Sergey Brin 在斯坦福大学开在斯坦福大学开发发出的一套用于网出的一套用于网页评页评级级的系的系统统。当从网。当从网页页 A 链链接到网接到网页页B,Google 就就认为认为“网网页页 A投了网投了网页页 B 一票一票”,Google 根据网根据网页页的得票数的得票数评评定其重要性
12、。定其重要性。除了考除了考虑虑网网页页得票数(即得票数(即链链接)的接)的纯纯数量之外,数量之外,Google还还要分析要分析投票的网投票的网页页,“重要重要”的网的网页页所投出的票就会有更高的所投出的票就会有更高的权权重,有助重,有助于提高其它网于提高其它网页页的的“重要性重要性”。重要的、高。重要的、高质质量的网量的网页页会会获获得得较较高的网高的网页级别页级别; 另外,另外,Google还还将网将网页级别页级别与完善的文本匹配技与完善的文本匹配技术结术结合在一合在一起;采用自起;采用自动动搜索方法,排除了任何人搜索方法,排除了任何人为为因素因素对对搜索搜索结结果的影响。果的影响。 网页查
13、询网页查询若要求搜索结果包含两个及两个以上的关键词,只需在若要求搜索结果包含两个及两个以上的关键词,只需在关键词中间留空格即可。如:关键词中间留空格即可。如:childnursing若若要要求求搜搜索索结结果果不不包包含含某某些些特特定定信信息息时时,用用“-”紧紧密密地地加加在在作作用用的的关关键键词词前前面面。如如:nursing-child。这这里里的的“-”是是英英文文字字符符,而而不不是是中中文文字字符符,此此外外,操操作作符符与与作作用用的的关关键键词词之之间间,不不能能有有空空格格,如如加加入入空空格格,则则搜搜索索引引擎擎将将视视前前后后关关键键词词为为逻逻辑辑与与关系,中间的
14、关系,中间的“-”被忽略。被忽略。若要求搜索结果至少包含多个关键词中的任意一个时,可用大若要求搜索结果至少包含多个关键词中的任意一个时,可用大写的写的OR来连接各检索词。如:来连接各检索词。如:nursingORchildORelderGoogle只支持精确查找,不允许截词检索只支持精确查找,不允许截词检索Google搜搜索索不不区区分分英英文文字字母母大大小小写写。所所有有的的字字母母均均当当作作小小写写处处理理。如如:搜搜索索google、GOOGLE、GoOgLe,结结果果都都是是一一样样的。的。Google的关键词可以是词组,也可以是句子,但是,用句子的关键词可以是词组,也可以是句子,
15、但是,用句子做关键词,必须加英文引号。如做关键词,必须加英文引号。如“whatisallergy”Google会忽略最常用的词和字符,这些词和字符称为忽略词。会忽略最常用的词和字符,这些词和字符称为忽略词。如如:“http”、“.com”和和“的的”等等字字符符以以及及数数字字和和单单字字。使使用用英英文文双双引引号号可可将将这这些些忽忽略略词词强强加加于于搜搜索索项项,例例如如:输输入入“乙乙肝肝的治疗的治疗”时,加上英文双引号会使时,加上英文双引号会使“的的”强加于搜索项中。强加于搜索项中。要将搜索结果局限于某个具体网站或者网站频道,可用要将搜索结果局限于某个具体网站或者网站频道,可用si
16、te,如:搜索新浪文教频道中关于鲁迅的信息,可采用检索式如:搜索新浪文教频道中关于鲁迅的信息,可采用检索式鲁迅鲁迅site:。需需要要注注意意的的是是:site后后的的冒冒号号为为英英文文字字符符,并并且且冒冒号号后后不不能能有有空空格格,否否则则,“site:”将将被被作作为为一一个个搜搜索索的的关关键键词词。网网站站域域名名不不能能有有“http”以以及及“www”前前缀缀,也也不不能能有有任任何何“/”的的目目录录后后缀缀。若若想想排排除除某某网网站站或或者者域域名名范范围围内内的的页页面面,只需用只需用“_网站网站/域名域名”。若想查询某一类文件(扩展名相同),可使用若想查询某一类文件
17、(扩展名相同),可使用“filetype:”。最重要的文档搜索是最重要的文档搜索是PDFPDF搜索。搜索。PDFPDF是是ADOBEADOBE公司开发的电子文档公司开发的电子文档格式,现在已经成为互联网的电子化出版标准。目前格式,现在已经成为互联网的电子化出版标准。目前GoogleGoogle检索检索的的PDFPDF文档大约有文档大约有25002500万左右。万左右。PDFPDF文档通常是一些图文并茂的综文档通常是一些图文并茂的综合性文档,提供的资讯一般比较集中全面。例如,搜索关于电子合性文档,提供的资讯一般比较集中全面。例如,搜索关于电子商务的商务的PDFPDF文档,可采用文档,可采用eco
18、mmerce filetype:pdfecommerce filetype:pdf检索式。检索式。若想要搜索的关键词包含在若想要搜索的关键词包含在URL链接中,可用链接中,可用“inurl:”。“inurl”语法返回的网页链接中包含第一个关键词,后面的关键词语法返回的网页链接中包含第一个关键词,后面的关键词则出现在链接中或者网页文档中。有很多网站把某一类具有相则出现在链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名或者网页名称中,比如同属性的资源名称显示在目录名或者网页名称中,比如“MP3”等,于是,就可以用等,于是,就可以用INURL语法找到这些相关资源链接,然后,
19、语法找到这些相关资源链接,然后,用第二个关键词确定是否有某项具体资料。如:用第二个关键词确定是否有某项具体资料。如:inurl:mp3歌歌曲曲要想搜索的关键词包含在网页标题中,可用要想搜索的关键词包含在网页标题中,可用“intitle”。“intitle:”的用法类似于上面的的用法类似于上面的inurl,只是后者对,只是后者对URL进行查询,而前者对网页的进行查询,而前者对网页的标题栏进行查询。网页设计的一个原则就是要把主标题栏进行查询。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因页的关键内容用简洁的语言表示在网页标题中。因此,只查询标题栏,通常也可以找到高相关率的
20、专此,只查询标题栏,通常也可以找到高相关率的专题页面。例如:题页面。例如:intitle:sars如果想知道有多少人对某一网站做了链接,用如果想知道有多少人对某一网站做了链接,用“link:”语法就能迅速达到这个目的。如:搜索语法就能迅速达到这个目的。如:搜索所有含指向华军软件园所有含指向华军软件园链接的链接的网页。可以采用网页。可以采用link:检索式进检索式进行检索。但需要注意,行检索。但需要注意,“link”不能与其他语法相不能与其他语法相混合操作。混合操作。 查找与某个页面结构内容相似的页面,可用查找与某个页面结构内容相似的页面,可用“related:related:”。例例,搜搜索索
21、所所有有与与中中文文新新浪浪网网主主页页相相似似的的页页面面(如如网网易易首首页页,搜搜狐狐首首页页,中中华华网网首首页页等等),可可输入输入related: . 若想从若想从GoogleGoogle服务器上缓存页面中查询信息,可用服务器上缓存页面中查询信息,可用“cache:cache:”。搜搜索索GoogleGoogle服服务务器器上上某某页页面面的的缓缓存存,通通常常用用于于查查找找某某些些已已经经被被删删除除的的死死链链接接网网页页,相相当当于于使使用用普普通通搜搜索索结结果果页页面面中中的的“网网页页快快照照”功功能能。例例如如,查查找找GoogleGoogle缓缓存存的的中中文文y
22、ahooyahoo首首页页,可可cache:cache:. .图图像像检检索索在首在首页页点点击击“图图像像”(images)链链接就接就进进入了入了图图像搜索像搜索界面。在关界面。在关键词栏键词栏内内输输入描述入描述图图像内容的关像内容的关键键字,如字,如“blue sky”,就会搜索到大量的,就会搜索到大量的蓝蓝天的天的图图片。片。Google的的图图像搜索像搜索结结果具有一个直果具有一个直观观的的缩缩略略图图,以及,以及对该缩对该缩略略图图的的简单简单描述描述,如,如图图像文件名称,以及大小等。点像文件名称,以及大小等。点击击缩缩略略图图,页页面分成两面分成两祯祯,上,上祯祯是是图图像之
23、像之缩缩略略图图,以及,以及页页面面链链接,下接,下祯祯是是该图该图像所像所处处的的页页。其其检检索同网站索同网站检检索相似,索相似,Google图图像搜索目前支持的像搜索目前支持的语语法包括法包括“_”、“OR”、 “site”、“filetype” 。新新闻闻(组组)检检索索新新闻组闻组有有详详尽的分尽的分类类主主题题,某些主,某些主题还题还有有专专人管理和人管理和编辑编辑,具有大量的有价,具有大量的有价值值信息。信息。由于新由于新闻组闻组包含的信息包含的信息实实在是海量,因此在是海量,因此不利用工具不利用工具进进行行检检索是不大可能的。索是不大可能的。进进入入Google新新闻组闻组,有
24、两种信息,有两种信息查查找方式。找方式。一种是一一种是一层层层层地点地点击进击进入特定主入特定主题讨论组题讨论组,另一种另一种则则是直接搜索。是直接搜索。新新闻检闻检索也支持高索也支持高级检级检索索 分分类检类检索索即目即目录录内内检检索。如果不想搜索广泛的网索。如果不想搜索广泛的网页页,而是想而是想寻寻找某些找某些专题专题网站,就可以网站,就可以访问访问Google的分的分类类目目录录。如:。如:查查找关于找关于癌症治癌症治疗疗及及护护理理方面的中文方面的中文资资料,先料,先进进入中文入中文简简体分体分类类目目录录,再,再进进入入“健康健康”子目子目录录,确定,确定选选中中“只在健康中搜索只
25、在健康中搜索”单选项单选项目,在搜索目,在搜索栏栏内填入内填入“癌症癌症”进进行行检检索。索。该该种种检检索方式的索方式的查询结查询结果比普通的果比普通的检检索更索更有效,因有效,因为为在分在分类类健康健康项项中中进进行搜索剔除行搜索剔除了很多不相关的了很多不相关的诸诸如新如新闻闻之之类类的无效信息。的无效信息。4.4.检索结果检索结果 (1 1)检索结果设置:)检索结果设置: 可以通过可以通过GoogleGoogle的的“preferencespreferences”( (使用偏好使用偏好) )对检索对检索结果进行预先设置结果进行预先设置 对指令指令语言言进行限定,目前共有世界行限定,目前共
26、有世界语在内的在内的8888种种语言。言。 对查询语言言进行限定,共有行限定,共有3535种种语言供言供选择。 网网页过滤,已在前面,已在前面GoogleGoogle其他功能中其他功能中讲述。述。 对查询结果果的的数数量量进行行限限定定,可可选择1010、2020、3030、5050、100100条条记录不等。不等。 结果果视窗限定,可窗限定,可选择以开启新以开启新视窗的方式窗的方式显示示检索索结果。果。使用偏好设定好,要存储后进行检索。4.4.检索结果检索结果 (2 2)检索结果显示)检索结果显示第第4章章搜索引擎搜索引擎1.搜索引擎的概念搜索引擎的概念2.搜索引擎的类型及特点搜索引擎的类型
27、及特点3.常用通用搜索引擎常用通用搜索引擎4.常用元搜索引擎常用元搜索引擎5.常用医学专业搜索引擎常用医学专业搜索引擎Cyber411(http:/)Dogpile(http:/)Highway61(http:/)Mamma(http:/)Metacrawler(http:/)Ixquick(http:/)第第4章章搜索引擎搜索引擎1.搜索引擎的概念搜索引擎的概念2.搜索引擎的类型及特点搜索引擎的类型及特点3.常用通用搜索引擎常用通用搜索引擎4.常用元搜索引擎常用元搜索引擎5.常用医学专业搜索引擎常用医学专业搜索引擎MedicalMatrix(医源)(医源)http:/www.medmatrix.orgMedicalWorldSearch(医学世界检索)(医学世界检索)http:/Medscape(医景医景)http:/HON(HealthOntheNetFoundation)http:/www.hon.ch/结束语结束语谢谢大家聆听!谢谢大家聆听!48