信息资源检索 第2版 教学课件 ppt 作者 李谋信 编著 09(1)-搜索引擎实验

上传人:E**** 文档编号:89474918 上传时间:2019-05-25 格式:PPT 页数:35 大小:3.81MB
返回 下载 相关 举报
信息资源检索 第2版 教学课件 ppt 作者 李谋信 编著 09(1)-搜索引擎实验_第1页
第1页 / 共35页
信息资源检索 第2版 教学课件 ppt 作者 李谋信 编著 09(1)-搜索引擎实验_第2页
第2页 / 共35页
信息资源检索 第2版 教学课件 ppt 作者 李谋信 编著 09(1)-搜索引擎实验_第3页
第3页 / 共35页
信息资源检索 第2版 教学课件 ppt 作者 李谋信 编著 09(1)-搜索引擎实验_第4页
第4页 / 共35页
信息资源检索 第2版 教学课件 ppt 作者 李谋信 编著 09(1)-搜索引擎实验_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《信息资源检索 第2版 教学课件 ppt 作者 李谋信 编著 09(1)-搜索引擎实验》由会员分享,可在线阅读,更多相关《信息资源检索 第2版 教学课件 ppt 作者 李谋信 编著 09(1)-搜索引擎实验(35页珍藏版)》请在金锄头文库上搜索。

1、第5章 搜索引擎Google,请过来签到,关键词搜索中强制符的使用,上海_对外贸易_学 命中记录569万条,时间0.38秒 +上海_对外贸易_学 命中记录563万条,时间0.31秒 上海_对外贸易 +学 命中记录474万条,时间0.28秒,检索表达式中标点符号的作用,在Google中所有以空格间隔的字符都被视为“关键词”,即当空格之间的字符串是AND、OR、NOT时,它们都作为关键词匹配 列外的特殊字符 GOOGLE对一些网络上出现频率极高的词(主要是英文单词),以及一些常用英文符号无法成为搜索关键字。例如: I com www 的 * . , ? 要使关键字中包含这些常用字符必须用强制符+

2、其他一些英文符号无法成为搜索关键字,加强制符也不行。 例如搜索包含Who am I ?的网页,如果用who am i ? “Who”、“I”、“?”会被省略掉,搜索将只用am作关键字 应该用强制符搜索:+who am +i 当空格之间是标点符号时(包括半角的加号+),都作为禁用字符不予使用。因此,当以 +号作为运算符、且两边加空格时是不起作用的。,星号*的作用,检索表达式中插入的星号*(其前后留出空格)作为通配符起作用 例 检索表达式:对外贸易_学 * 北京 检索结果: 以北京对外贸易专科学校为基础成立北京对外贸易学院 北京对外贸易学院、中央音乐学院、北京体育学院(四) 何先生是中国对外经济贸

3、易大学校董,亦是北京大学名誉校董 其中投档分较高的分别是天津对外经济贸易职业学院450分,北京吉利大学440 北京市对外贸易学校单燕玲 北京市皮革工业学校杨帆 使用中文搜索且通配符“*”前后不留空格时,只代表单字。 “以*治国”,表示搜索第一个为“以”,末两个为“治国”的四字短语。,词匹配与字匹配的区别,严格的说,搜索引擎是通过全文索引检索的,因此,一般而言输入多个关键词时词序是不重要的,在命中记录数上差距非常小。 例如检索表达式“上海 对外贸易 学”命中记录87.1万条,“对外贸易 学 上海”命中80.2万条。 检索时允许使用单字 例如检索表达式“对外贸易 学 北京”中的“学”字只能与“学院

4、”匹配而不能与“大学”匹配。 这是因为系统是从左侧开始与字符串进行匹配,当第一个字不相同时,即认为不匹配。,条件限定检索 :语言选项,网页高级检索窗口中与中文资料有关的语言选项有:任何语言、简体中文和繁体中文三项。 该下拉列表框忽略地区,只考虑语种,显然,如果选择中文简体,可以查到包括中国大陆在内的所有用简体中文发表的信息。 搜索时指定语言相比与不指定语言,不仅搜索速度快而且误检率低。,条件限定检索 :区域选项,区域选项用于查找指定国家或地区的网站发出的信息,但不能用于查找关于该地区的信息。 在该下拉列表框中,中国、中国香港、中国台湾均单独列出,对于查找中文资料比较方便,但查找海外发表的中文信

5、息仍要选择“任意区域”。 区城选项对查找国外资料同样很有用。例如查找“伦敦进出口贸易数据”,因为是查找英国官方发表的统计数据,对于这种情况在区域下拉列表框中选择“英国”比在语言下拉列表框中选择“英语”效果要好得多。,条件限定检索 :文件格式选项(filetype:),文件格式选项用于查找深网信息或隐形网信息,这种功能目前仅有很少几种搜索引擎具备。 由于某些信息大多数以特定的文件格式出现,检索时指定文件的格式将使命中文献的质量得到一定保证。例如 查找教学资料、论文初稿、学习体会等,选择WOC格式校果较好, 如果查找的信息可能出现在多种文件格式上,则应增加其他文件格式的检索,如有的培训资料就是以W

6、OC、PDF,甚至PPT等多种格式出现的。,在文本框中输入日期与日期下拉列表框中选择时间的区别,日期选项 确定网页第一次被浏览的时间 在文本框中输入日期 网页发布日期 查找某日发布的新闻时,年月日中间应插入空格、短横或斜杠等符号。 只输入年份或年月,有可能匹配的是网页正文中的日期。,条件限定检索 :字词位置选项,页内的任何地方 网页的标题(allintitle:) 每个网页都有一个标题,它出现在两个标识符和之间,对查找内容比较单一的网页很有用。选用本项后限过查找网页的标题和内文位置,即不查找URL和超链接中的信息。 与元词“allintitle”相关的还有一个“intitle:”,只对网页的标

7、题位置进行查询。使用元词“intitle:”时,应将其作为前置符与关键词一起在文本框中输入,中间不能有空格。 网页的内文(allintext:) 网页内的网址(allinurl:) 此处的“网址”指网页来源(URL),即在网页的URL位置查找。由于URL中会出现域名、文件名、文件类型,以及网页发布日期,所以在这个位置这些内容都可以作为检索词,但要注意输入格式。例如在此位置输入“上海对外贸易学院”后匹配了以下内容: 与元词“allinurl:”相关的还有一个“inurl:”。“inurl:”后面可以输入两个关键词,并返回的网页链接中包含第一个关键字,第二个关键字则出现在链接中或者网页文档中。有

8、很多网站把某一类具有相同属性的资源名称作为目录名或者网页标题的一部分,比如“MP3”、“GALLARY”等,于是,就可以根据这个现象利用“inurl:”找到这些相关类型资源的链接,例如“inurl:midi 沧海一声笑”可以查到同名手机铃声。“inurl:”语法和基本搜索语法的最大区别在于,前者通常能提供非常精确的专题资料。注意:“inurl:”与后面第一个关键词之间不能有空格,GOOGLE也不对URL中的路径符号“/”进行搜索。GOOGLE对“cgi-bin/phf”中的路径符号“/”当成空格处理。 在网页的“锚”链接内(allinanchor:) 指所使用的关键词出现在与搜索结果页有直接链

9、接的页面中。例如输入“上海对外贸易学院图书馆”几个字,搜出的结果页中有一项是上海对外贸易学院主页,而该主页被出现了“上海”、“对外”、“贸易”、“学院”、“图书馆”五个字的页面所链接。这种方式引用了科学引文索引中引用与被引的概念,其基本思路是:有引用关系的两个网页中,如果其中一个网页是相关的,那么另一个网页也应该有某种联系。因此选用“在网页的链接内”与默认选项“网页内任何地方”相比,显然是一种缩小检索范围的方法。 与“allincnchor:”对应的还有一个元词“inanchor:”与前者的区别是只能指定一个关键词,若指定的词语过长则仅匹词尾的关键词。,条件限定检索 :使用权限选项,未经许可过

10、滤 指Google尽其所能搜索到的网页,命中信息量最大。 可随意使用和共享 Google搜索到的不设限的可供公开浏览的网页,但若将该网页用于盈利目的可能会涉及知识产权问题,并且也不允许对网页进行修改。 可随意使用和共享,可用于商业目的 除可任意浏览外,将该网页用于商业目的也不会有问题。 可随意使用、共享或修改 虽然可以随意进入浏览,甚到没有对涂改网页等行为设防,但若用于商业目的可能涉及知识产权问题。 可随意使用、共享或修改,可用于商业目的 是一种最无戒备的网页,也是命中数最少的网页。,条件限定检索 :网域选项(site:),该项功能用于搜索指定网站或域名。由于搜索引擎都对网站的搜索层次进行了限

11、制,导致有些深层的网页会被忽略,所以将指定网域配合关键词使用时可以查到该网站中的隐形信息。 Google的网域关键字符搜索与百度不同,百度是站内搜索,而Google是在整个互联网范围内搜索。网域搜索默认前方一致检索(注意前后方向与平时说的关键词相反),即可以使用顶级域名或前两级域名检索。 Google的关键词检索时不能使用通配符(*),但在网域限定和和在特定网页搜索中指定URL时却可以使用通配符。若使用域名中的字符串作为关键字符,应该在该字符前后加两个通配符(*)和起分隔域名作用的园点(.),从而进行中间一致检索。当然也可以在主机名(例如www)右侧加上通配符,进行后方一致检索。 注意:sit

12、e后的冒号为英文字符,而且,冒号后不能有空格,否则,“site:”将被作为一个搜索的关键字。此外,网站域名不能有“http:/”前缀,也不能有目录路径分隔符“/”。,特定网页搜索:类似网页(related:),如果已知一网页的URL,无需另外输入关键词,系统会抽取已知网页的特征词进行匹配,搜索结构内容方面相似的网页。 例如输入“ 可见类似网页关键字符匹配的思路。要实现该功能也可以在文本框中直接输入检索表达式,例如“site: ”。,特定网页搜索:链接(link:),已知一网页的URL,无需另外输入关键词,即可搜出链接到该网页或被该网页链接的所有网页。这种方式适合于已知某一个网页后,查找与该网页

13、曾经链接过的其他隐形网页,也可用于测算该网页的影响力;由一个网站总有一些相关的友情链接,因此该方法也可以用于搜索相关网页。例如输入“ ”。注意:“link”不能与其他语法相混合操作,所以“link:”后面即使有空格,也将被GOOGLE忽略。 注意:“link:”不能与其他语法相混合操作,所以“link:”后面即使有空格,也将被Google忽略。另外还要说明的是,link只列出Google索引链接很小一部分,而非全部。,特殊搜索功能,搜索被删除或者被封掉的网页 cache用来搜索GOOGLE服务器上某页面的缓存,这个功能与“网页快照”相同,通常用于查找某些已经被删除的死链接网页或者某些被ISP封

14、掉的网站的页面。 搜索与某的超链接相关的多重信息 元词“info:”用来显示与某链接相关的一系列搜索结果,提供cache、link、related和完全包含该链接的网页的功能。例如,“info:”可以查找和新浪首页相关的一些资讯,包括:有关的网页信息、网页快照里的存档、与类似的网页、网页的所有链接、包含有的网页等。,多项组配功能,关键词与多个文件类型限定项的组配。例如搜索几个资产负债表的几种文档:“资产负债表 filetype:doc OR filetype:xls OR filetype:ppt”。 关键词与不同元词之间的组配。例如在网页的不同位置搜索Flash文件:filetype:swf inurl:swf 。 固定词组与其他关键词和元词的混合运算检索。例如搜索一些关于搜索引擎知识和技巧方面的PDF文档的检索表达式中包含了逻辑与和逻辑或两类运算符:“search engine“ tips OR tutorial filetype:pdf”,Google图片搜索结果页,实习题3:网络文本信息搜索实验,实习题4:网络图像信息搜索实验 第1小题搜索工具:

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号