利用Google进行专题信息检索的方法和技巧.doc

上传人:大米 文档编号:550840423 上传时间:2023-11-27 格式:DOC 页数:13 大小:47KB
返回 下载 相关 举报
利用Google进行专题信息检索的方法和技巧.doc_第1页
第1页 / 共13页
利用Google进行专题信息检索的方法和技巧.doc_第2页
第2页 / 共13页
利用Google进行专题信息检索的方法和技巧.doc_第3页
第3页 / 共13页
利用Google进行专题信息检索的方法和技巧.doc_第4页
第4页 / 共13页
利用Google进行专题信息检索的方法和技巧.doc_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《利用Google进行专题信息检索的方法和技巧.doc》由会员分享,可在线阅读,更多相关《利用Google进行专题信息检索的方法和技巧.doc(13页珍藏版)》请在金锄头文库上搜索。

1、利用Google进行专题信息检索的方法和技巧利用Google进行专题信息检索的方法和技巧 2003-12-15 李子臣(山东理工大学图书馆 淄博 255049)摘要 随着科学研究所依赖的各种信息资源的大规模网络化数字化,搜索引擎逐渐成为网络时代的最快捷方便的个性化信息服务系统。Google成为目前最受欢迎的搜索引擎 ,本文全面详细总结了利用Google进行专题信息检索的方法和技巧。关键词 个性化 信息服务 信息检索 专题检索 搜索 Google 方法 技巧 目前,科学研究依赖的各种信息资源,包括文摘索引、期刊论文、预印本、技术报告、学位论文、会议论文、以及部分重要工具书和专著等在内的主流科研信

2、息资源已经逐步数字化,开始形成一个逐步完善的数字化信息资源空间,科研人员可以通过网络跨时空的进行专题信息检索,获取相关科研文献资源1。基于网页内容的全文检索技术是搜索引擎的核心,搜索引擎也是全自动的软件服务。从目前来看,搜索引擎,尤其是Google已成为网络时代最快捷方便的个性化信息服务系统和服务方式。21 Google成为目前最受欢迎的搜索引擎Google(WWW.G)是当今一个优秀的搜索引擎,其功能强大、特点突出、技术先进和服务优良,它在业界评测中获得多项大奖,各大引擎竞相模仿其功能和特色。Google非中国本土公司,但它支持中文搜索,其中文搜索引擎是收集亚洲网站最多的搜索引擎之一,国内使

3、用其独立搜索引擎的人数急剧增长。目前,全世界访问量最大的4个网站中,3家采用了Google的搜索技术,80%的互联网搜索是通过Google或使用Google技术的网站完成的。目前Google每个月接待来自世界各地的超过2800万独立访问者,全球网民通过Google可以使用86种语言,搜索30多亿个网页及其网页快照,以及4亿多张图片,每个月Google被用户使用的时间为1500万小时左右。据搜索引擎观察者网络杂志统计结果显示,至2002年10月份,网民使用Google的时间量每月达到1610万小时;相比之下,雅虎只吸引了660万小时,微软 MSN仅有520万小时3。 2 利用Google进行专题

4、信息检索的方法和技巧关键词检索功能是网络信息检索工具的基本检索功能,也是Google最基本的检索功能。关键词属于自然语言,灵活、不受词表控制,但简单的关键词检索方法,命中过多,查准率很低,Google为改善关键词检索性能,提供了按相关度排列结果、布尔逻辑检索,短语或者句子检索、加权检索和限制检索等增强措施。利用Google进行专题信息检索,为提高查准率,须认真分析课题,选择恰当的关键词,掌握和运用Google检索语法规则,准确设计表达需求的检索式,反复调整检索策略,才能获得高质量的检索结果。2.1 简单专题信息检索,最直截了当就是在搜索框内输入一个关键词,然后点击下面的“Google搜索”按钮

5、(或者直接回车),结果就出来了。如果检索人员或用户对查询的领域熟悉,只想寻找某些专题网站,首先考虑用目录检索,Google根据其专业的“网页级别”(PageRank)技术对目录中登录的网站进行了排序,可以使检索具更高效率,按所需主题确定沿某类层层查找网站,目录分类明确,网站专题信息集中,剔除了大量不相关的信息,不过对查找中文信息,Google的中文目录太少,只有非常普通简单的类目,可能很难满足要求。 2.2 熟练掌握Google的基本搜索:+,-,OR ,学会使用两个关键字进行复杂专题信息检索 检索复杂专题依靠单个关键词查准率很低,要提高查全检准率,需进行详细的主题分析,选择多个关键词构造检索

6、式。要分清主要概念和次要概念,去掉被隐含了的概念,确定需要排除的某些概念和不宜选用的泛指概念,以便在制定检索策略时有所侧重,保证检索提问的确切表达。正确选择关键词,各种类型的检索课题对检索的查全率和查准率有着不同的要求,可以增加上位概念或下位概念的方法来扩检4,若查准率要求较高,应使用专指性较强的概念或增加限制概念来缩小检索范围,还可通过对字段进行限定的方式来保证查找的准确性。对于那些对查全率和查准率无特殊要求的用户来说,也要针对不同的课题,制定相应的检索策略。对文献量较大或属于成熟学科的课题,应优先考虑查准率,从众多的相关文献中选取针对性较强的文献。对文献较少或新兴学科的课题,可适当放宽检索

7、范围来保证查全率,以免遗漏重要的参考文献。选择正确的关键词后,就要运用Google检索语法规则构建检索式。Google无需用明文的“+”来表示逻辑“与”操作,只要空格就可以了。示例:搜索所有包含关键词“易筋经”和“吸星大法”的中文网页 搜索式:“易筋经 吸星大法”(注意:文章中搜索语法外面的引号仅起引用作用,不能带入搜索栏内。)Google用减号“-”表示逻辑“非”操作。示例:搜索所有包含“易筋经”而不含“吸星大法”的中文网页 搜索式:“易筋经 -吸星大法”(注意:这里的“+”和“-”号,是英文字符,而不是中文字符的“”和“”。此外,操作符与作用的关键字之间,不能有空格。比如“易筋经 - 吸星

8、大法”,搜索引擎将视为逻辑“与”操作,中间的“-”被忽略。) Google用大写的“OR”表示逻辑“或”操作( 注意:小写的“or”,在查询的时候将被忽略;这样上述的操作实际上变成了一次“与”查询)。但是,关键字为中文的或查询似乎还有BUG,无法得到正确的查询结果。 示例:搜索包含布兰妮“Britney”或者披头士“Beatles”、或者两者均有的中文网页。 搜索式:“britney OR beatles” 结果:已搜索有关britney OR beatles的中文(简体)网页。共约有14,600项查询结果,这是第1-10项。搜索用时0.08秒。 搜索式:“布兰妮 OR 披头士” 结果:找不到

9、和您的查询-布兰妮 OR 披头士-相符的网页。“+”和“-”的作用有的时候是相同的,都是为了缩小搜索结果的范围,提高查询结果命中率。 例:查阅天龙八部具体是哪八部。分析:如果光用“天龙八部”做关键字,搜索结果有26,500项,而且排前列的主要与金庸的小说天龙八部相关,很难找到所需要的信息。可以用两个方法减少无关结果。( 1)、如果你知道八部中的某一部,比如阿修罗,增加“阿修罗”关键字,如“天龙八部 阿修罗”。搜索结果就只有995项,可以直接找到全部八部。( 2)、如果你不知道八部中的任何一部,但知道这与佛教相关,可以排除与金庸小说相关的记录,如“天龙八部 佛教 -金庸”。查询结果为1,010项

10、,可以迅速找到需要的资料。2.3 熟悉Google的辅助搜索方法:通配符、大小写、句子、忽略字符以及强制搜索 5Google不支持通配符,如“*”、“?”等,只能做精确查询,关键字后面的“*”或者“?”会被忽略掉。Google对英文字符大小写不敏感,“GOD”和“god”搜索的结果是一样的。Google的关键字可以是词组(中间没有空格),也可以是句子(中间有空格),但是,用句子做关键字,必须加英文引号。 示例:搜索包含“long, long ago”字串的页面。 搜索式:“long, long ago“” 结果:已向英特网搜索“long, long ago“. 共约有28,300项查询结果,这

11、是第1-10项。搜索用时0.28秒。注意:和搜索英文关键字串不同的是,Google对中文字串的处理并不十分完善。比如,搜索“啊,我的太阳“”,我们希望结果中含有这个句子,事实并非如此。查询的很多结果,“啊”、“我的”、“太阳”等词语是完全分开的,但又不是“啊 我的 太阳”这样的与查询。Google对一些网络上出现频率极高的词(主要是英文单词),如“i”、“com”,以及一些符号如“*”、“.”等,作忽略处理,如果用户必须要求关键字中包含这些常用词,就要用强制语法“+”。 示例:搜索包含“Who am I ?”的网页。如果用“who am i ?“”,“Who”、“I”、“?”会被省略掉,搜索将

12、只用“am”作关键字,所以应该用强制搜索。 搜索式:“+who +am +i“”(注意:英文符号(如问号,句号,逗号等)无法成为搜索关键字,加强制也不行 ) 结果:已向英特网搜索“+who +am +i“. 共约有362,000项查询结果,这是第1-10项。搜索用时0.30秒。 2.4 了解Google的高级搜索语法:site,link,inurl,allinurl,intitle,allintitle “site”表示搜索结果局限于某个具体网站或者网站频道,如“”、“”,或者是某个域名,如“”、“com”等等。如果是要排除某网站或者域名范围内的页面,只需用“-网站/域名”。示例:搜索中文教育

13、科研网站()上所有包含“金庸”的页面。 搜索式:“金庸 site:” 示例:搜索包含“金庸”和“古龙”的中文新浪网站页面, 搜索式:“金庸 古龙 site:” 结果:已在搜索有关金庸 古龙的中文(简体)网页。共约有869项查询结果,这是第1-10项。搜索用时0.34秒。 注意:site后的冒号为英文字符,而且,冒号后不能有空格,否则,“site:”将被作为一个搜索的关键字。此外,网站域名不能有“http”以及“www”前缀,也不能有任何“/”的目录后缀;网站频道则只局限于“频道名.域名”方式,而不能是“域名/频道名”方式。诸如“金庸 site: 搜索式:“link:” 注意:“link”不能与

14、其他语法相混合操作,所以“link:”后面即使有空格,也将被Google忽略。使用inurl语法,返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中,比如“MP3”、“GALLARY”等,于是,就可以用INURL语法找到这些相关资源链接,然后,用第二个关键词确定是否有某项具体资料。INURL语法和基本搜索语法的最大区别在于,前者通常能提供非常精确的专题资料。 示例:查找MIDI曲“沧海一声笑”。 搜索式:“inurl:midi 沧海一声笑” 结果:已搜索有关inurl:midi 沧海一声笑的中文(简体

15、)网页。共约有14项查询结果,这是第1-10项。搜索用时0.01秒。示例:查找微软网站上关于windows2000的安全课题资料。 搜索式:“inurl:security windows2000 site:” 结果:已在内搜索有关 inurl:security windows2000的网页。共约有198项查询结果,这是第1-10项。搜索用时0.37秒。 注意:“inurl:”后面不能有空格,Google也不对URL符号如“/”进行搜索。Google对“cgi-bin/phf”中的“/”当成空格处理。 使用allinurl语法,返回的网页链接中包含所有查询关键字,这个查询的对象只集中于网页的链接字符串。 示例:查找可能具有PHF安全漏洞的公司网站。通常这些网站的CGI-BIN目录中含有PHF脚本程序(这个脚本是不安全的),表现在链接中

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号