信息检索:理论与方法(6)剖析

上传人:今*** 文档编号:106785581 上传时间:2019-10-16 格式:PPT 页数:33 大小:369KB
返回 下载 相关 举报
信息检索:理论与方法(6)剖析_第1页
第1页 / 共33页
信息检索:理论与方法(6)剖析_第2页
第2页 / 共33页
信息检索:理论与方法(6)剖析_第3页
第3页 / 共33页
信息检索:理论与方法(6)剖析_第4页
第4页 / 共33页
信息检索:理论与方法(6)剖析_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《信息检索:理论与方法(6)剖析》由会员分享,可在线阅读,更多相关《信息检索:理论与方法(6)剖析(33页珍藏版)》请在金锄头文库上搜索。

1、第六章 基于搜索引擎的信息检索,主要知识点 (一)搜索引擎技术原理 (二)搜索引擎检索方法 (三)万维网搜索引擎 (四)元搜索引擎 (五)专用搜索引擎 (六)搜索引擎技术的未来发展趋势,搜索引擎 (Search Engine)是互联网上专门用于检索的网站的统称,目前已多达数百上千种,包括通用万维网搜索引擎(Web Search Engines)、通用元搜索引擎(Meta-Search Engines)和各种专用搜索引擎三大类型。 搜索引擎的起源可以上溯到1990年由加拿大蒙特利尔大学学生Alan Emtage开发的Archie。Archie用于检索分散在各FTP服务器上的文件,但其工作原理与现

2、在的搜索引擎很接近。1993年底,人们认识到既然所有网页都可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网,这一简单想法就是今天搜索引擎的基本原理。1994年,Yahoo!和Lycos问世,成功地使搜索引擎的概念深入人心。1995年后,搜索引擎进入了高速发展时期,被誉为仅次于门户网站的互联网第二大核心技术。搜索引擎的技术原理和检索方法与DIALOG等专业文献型信息检索系统不同,有它自己的特点。,搜索引擎技术原理搜索引擎的组成,(1)搜索器(Searcher) 20世纪90年代,“机器人” (Robot)一词在计算机编程者中用于特指某种能以人类无法达到的速度不间断地

3、执行某项任务的软件程序。由于专门用于检索Web信息的“机器人”程序像蜘蛛一样在网络间爬来爬去,作为Web搜索器的“机器人”就被称为“网络蜘蛛”(Spider)。“网络蜘蛛”的功能就是在互联网中不断漫游,发现和搜集信息。作为一个计算机程序,搜索器日夜不停地运行,尽可能多、尽可能快地搜集各种类型的新信息,并定期更新已经搜集过的旧信息,以避免出现死链接和无效链接。 (2)索引器(Indexer) 索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,并生成文档库的索引表。索引项有客观索引项和内容索引项两种:客观索引项与文档的语意内容无关,如作者名、URL、更新时间等;内容索引项则是用来反映文档内容

4、的,如关键词及其权重、短语、单字等。,搜索引擎技术原理搜索引擎的组成,(3)用户检索界面(Interface) 用户检索界面是搜索引擎呈现在用户面前的形象,其作用是接受用户输入的查询、显示查询结果、提供用户相关性反馈。为使用户方便、高效地使用搜索引擎,从搜索引擎中检索到有效、及时的信息,用户检索界面的设计和实现采用人机交互的理论和方法,以充分适应人类的思维习惯。 用户检索界面包括简单界面和高级界面两类。简单界面只提供用户输入查询串的文本框;高级界面提供用户按照检索模型查询的机制。,搜索引擎技术原理搜索引擎的组成,(1)发现并搜集网页信息 搜索引擎通过高性能的“网络蜘蛛”程序(Spider)自动

5、地在互联网中搜索信息。一个典型的网络蜘蛛工作的方式是通过查看一个页面,从中找到与检索内容相关的信息, 然后再从该页面的所有链接中继续寻找相关的信息,以此类推,直至穷尽。“网络蜘蛛”为实现快速浏览整个互联网,通常在技术上采用抢先式多线程技术实现在网上聚集信息。 (2)对信息进行提取并建立索引库 索引库的建立关系到用户能否最迅速地找到最准确、最广泛的信息。索引器对“网络蜘蛛”抓来的网页信息极快地建立索引,以保证信息的及时性。建索引时对网页采用基于网页内容分析和基于超链分析相结合的方法进行相关度评价,能够客观地对网页进行排序,从而最大限度地保证搜索出的结果与用户的检索提问相一致。,搜索引擎技术原理搜

6、索引擎的运作,(3)用户检索利用 搜索引擎根据用户输入的检索词,在索引库中快速检出文档,进行文档与检索的相关度评价,对将要输出的结果进行排序,并将检索结果返回给用户。当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。这是对前两个过程的检验,检验该搜索引擎能否给出最准确、最广泛的信息,检验该搜索引擎能否迅速地给出用户最想得到的信息。,搜索引擎技术原理搜索引擎的运作,第六章 基于搜索引擎的信息检索,主

7、要知识点 (一)搜索引擎技术原理 (二)搜索引擎检索方法 (三)万维网搜索引擎 (四)元搜索引擎 (五)专用搜索引擎 (六)搜索引擎技术的未来发展趋势,(1)简单搜索(Simple Search):指输入一个单词(关键词),提交搜索引擎检索后反馈结果,也叫单词搜索。这是最基本的检索方法。 (2)词组搜索(Phrase Search):指输入两个单词以上的词组(短语),提交搜索引擎检索并反馈结果,也叫短语搜索。现有搜索引擎一般都约定把词组或短语放在引号“”内。如果查找的是一个词组或多个汉字,最好的办法就是将它们用双引号括起来,这样得到的结果最精确,这就叫使用双引号进行精确查找。一般说来在网页搜索

8、引擎中,用词组搜索来缩小范围从而找到搜索结果是最好的办法。 (3)高级搜索(Advanced Search):指用布尔逻辑组配方式检索,也叫定制搜索。常用的逻辑运算为AND(和)、OR(或)、NOT(非)。对A、B两词而言, A AND B是指取A和B的公共部分(交集),A OR B是指取A和B的全部(并集),A NOT B是指取A中排除B后的部分,其中NOT只作用于一个词,故称为一元操作符,其余作用于两个词,故称作二元操作符。A、B本身为多词时,可以用括号()分别括起来作为一个逻辑单位。,搜索引擎检索方法搜索引擎常用检索方法,(1)语句搜索(Sentence Search):指输入任意自然语

9、言问句,提交搜索引擎检索并反馈结果,这种方式也叫任意检索,实际上就是自然语言检索。并非所有的搜索引擎都支持这样的检索,而且不同搜索引擎对语句中词与词之间的关系的处理方式也不同。 (2)目录搜索(Catalog Search):指按搜索引擎提供的分类目录逐级检索,用户一般不需要输入检索词,而是按照检索系统所给的几种分类项目,选择类别进行搜索,也叫分类搜索(Classified Search)。,搜索引擎检索方法搜索引擎其他检索方法,(1)有针对性地选择搜索引擎:用不同的搜索引擎进行检索得到的结果常常有很大的差异,这是因为它们的设计目的和发展走向存在着许多不同,有的专用于检索Web信息,有的专用于

10、检索Usenet信息,而有的则针对商业需要设计,使用时要根据自己的需要选择合适的搜索引擎。 (2)根据要求选择检索方法并细化检索:如果需要快速找到一些相关性比较大的信息,可以使用目录索引式搜索引擎检索;如果想得到某一方面比较系统的资源信息或比较冷门的信息,则应该选用全文搜索引擎查找。许多搜索引擎都提供了对搜索结果进行细化与再检索的功能,如有的搜索引擎在结果中有“检索类似网页”的按钮,还有一些则可以对得到的结果进行新一轮的检索。没有一种技术是万能的,但将几种技术巧妙地结合起来使用则会大大提高检索效率。,搜索引擎检索方法搜索引擎使用技巧,第六章 基于搜索引擎的信息检索,主要知识点 (一)搜索引擎技

11、术原理 (二)搜索引擎检索方法 (三)万维网搜索引擎 (四)元搜索引擎 (五)专用搜索引擎 (六)搜索引擎技术的未来发展趋势,万维网搜索引擎的主体是全文搜索引擎(Full Text Search Engine),最具代表性的全文搜索引擎是Google、AlltheWeb、百度、慧聪等,它们都是从互联网上提取各个网站的信息(以网页文字为主),建立索引数据库,并在用户检索时予以匹配响应,再按一定的排列顺序将结果返回给用户,因此是所谓真正意义上的搜索引擎。,万维网搜索引擎,(1)Google简介:Google是由美国斯坦福大学的两位博士生 Larry Page 和 Sergey Brin 在 199

12、8 年创建的。1999 年 6 月,Google 通过自己的网站 推出 ,很快以其特有的技术优势和极佳性能扬名世界。 Google 的使命就是要提供网上最好的检索服务,促进全球信息的交流和共享。Google 开发出了世界上最大的搜索引擎,提供了最便捷的网上信息检索方法,通过对 30 多亿网页进行整理,Google 可为世界各地的用户提供所需的搜索结果,而且搜索响应时间通常不到半秒。 Google 将网页级别与完善的文本匹配技术结合在一起,可找到最重要、最有用的网页。Google 所关注的远不只是关键词在网页上出现的次数,它还对该网页的内容(以及该网页所链接的内容)进行全面检查,从而确定该网页是

13、否满足检索要求。 Google 复杂的自动搜索方法可以避免任何人为感情因素。与其他搜索引擎相比,Google 的结构设计确保了它绝对诚实、公正,任何人都无法用钱换取较高的排名。因此,使用Google 可以诚实、客观并且方便地在网上找到有价值的资料。由于 Google 搜索既快又好,因而成为网上搜索的首选引擎。,万维网搜索引擎Google(),(2)Google检索方法 Google支持简单搜索、词组搜索和高级搜索(选搜索框右侧的高级搜索项即可进入),而且以多语种、多媒体兼容为特色,用户键入搜索框中的任何符号均可得到反馈。如果用户键入了明显的错别字词,Google会给出提示,显示了一定的智能。

14、简单搜索:简单搜索是Google的基本搜索,检索简捷且方便,仅需输入检索内容并敲一下回车键 (Enter),或单击“Google 搜索”按钮,即可得到相关资料。如果想缩小搜索范围,可输入更多的关键词,只要在关键词中间留空格就行,此时,会自动使用“and”进行逻辑组配检索。 词组搜索: Google词组搜索使用英文双引号。在 Google 中,可以通过添加英文双引号来搜索短语。双引号中的词语(比如“world economy” )在检索到的文档中将作为一个整体出现。这一方法在查找名言警句或专有名词时显得格外有用。Google检索时会自动忽略最常用的词和字符,这些词和字符称为忽略词。Google

15、忽略词包括“http”、“.com”和“的”等字符以及数字和单字,因为这类字词不仅无助于缩小检索范围,而且会大大降低搜索速度。,万维网搜索引擎Google(),高级搜索:可以将检索策略输入Google主页面的检索框中进行检索,也可以进入高级检索界面后将检索策略输入检索框中检索。 (3)Google特殊功能 图像搜索:Google 的“图像搜索”是网络上现今最好的图像搜索工具,收录有超过 3.3 亿张图像供查看。要进行图像搜索,选择主页上方的图像键或直接用URL 即可进入,在图像搜索框中输入要查找的图像主题或相关关键词,然后单击“搜索”按钮。在检索结果页上单击缩略图即可看到原始大小的图像,同时还

16、可看到该图像所在的网页。 信息挖掘:如果要查找网络上的 PDF格式、DOC 格式、GIF格式等专门格式的文件,只需在检索词后加上.PDF、.DOC、.GIF等信息即可,Google会自动到服务器甚至数据库中去搜寻这些文件,体现了新颖的信息挖掘功能。 手气不错:按下“手气不错”按钮将自动进入 Google 检索到的第一个网页,而完全看不到其他搜索结果。使用“手气不错”进行搜索表示用于搜索网页的时间较少而用于检查网页的时间较多。,万维网搜索引擎Google(),网页快照:Google 在访问网站时,会将看过的网页复制一份网页快照,以备在找不到原来的网页时使用。单击“网页快照”时,将看到 Google 将该网页编入索引时的页面。在显示网页快照时,其顶部有一个标题,用来提醒用户这不是实际的网页。符合搜索条件的词语在网页快照上突出显示,便于快速找到所需的相关资料。 类似网页:单击“类似网页”时,Google 侦察兵便开始寻找与这一网页相关的网页。Google 侦察兵可以“一兵多用”。如果用户对某一网站的内容很感兴趣,但又嫌资料不够,Google 侦

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号