《搜索引擎及网络信息检索课案》由会员分享,可在线阅读,更多相关《搜索引擎及网络信息检索课案(77页珍藏版)》请在金锄头文库上搜索。
1、搜索引擎及网络信息检索课案1搜索引擎及网络信息检索20XX03课案搜索引擎技术原理-搜索引擎概述搜索引擎(search engine)是互联网上专门用于检索的网站的统称,目前已多达数百上千种,包括通用万维网搜索引擎、通用元搜索引擎和各种专用搜索引擎三大类型。起源 可追溯至202X年,加拿大蒙特利尔大学学生Alan Emtage开发的用于检索分散在各FTP服务器上的文件,工作原理与现在的搜索引擎很接近。基本原理 202X年底,人们认识到既然所有网页都可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。发展 202X年,yahoo!和Lycos问世,成功地使搜索引擎的概
2、念深入人心。202X年后,搜索引擎进入了高速发展时期,被誉为仅次于门户网站的互联网第二大核心技术。(1)搜索器(searcher)20世纪90年代,“机器人”(robot)在计算机编程者中用于特指某种能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索web信息的“机器人”程序像蜘蛛一样在网络间爬来爬去,因此,作为web搜索器的“机器人”就被称为“网络蜘蛛”。网络蜘蛛的功能就是在互联网中不断漫游,发现和搜集信息。作为一个计算机程序,搜索器日夜不停地运行,尽可能多,尽可能快地搜集各种类型的新信息,并定期更新已经搜集过的旧信息,以避免出现死链接和无效链接。搜索引擎技术原理-搜索引
3、擎组成 (2)索引器(indexer) 索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,并生成文档库的索引表。索引项有客观索引项和内容索引项两种:客观索引项与文档的语意内容无关,如作者名,url,更新时间等等;内容索引项则是用来反应文档内容的,如关键词及其权重、短语、单字等等。 (3)用户检索界面(interface) 用户检索界面是搜索引擎呈现在用户面前的形象,其作用是接受用户输入的查询、显示查询结果、提供用户相关性反馈。为使用户方便、高效的使用搜索引擎,从搜索引擎中检索到有效、及时的信息,用户检索界面的设计和实现采用人机交互的理论和方法,以充分适应人类的思维习惯。 用户检索界面包括
4、简单界面和高级界面两类。简单界面只提供用户输入查询串的文本框;高级界面提供用户按照检索模型查询的机制。搜索引擎技术原理-搜索引擎组成搜索引擎技术原理搜索引擎的运作 (1)发现并搜集网页信息搜索引擎通过高性能的“网络蜘蛛”程序(spider)自动地在互联网中搜索信息。一个典型的网络蜘蛛的工作方式是通过查看一个页面,从中找到与检索内容相关的信息,然后再从该页面的所有链接中继续寻找相关的信息,以此类推,直至穷尽。 “网络蜘蛛”为实现快速浏览整个互联网,通常在技术上采用抢先式多线程技术实现在网上聚集信息。 (2)对信息进行提取并建立索引库 索引库的建立关系到用户能否最迅速的找到最准确、最广泛的信息。索
5、引器对“网络蜘蛛”抓来的网页信息极快的建立索引,以保证信息的及时性。 建索引时对网页采用基于网页内容分析和基于超链分析相结合的方法进行相关度评价,能够客观地对网页进行排序,从而最大限度地保证搜索出的结果与用户的检索提问相一致。搜索引擎技术原理搜索引擎的运作 (3)用户检索利用 搜索引擎根据用户输入的检索词,在索引库中快速检出文档,进行文档与检索的相关度评价,对将要输出的结果进行排序,并将检索结果返回给用户。 当用户以关键词查找信息时,搜索引擎会在数据库中进行搜索,如果找到与用户要求内容相符的网站,并采用特殊的算法通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等计算出各网页的相关度及
6、排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。 这是对前两个过程的检验,检验该搜索引擎能够给出最准确、最广泛的信息,检验该搜索引擎能否迅速地给出用户最想得到的信息。搜索引擎技术原理搜索引擎的运作(1)简单搜索(simple search)指输入一个单词(关键词)进行搜索,也叫单词搜索。(2)词组搜索(Phrase Search):现有搜索引擎一般都约定把词组或短语放在引号“”内。如果查找的是一个词组或多个汉字,最好的办法就是将它们用双引号括起来,这样得到的结果最精确,这就叫使用双引号进行精确查找。一般说来在网页搜索引擎中,用词组搜索来缩小范围从而找到搜索结果是最好的办法。 搜索
7、引擎技术原理搜索引擎常用检索方法搜索引擎的检索方法搜索引擎其它检索方法(1)语句搜索(Sentence Search):指输入任意自然语言问句,提交搜索引擎检索并反馈结果,这种方式也叫任意检索,实际上就是自然语言检索。并非所有的搜索引擎都支持这样的检索,而且不同搜索引擎对语句中词与词之间的关系的处理方式也不同。(2)目录搜索(Catalog Search):指按搜索引擎提供的分类目录逐级检索,用户一般不需要输入检索词,而是按照检索系统所给的几种分类项目,选择类别进行搜索,也叫分类搜索(Classified Search)。(3)高级搜索(Advanced Search):指用布尔逻辑组配方式检
8、索,也叫定制搜索。常用的逻辑运算为AND(和)、OR(或)、NOT(非)。对A、B两词而言, A AND B是指取A和B的公共部分(交集)A OR B是指取A和B的全部(并集),A NOT B是指取A中排除B后的部分A、B本身为多词时,可以用括号三分别括起来作为一个逻辑单位。 搜索引擎技术原理搜索引擎常用检索方法搜索引擎的检索方法搜索引擎使用技巧(1)有针对性地选择搜索引擎:用不同的搜索引擎进行检索得到的结果常常有很大的差异,这是因为它们的设计目的和发展走向存在着许多不同,有的专用于检索Web信息,有的专用于检索Usenet信息,而有的则针对商业需要设计,使用时要根据自己的需要选择合适的搜索引
9、擎。Usenet是世界范围的新闻组网络系统,由成千上万个新闻组组成,囊括了整个互联网上几乎所有的电子论坛信息。通过Usenet,人们可以张贴个人信息,回答其他人的问题等等。由于参加Usenet新闻组讨论的用户人数众多,而且每个新闻组都按照其内容划分成科技,娱乐,新闻,体育等等不同的类别,所以如果用户有什么问题的或是希望了解什么信息的话,通过Usenet新闻组一定可以找到最全面,最满意的答案。搜索引擎的检索方法搜索引擎使用技巧(2)根据要求选择检索方法并细化检索: 如果需要快速找到一些相关性比较大的信息,可以使用目录索引式搜索引擎检索; 如果想得到某一方面比较系统的资源信息或比较冷门的信息,则应
10、该选用全文搜索引擎查找。许多搜索引擎都提供了对搜索结果进行细化与再检索的功能,如有的搜索引擎在结果中有“检索类似网页”的按钮,还有一些则可以对得到的结果进行新一轮的检索。没有一种技术是万能的,但将几种技术巧妙地结合起来使用则会大大提高检索效率。万维网搜索引擎(Web Search Engines) 万维网搜索引擎的主体是全文搜索引擎(Full Text Search Engine),最具代表性的全文搜索引擎是Google、AlltheWeb、百度等,它们都是从互联网上提取各个网站的信息(以网页文字为主),建立索引数据库,并在用户检索时予以匹配响应,再按一定的排列顺序将结果返回给用户,因此是所谓
11、真正意义上的搜索引擎。万维网搜索引擎Google( :/ google )(1)Google简介:Google是由美国斯坦福大学的两位博士生 Larry Page 和 Sergey Brin 在 202X 年创建的。202X 年 6 月,Google 通过自己的网站 推出 ,很快以其特有的技术优势和极佳性能扬名世界。Google 开发出了世界上最大的搜索引擎,提供了最便捷的网上信息检索方法,通过对 30 多亿网页进行整理,Google 可为世界各地的用户提供所需的搜索结果,而且搜索响应时间通常不到半秒。Google 将网页级别与完善的文本匹配技术结合在一起,可找到最重要、最有用的网页。Goog
12、le 所关注的远不只是关键词在网页上出现的次数,它还对该网页的内容(以及该网页所链接的内容)进行全面检查,从而确定该网页是否满足检索要求。 万维网搜索引擎Google( :/ google )(2)Google检索方法 Google支持简单搜索、词组搜索和高级搜索(页面右上角设置选项),而且以多语种、多媒体兼容为特色,用户键入搜索框中的任何符号均可得到反馈。如果用户键入了明显的错别字词,Google会给出提示,显示了一定的智能。 简单搜索:也称为基本搜索,仅需输入检索内容并敲一下回车键 (Enter),或单击“Google 搜索”按钮,即可得到相关资料。如果想缩小搜索范围,可输入更多的关键词,
13、只要在关键词中间留空格就行,此时,会自动使用“and”进行逻辑组配检索。万维网搜索引擎Google( :/ google )词组搜索: Google词组搜索使用英文双引号。 在 Google 中,可以通过添加英文双引号来搜索短语。双引号中的词语(比如“world economy” )在检索到的文档中将作为一个整体出现。这一方法在查找名言警句或专有名词时显得格外有用。Google检索时会自动忽略最常用的词和字符,这些词和字符称为忽略词。Google 忽略词包括“ ”、“ ”和“的”等字符以及数字和单字,因为这类字词不仅无助于缩小检索范围,而且会大大降低搜索速度。高级搜索:可以将检索策略输入Goo
14、gle主页面的检索框中进行检索,也可以进入高级检索界面后将检索策略输入检索框中检索。 万维网搜索引擎Google( :/ google )(3)Google特殊功能图像搜索:信息挖掘:如果要查找网络上的 PDF格式、DOC 格式、GIF格式等专门格式的文件,只需在检索词后加上.PDF、.DOC、.GIF等信息即可,Google会自动到服务器甚至数据库中去搜寻这些文件,体现了新颖的信息挖掘功能。 手气不错:按下“手气不错”按钮将自动进入 Google 检索到的第一个网页,而完全看不到其它搜索结果。使用“手气不错”进行搜索表示用于搜索网页的时间较少而用于检查网页的时间较多。万维网搜索引擎Googl
15、e( :/ google )网页快照:Google 在访问网站时,会将看过的网页复制一份网页快照,以备在找不到原来的网页时使用。单击“网页快照”时,您将看到 Google 将该网页编入索引时的页面。在显示网页快照时,其顶部有一个标题,用来提醒用户这不是实际的网页。符合搜索条件的词语在网页快照上突出显示,便于快速找到所需的相关资料。类似网页:单击“类似网页”时,Google 侦察兵便开始寻找与这一网页相关的网页。Google 侦察兵可以“一兵多用”。如果用户对某一网站的内容很感兴趣,但又嫌资料不够,Google 侦察兵会帮助找到其他有类似资料的网站。万维网搜索引擎Google( :/ googl
16、e )按链接搜索:有一些词后面加上冒号对 Google 具有特殊的含义。其中的一个词是“link:”。检索 link: 显示所有指向该网址的网页。指定网域:又一个后面加冒号而有特殊含义的词是“site:”。要在某个特定的网域或网站中进行搜索,可以在 Google 搜索框中输入“”。语句搜索:Google是最早支持自然语言检索的少数搜索引擎之一,目前这一功能仍在不断改善之中。万维网搜索引擎Yahoo!( :/ yahoo )(1)Yahoo简介:Yahoo!是世界上最早的搜索引擎之一,它是202X年4月由Standord大学的两名博士生David Filo 和Jerry Yang(杨致远)研制的。Yahoo!拥有第一流的Web目录和最佳的新闻链接以及许多附加服务,因而也有人将其专门独立为目录索引类搜索引擎(Search Index/Directory)。(2)Yahoo!常用检索:Yahoo!的魅力,就在于它的可浏览式分类主题目录。按照主题建立分类索引,提供全面的分类体系结构,并结合高质量的检索软件,Yahoo!成功地建立起了一套独特的信息管理和组织机制,使得对网络信息的全面检索变成现实