搜索引擎概述.

上传人:小**** 文档编号:143674622 上传时间:2020-09-01 格式:PDF 页数:29 大小:131.23KB
返回 下载 相关 举报
搜索引擎概述._第1页
第1页 / 共29页
搜索引擎概述._第2页
第2页 / 共29页
搜索引擎概述._第3页
第3页 / 共29页
亲,该文档总共29页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《搜索引擎概述.》由会员分享,可在线阅读,更多相关《搜索引擎概述.(29页珍藏版)》请在金锄头文库上搜索。

1、搜索引擎概述 第一部分:搜索引擎发展史 第二部分:搜索引擎原理 第三部分:常用中英文搜索引擎指南 第一部分:搜索引擎发展史 1990 年以前,没有任何人能搜索互联网。 所有搜索引擎的祖先,是 1990 年由 Montreal的 McGill University学生 Alan Emtage、 Peter Deutsch 、 Bill Wheelan 发明的 Archie(Archie FAQ)。虽然当时World Wide Web 还 未出现,但网络中文件传输还是相当频繁的,由于大量的文 件散布在各个分散的FTP主机中,查询起来非常不便,因此 Alan Emtage 等想到了开发一个可以用文件

2、名查找文件的系 统,于是便有了Archie 。Archie是第一个自动索引互联网 上匿名 FTP网站文件的程序,但它还不是真正的搜索引擎。 Archie是一个可搜索的FTP文件名列表, 用户必须输入精确 的文件名搜索,然后Archie会告诉用户哪一个FTP地址可 以下载该文件。 由于 Archie深受欢迎,受其启发,Nevada System Computing Services大学于 1993 年开发了一个Gopher (Gopher FAQ ) 搜索工具 Veronica(Veronica FAQ ) 。Jughead 是后来另一个Gopher 搜索工具。 Robot(机器人) 一词对编程

3、者有特殊的意义。Computer Robot 是指某个能以人类无法达到的速度不断重复执行某项 任务的自动程序。由于专门用于检索信息的Robot 程序象蜘 蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot 程序被称为spider(Spider FAQ)程序。世界上第一个Spider 程序,是 MIT Matthew Gray的 World wide Web Wanderer, 用于追踪互联网发展规模。刚开始它只用来统计互联网上的 服务器数量,后来则发展为也能够捕获网址(URL )。 与 Wanderer 相对应, 1993 年 10 月 Martijn Koster创 建了 A

4、LIWEB (Martijn Koster Annouces the Availability of Aliweb),它相当于Archie的 HTTP版本。 ALIWEB不使 用网络搜寻Robot ,如果网站主管们希望自己的网页被 ALIWEB收录,需要自己提交每一个网页的简介索引信息,类 似于后来大家熟知的Yahoo。 随着互联网的迅速发展,使得检索所有新出现的网页变 得越来越困难,因此,在Wanderer 基础上,一些编程者将 传统的 Spider程序工作原理作了些改进。其设想是,既然 所有网页都可能有连向其他网站的链接,那么从一个网站开 始,跟踪所有网页上的所有链接,就有可能检索整个互联

5、网。 到 1993 年底,一些基于此原理的搜索引擎开始纷纷涌现, 其中最负盛名的三个是: Scotland的 JumpStation 、 Colorado 大学 Oliver McBryan的 The World Wide Web Worm (First Mention of McBryans World Wide Web Worm)、 NASA 的 Repository-Based Software Engineering (RBSE) spider。 JumpStation和 WWW Worm只是以搜索工具在数据库中找到匹 配信息的先后次序排列搜索结果,因此毫无信息关联度可 言。而 RBS

6、E 是第一个索引Html 文件正文的搜索引擎,也是 第一个在搜索结果排列中引入关键字串匹配程度概念的引 擎。 Excite 的历史可以上溯到1993 年 2 月,6 个 Stanford (斯坦福)大学生的想法是分析字词关系,以对互联网上的 大量信息作更有效的检索。到1993 年中,这已是一个完全 投资项目 Architext, 他们还发布了一个供webmasters 在自 己网站上使用的搜索软件版本,后来被叫做Excite for Web Servers 。(注: Excite后来曾以概念搜索闻名,2002 年 5 月,被 Infospace收购的 Excite停止自己的搜索引擎,改 用元搜

7、索引擎Dogpile ) 1994 年 1 月,第一个既可搜索又可浏览的分类目录 EINet Galaxy(Tradewave Galaxy )上线。除了网站搜索, 它还支持 Gopher 和 Telnet搜索。 1994 年 4 月, Stanford University的两名博士生,美 籍华人 Jerry Yang (杨致远)和 David Filo共同创办了Yahoo (Jerry Yang Alerts a Usenet group to the Yahoo Database ,1996 年的 Yahoo)。随着访问量和收录链接数 的增长,Yahoo目录开始支持简单的数据库搜索。因为

8、 Yahoo! 的数据是手工输入的,所以不能真正被归为搜索引擎,事实 上只是一个可搜索的目录。Wanderer 只抓取 URL ,但 URL信 息含量太小, 很多信息难以单靠URL说清楚,搜索效率很低。 Yahoo! 中收录的网站,因为都附有简介信息,所以搜索效率 明显提高。 (注: Yahoo以后陆续使用Altavista、Inktomi 、 Google 提供搜索引擎服务;2002 年 10 月 9 日, Yahoo放弃 自己的网站目录默认搜索,改为默认Google 的搜索结果, 成为一个真正的搜索引擎。并于2002 年 12 月 23 日收购 inktomi ,于 2003 年 7 月

9、14 日收购包括Fast 和 Altavista 在内的 Overture ) 1994 年初, Washington 大学 CS学生 Brian Pinkerton 开始了他的小项目WebCrawler(Brian Pinkerton Announces the Availability of Webcrawler)。1994 年 4 月 20 日, WebCrawler 正式亮相时仅包含来自6000 个服务器的内容。 WebCrawler 是互联网上第一个支持搜索文件全部文字的全 文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘 要一般来自人工评论或程序自动取正文的前100 个字。

10、(注: 后来 webcrawler陆续被 AOL和 Excite收购,现在和 excite 一样改用元搜索引擎Dogpile ) Lycos (Carnegie Mellon University Center for Machine Translation Announces Lycos )是搜索引擎史上 又一个重要的进步。 Carnegie Mellon University的 Michael Mauldin 将 John Leavitt的 spider程序接入到其索引程序 中,创建了Lycos 。1994 年 7 月 20 日,数据量为54,000 的 Lycos 正式发布。除了相关性排

11、序外,Lycos 还提供了前缀 匹配和字符相近限制,Lycos 第一个在搜索结果中使用了网 页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数 据量: 1994 年 8 月 394,000 documents ;1995 年 1 月 1.5 million documents; 1996年 11月 over 60 million documents。(注: 1999 年 4 月,Lycos 停止自己的Spider , 改由 Fast 提供搜索引擎服务) Infoseek (Steve Kirsch Announces Free Demos Of the Infoseek Search Eng

12、ine)是另一个重要的搜索引擎,虽然 公司声称 1994 年 1 月已创立,但直到年底它的搜索引擎才 与公众见面。起初,Infoseek只是一个不起眼的搜索引擎, 它沿袭 Yahoo! 和 Lycos 的概念, 并没有什么独特的革新。但 是它的发展史和后来受到的众口称赞证明,起初是否第一个 登台并不总是很重要。Infoseek的友善用户界面、 大量附加 服务( such as UPS tracking, News, a directory, and the like) 使它声望日隆。而1995 年 12 月与 Netscape 的战略 性协议, 使它成为一个强势搜索引擎:当用户点击Netsca

13、pe 浏览器上的搜索按钮时,弹出Infoseek的搜索服务,而此 前由 Yahoo! 提供该服务。(注:Infoseek后来曾以相关性 闻名, 2001 年 2 月, Infoseek停止了自己的搜索引擎,开 始改用 Overture的搜索结果) 1995 年,一种新的搜索引擎形式出现了元搜索引擎 (A Meta Search Engine Roundup)。用户只需提交一次搜 索请求,由元搜索引擎负责转换处理后提交给多个预先选定 的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结 果,集中起来处理后再返回给用户。第一个元搜索引擎,是 Washington 大学硕士生 Eric Selber

14、g 和 Oren Etzioni 的 Metacrawler 。(注:元搜索引擎概念上好听,但搜索效果 始终不理想,所以没有哪个元搜索引擎有过强势地位。) DEC的 AltaVista(2001年夏季起部分网友需通过 p-roxy访问,无 p-roxy可用 qbseach 单选 altavista搜索, 只能显示第一页搜索结果) 是一个迟到者, 1995 年 12 月才登 场亮相( AltaVista Public Beta Press Release )。但是, 大量的创新功能使它迅速到达当时搜索引擎的顶峰。 Altavista最突出的优势是它的速度(搜索引擎9238:比较 搞笑,设计 al

15、tavista的目的,据说只是为了展示DEC Alpha 芯片的强大运算能力)。 而 Altavista的另一些新功能,则永远改变了搜索引擎 的定义。 AltaVista是第一个支持自然语言搜索的搜索引擎, AltaVista是第一个实现高级搜索语法的搜索引擎(如AND, OR, NOT等) 。用户可以用AltaVista搜索 Newsgroups(新 闻组)的内容并从互联网上获得文章,还可以搜索图片名称 中的文字、搜索Titles、搜索 Java applets 、搜索 ActiveX objects 。AltaVista也声称是第一个支持用户自己向网页索 引库提交或删除URL的搜索引擎,并

16、能在24 小时内上线。 AltaVista最有趣的新功能之一, 是搜索有链接指向某个URL 的所有网站。在面向用户的界面上,AltaVista也作了大量 革新。它在搜索框区域下放了“tips ”以帮助用户更好的表 达搜索式, 这些小 tip经常更新, 这样,在搜索过几次以后, 用户会看到很多他们可能从来不知道的的有趣功能。这系列 功能,逐渐被其它搜索引擎广泛采用。1997 年, AltaVista 发布了一个图形演示系统LiveTopics, 帮助用户从成千上万 的搜索结果中找到想要的。(2003 年 2 月 18 日,Altavista 被 Overture收购。) 然后到来的是Inktomi 。1995 年 9 月 26 日,加州伯克 利分校 CS助教 Eric Brewer、博士生 Paul Gauthier创立了 Inktomi (UC Berkeley Announces Inktomi), 1996 年 5 月 20 日,Inktomi公司成立,强大的HotBot 出现在世人面前。 声称每天能抓取索引1 千万页以上,所以有远超过

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号