搜索引擎简介1

上传人:cn****1 文档编号:497898815 上传时间:2022-10-12 格式:DOCX 页数:7 大小:28.85KB
返回 下载 相关 举报
搜索引擎简介1_第1页
第1页 / 共7页
搜索引擎简介1_第2页
第2页 / 共7页
搜索引擎简介1_第3页
第3页 / 共7页
搜索引擎简介1_第4页
第4页 / 共7页
搜索引擎简介1_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《搜索引擎简介1》由会员分享,可在线阅读,更多相关《搜索引擎简介1(7页珍藏版)》请在金锄头文库上搜索。

1、一、搜索类型1.全文索引全文索引引擎是名副其实的搜索引擎,国外代表有Google,国内知名的百度搜索。它 们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询 条件相匹配的记录,按一定的排列顺序返回结果。根据搜索结果来源的不同,全文搜索引擎可分为两类:一类拥有自己的网页抓取、索引、 检索系统(Indexer),有独立的“蜘蛛”(Spider)程序、或爬虫(Crawler)、或“机器人”(Robot) 程序(这三种称法意义相同),能自建网页数据库,搜索结果直接从自身的数据库中调用, 上面提到的 Google 和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自

2、定 的格式排列搜索结果,如 Lycos 搜索引擎。2. 目录索引目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的 网站链 接列表而已 。用户完全可以 按照分类目录找 到所需要的信息 ,不依靠关键词 (Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo新浪分类目录 搜索。3. 元搜索引擎元搜索引擎(METASearch Engine)接受用户查询请求后,同时在多个搜索引擎上搜索, 并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索 引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直

3、接按来源排列搜索结果, 如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。“百谷虎”- baigoohoo由于某家新闻媒体的报道,最近声名大振,高举着“山寨”大旗,让国人开始了解什么是 山寨搜索引擎,名字极富创意。可惜由于搜索结果被并排挤在一起,似乎没有什么实际使用 价值。4. 其他非主流搜索引擎形式:垂直搜索引擎、集合式、门户、免费链接列表二、搜索原理1.抓取网页每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接, 连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理 论上,从一定范围的网页出发,就能

4、搜集到绝大多数的网页。2. 处理网页搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的 就是提取关键词,建立索引文件。其他还包括去除重复网页、分词(中文)、判断网页类型 分析超链接、计算网页的重要度/丰富度等。3. 提供检索服务用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用 户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。 全文搜索引擎原理:在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。 搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google 一 般是2

5、8天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索, 一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2 天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库, 以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的 网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更 多机会找到你并自动将你的网站收录。当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内 容相符的网站,便采

6、用特殊的算法通常根据网页中关键词的匹配程度,出现的位置/频 次,链接质量等计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这 些网页链接返回给用户。这种引擎它的特点是搜全率比较高。 区别目录搜索引擎:与全文搜索引擎相比,目录索引有许多不同之处。首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后, 目录编辑人员会亲自浏览你的网站,然后 根据一套自定的评判标准甚至编辑人员的主观印 象,决定是否接纳你的网站。目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息 时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索

7、引 擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录 查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在 也提供目录搜索,如 Google 就借用 Open Directory 目录提供分类查询。而象 Yahoo! 这些 老牌目录索引则通过与 Google 等搜索引擎合作扩大搜索范围(注)。在默认搜索模式下,一 些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另 外一些则默认的是网页搜索,如 Yahoo。这种引擎的特点是找的准确率比较高。三

8、、搜索引擎的发展史互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。1990年,加拿大麦吉尔大学(University of McGil 1)计算机学院的师生开发出Archie 当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源。Archie能 定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用 户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然 Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的: 自动搜集信息资源、建立索引、提供检索服务。所以,Ar

9、chie被公认为现代搜索引擎的鼻祖。 编辑本段搜索引擎的起源:由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开 发了一个 Gopher(Gopher FAQ)搜索工具 Veronica(Veronica FAQ)。Jughead 是后来另一个 Gopher 搜索工具。发 展( 1 )世界上第一个 Spider 程序,是 MIT Matthew Gray 的 World wide Web Wanderer 用于追 踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获 网址( URL)。发 展( 2

10、)Excite的历史可以上溯到1993年2月,6个Stanford University (斯坦福大学)大学生 的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1993年中,这已是 一个完全投资项目,他们还发布了一个供 webmasters 在自己网站上使用的搜索软件版本,后来被叫做 Excite for Web Servers。注:Excite后来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己 的搜索引擎,改用元搜索引擎 Dogpile发 展( 3 )1994 年 4 月,斯坦福大学的两名博士生,美籍华人杨致远和 David Filo 共同创办

11、了 Yahoo!。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为 Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。 Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。注:Yahoo以后陆续有Altavista、Inktomi、Google提供搜索引擎服务Yahoo!-几乎成为20世纪90年代的因特网的代名词。发 展( 4 )1995年,一种新的搜索引擎形式出现了 元搜索引擎(Meta Search Engine)。用户只 需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎, 并将从

12、各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元 搜索引擎 ,是 Washington 大学硕 士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引擎概念上非常好听,但搜索效果始终不理想,所以没有哪个元搜索引 擎有过强势地位。发 展( 5)智能检索的产生:它利用分词词典、同义词典,同音词典改善检索效果,进一步还可在 知识层面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典检索处理 形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。例:(1)查询“计算机”,与“电脑”相关的信息也能

13、检索出来;( 2)可以进一步缩小查询范围至“微机” 、 “服务器”或扩大查询至“信息技术”或查询相 关的“电子技术”、 “软件”、 “计算机应用”等范畴;(3)还包括歧义信息和检索处理,如“苹果”,究竟是指水果还是电脑品牌, “华人”与“中 华人民共和国”的区分,将通过歧义知识描述库、全文索引、用户检索上下文分析以及用户 相关性反馈等技术结合处理,高效、准确地反馈给用户最需要的信息。发 展( 7 )网格技术(great global grid):由于没有统一的信息组织标准对网络信息资源进行加工处 理,难以对无序的网络信息资源进行检索、交接和共享乃至深层次的开发利用,形成信息孤 岛。网格技术就是

14、要消除信息孤岛实现互联网上所有资源的全面连通。公司介绍1998年10月之前,Google只是斯坦福大学(Stanford University)的一个小项目BackRub。 1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了域名,1997 年底,在 Sergey Brin和 Scott Hassan、Alan Steremberg 的共同参与下,BachRub 开始提供 Demo0 1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年 9月27日认作自己的生日。Google以网页级别(Pagerank)为基础,判

15、断网页的重要性, 使得搜索结果的相关性大大增强。Google公司的奇客(Geek)文化氛围、不作恶(Dont be evil)的理念,为Google赢得了极高的口碑和品牌美誉。2006年4月,Google宣布其中文 名称“谷歌”,这是Google第一个在非英语国家起的名字。2010年3月23日,高级副总裁 大卫德拉蒙德公开发表声明,宣布将搜索服务由中国内地转至香港。2010年4月3日,名 称“谷歌”废弃使用,“谷歌”改回“Google中国”。Google在中国大事记1. 2000年9月12日,谷歌开发其主站.com的中文界面。2. 2005年7月,李开复加盟Google。并担任Google中国

16、区总裁。3. 2006年4月12日,Google全球CEO在北京宣布Google的中文名字为“谷 歌”,Google正式进入中国。4. 2009年9月4日前谷歌全球副总裁、大中华区总裁李开复 正式辞 职,Google公司未说明离职原因。5. 2010年初谷歌退出中国风波6. 2011年谷歌加大对中国市场的开发。2010年1月12日15时,谷歌高级副总裁和首席法律顾问大卫多姆德 (David Drummond)在谷歌官方博客上发文表示,谷歌集团考虑关闭“谷歌 中国”网站以及中国办事处。该博客宣称,我们已经决定,不愿意继续审查“谷歌中 国”搜索到的结 果。如果有可能的话,接下来的几周里,我们将和中国政府商议,在法律 允许范围内运行一个不必经过过滤的搜索引擎。如果不能达成协议,可能 意味着我们将 不得不关闭“谷歌中国”,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号