浅谈搜索引擎及发展

上传人:wm****3 文档编号:54126394 上传时间:2018-09-08 格式:PPT 页数:29 大小:1.20MB
返回 下载 相关 举报
浅谈搜索引擎及发展_第1页
第1页 / 共29页
浅谈搜索引擎及发展_第2页
第2页 / 共29页
浅谈搜索引擎及发展_第3页
第3页 / 共29页
浅谈搜索引擎及发展_第4页
第4页 / 共29页
浅谈搜索引擎及发展_第5页
第5页 / 共29页
点击查看更多>>
资源描述

《浅谈搜索引擎及发展》由会员分享,可在线阅读,更多相关《浅谈搜索引擎及发展(29页珍藏版)》请在金锄头文库上搜索。

1、浅谈搜索引擎及发展,搜索引擎,定义: 万维网环境中的信息检索系统(包括目录服务和关键字检索两种服务方式)。 根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。 分类: 全文索引 全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。 根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或

2、“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。 目录索引,虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关件词进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。 元搜索引擎接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索

3、引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo 垂直搜索引擎2006年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。 其他非主流搜索引擎形式1、集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引

4、擎中选择,如HotBot在2002年底推出的搜索引擎。 2、门户搜索引擎:AOLSearch、MSNSearch等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。, 工作原理 抓取网页每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。 处理网页搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分词(中文)

5、、判断网页类型、分析超链接、计算网页的重要度/丰富度等。 提供检索服务用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。, 搜索引擎的发展史互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。用户查询时,通过一层层的点击来查找自己想找的网站。也有人把这种基于目录的检索服务网站称为搜索引擎,但从严格意义上讲,它并不是搜索引擎。 1990年,加拿大麦吉尔大学计算机学院的师生开发出Archie。当时,万维网还没

6、有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。 搜索引擎的起源所有搜索引擎的祖先,是1990年由Montreal的McGill University三名学生发明的Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名

7、查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。 由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher搜索工具Veronica。Jughead是后来另一个Gopher搜索工具。, 搜索引擎的影响 搜索引擎给网吧行业带来的影响走进网吧,不难发现各个网吧内的电脑浏览器首页或工具条上都会有google或百度

8、的标志。百度甚至还推出了网吧联盟,可见搜索引擎们对网吧行业都格外的青睐。现在我们常用的搜索引擎无非就是百度和google两种。从百度方面来看,百度联盟可以算是目前唯一一个能够覆盖所有网吧并和几乎所有主流网吧软件缔结合作关系的媒体运营平台。而google方面也不甘示弱,谷歌已经注意到了网吧市场,网吧已经成为了谷歌的新型合作伙伴。网吧的首页和工具条上都会出现谷歌的标志,相应地会给谷歌带去流量。谷歌对网吧市场的关注,表明谷歌注意到网吧作为中国互联网市场的特色之一。由于我国PC拥有量远落后于美国等西方国家,网吧作为网民主要上网地点的比例逐年在上升,我国网民在网吧上网的比例偏高。据CNNIC 第20次中

9、国互联网络发展状况统计报告显示,超过1/3(37.2%)的网民表示经常去网吧上网,比2006年12月的32.3%高了5个百分点,第一次超过网民在工作单位上网的比例而成为第二大上网场所。 搜索引擎对网站的影响一个网站的命脉就是流量,而网站的流量可以分为两类。一类是自然流量,一类就是通过搜索引擎而来的流量。如果搜索引擎能够更多更有效的抓取网站内容,那么对于网站的好处是不言而喻的。所以,SEO也应运而生了。 在百度和谷歌两大搜索引擎的工作中,百度的工作周期相对来说短一些,百度大约在10天左右重新访问网站一次,Google大约在15天左右重新访问一次网站。由于一天之内不能游历全球所有的网站,如果推广网

10、站时,能到更多的网站上提交相应的网站信息,也是加快蜘蛛收录网站内容的重要环节。, 搜索引擎的技术发展趋势搜索引擎经过几年的发展和摸索,越来越贴近人们的需求,搜索引擎的技术也得到了很大的发展。未来搜索引擎最新技术发展包括以下几个方面: 提高搜索引擎对用户检索提问的理解 为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言,为了克服关键词检索和目录查询的缺点,现在已经出现了自然语言智能答询。用户可以输入简单的疑问句,比如“how can kill virus of computer?”。搜索引擎在对提问进行结构和内容的分析之后,或直接给出提问的答案,或引导用户从几个可选择的问题中进行

11、再选择。自然语言的优势在于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有效。就以上面的例子来讲,如果用关键词查询,多半人会用“virus”这个词来检索,结果中必然会包括各类病毒的介绍、病毒是怎样产生的等等许多无效信息,而用“how can kill virus of computer?”,搜索引擎会将怎样杀病毒的信息提供给用户,提高了检索效率。 对检索结果进行处理 1、基于链接评价的搜索引擎 基于链接评价的搜索引擎的优秀代表是Google,它独创的“链接评价体系”是基于这样一种认识,一个网页的重要性取决于它被其它网页链接的数量,特别是一些已经被认定是“重要”的网页的链接数量。这种

12、评价体制与科技引文索引的思路非常相似,但是由于互联网是在一个商业化的环境中发展起来的,一个网站的被链接数量还与它的商业推广有着密切的联系,因此这种评价体制在某种程度上缺乏客观性。 2、基于访问大众性的搜索引擎 基于访问大众性的搜索引擎的代表是direct hit,它的基本理念是多数人选择访问的网站就是最重要的网站。根据以前成千上万的网络用户在检索结果中实际所挑选并访问的网站和他们在这些网站上花费的时间来统计确定有关网站的重要性排名,并以此来确定哪些网站最符合用户的检索要求。因此具有典型的趋众性特点。这种评价体制与基于链接评价的搜索引擎有着同样的缺点。 3、去掉检索结果中附加的多余信息 有调查指

13、出,过多的附加信息加重了用户的信息负担,为了去掉这些过多的附加信息,可以采用用户定制、内容过滤等检索技术。 确定搜索引擎信息搜集范围 1、垂直主题搜索引擎 网上的信息浩如烟海,网络资源以十倍速的增长,一个搜索引擎很难收集全所有主题的网络信息,即使信息主题收集得比较全面,由于主题范围太宽,很难将各主题都做得精确而又专业,使得检索结果垃圾太多。这样以来,垂直主题的搜索引擎以其高度的目标化和专业化在各类搜索引擎中占据了一系席之地,比如象股票、天气、新闻等类的搜索引擎,具有很高的针对性,用户对查询结果的满意度较高。作者认为,垂直主题有着极大的发展空间。,2、非www信息的搜索 3、多媒体搜索引擎 多媒

14、体检索主要包括声音、图像、视频的检索。关于图片搜索引擎的原理,浅谈图片搜索引擎的实现中提出了具有跨时代意义设计思路。 提供更优化的检索结果 1、纯净搜索引擎 这类搜索引擎没有自己的信息采集系统,利用别人现有的索引数据库,主要关注检索的理念、技术和机制等。 2、元搜索引擎 现在出现了许多的搜索引擎,其收集信息的范围、搜索机制、算法等都不同,用户不得不去学习多个搜索引擎的用法。每个搜索引擎平均只能涉及到整个www资源的30-50%(search engine watch数据),这样导致同一个搜索请求在不同搜索引擎中获得的查询结果的重复率不足34%,而每一个搜索引擎的查准率不到45%。 元搜索引擎(

15、metasearch engining)是将用户提交的检索请求到多个独立的搜索引擎上去搜索,并将检索结果集中统一处理,以统一的格式提供给用户,因此有搜索引擎之上的搜索引擎之称。它的主要精力放在提高搜索速度、智能化处理搜索结果、个性搜索功能的设置和用户检索界面的友好性上,查全率和查准率都比较高。目前比较成功的元搜索引擎有metacrawler、dopile、ixquick、搜客等。,3、集成搜索引擎 集成搜索引擎( AllinOne Search Page),亦称为“多引擎同步检索系统 ”(如百度)是在一个WWW页面上链接若干种独立的搜索引擎,检索时需点选或指定搜索引擎,一次检索输入,多引擎同时

16、搜索,用起来相当方便。集成搜索引擎无自建数据库,不需研发支持技术,当然也不能控制和优化检索结果。但集成搜索引擎制作与维护技术简单,可随时对所链接的搜索引擎进行增删调整和及时更新,尤其大规模专业(如FLASH、MP3等)搜索引擎集成链接,深受特定用户群欢迎。 4、垂直搜索引擎 垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。, 索引擎的最后一步10年前我

17、们要查阅资料,请教问题,更多想到的是请教专家,图书管查阅等传统方式。常常为了一个简单的问题而到处寻师,在图书馆翻着类似我的电脑桌抽屉里的检索卡片,苦苦寻找。曾几何时,互联网的普及与兴起,搜索引擎的出现,逐渐改变着我们的生活习惯和思维方式。很多问题“baidu一下,你就知道。” 就像这里用的“曾几何时”这一词,中文不好的我只有模糊的理解,还以为有“曾经”的意思,想用为第一句。于是百度知道搜索了一下,出自宋“王安石祭盛侍郎文:“补官扬州,公得谢归。曾几何时,讣者来门。” 才知是才过了不久的意思。 搜索引擎(search engine)是一个系统,能从大量信息中找到所需的信息,提供给用户。互联网出现到现今,信息量可以说成密指数的增长,大量信息就像Google的原本含义一样“1的后面跟着100个0”,这个数比宇宙所有的基本粒子的数量总和还要大。在这浩如烟海的信息中怎么才能找到自己需要的信息呢?搜索引擎就像一只神奇的手,从杂乱的信息中抽出一条清晰的检索路径。 事物的发展往往遵循着合久必分,分久必合的规律,每一次的合与分都是代表着更高级更先进。同样搜索引擎从最初的Archie可以用文件名查找整个互联网中FTP文件的系统,发展到Yahoo早期一种手工录入的分行业的目录检索。随着搜索技术的发展,元标记搜索、全文搜索重新又把整个互连网的信息整合起来提供给用户。,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 高中教育 > 物理资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号