搜索引擎工作原理

上传人:kms****20 文档编号:40641397 上传时间:2018-05-26 格式:DOC 页数:3 大小:26.50KB
返回 下载 相关 举报
搜索引擎工作原理_第1页
第1页 / 共3页
搜索引擎工作原理_第2页
第2页 / 共3页
搜索引擎工作原理_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《搜索引擎工作原理》由会员分享,可在线阅读,更多相关《搜索引擎工作原理(3页珍藏版)》请在金锄头文库上搜索。

1、搜索引擎工作原理.txt15 成熟的麦子低垂着头,那是在教我们谦逊;一群蚂蚁能抬走大骨 头,那是在教我们团结;温柔的水滴穿岩石,那是在教我们坚韧;蜜蜂在花丛中忙碌,那是 在教我们勤劳。搜索引擎工作原理 一、搜索引擎的分类 获得网站网页资料,能够建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。按 照工作原理的不同,可以把它们分为两个基本类别:全文搜索引擎(FullText Search Engine)和分类目录 Directory) 。 全文搜索引擎的数据库是依靠一个叫“网络机器人(Spider)“或叫“网络蜘蛛(crawlers)“ 的软件,通过网络上的各种链接自动获取大量网页信息内容

2、,并按以定的规则分析整理形成 的。Google、百度都是比较典型的全文搜索引擎系统。 分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如雅虎中国以及国内的搜 狐、新浪、网易分类目录。另外,在网上的一些导航站点,也可以归属为原始的分类目录, 比如“网址之家“。 全文搜索引擎和分类目录在使用上各有长短。全文搜索引擎因为依靠软件进行,所以数据库 的容量非常庞大,但是,它的查询结果往往不够准确;分类目录依靠人工收集和整理网站, 能够提供更为准确的查询结果,但收集的内容却非常有限。为了取长补短,现在的很多搜索 引擎,都同时提供这两类查询,一般对全文搜索引擎的查询称为搜索“所有网站“或“全部网

3、站“,比如 Google 的全文搜索;把对分类目录的查询称为搜索“分类目录“或搜索“分类网站 “,比如新浪搜索和雅虎中国搜索。 在网上,对这两类搜索引擎进行整合,还产生了其它的搜索服务,在这里,我们权且也把它 们称作搜索引擎,主要有这两类: 元搜索引擎(META Search Engine)。这类搜索引擎一般都没有自己网络机器人及数据库, 它们的搜索结果是通过调用、控制和优化其它多个独立搜索引擎的搜索结果并以统一的格式 在同一界面集中显示。元搜索引擎虽没有“网络机器人“或“网络蜘蛛“,也无独立的索引数据 库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索 技术。比

4、如“metaFisher 元搜索引擎“ ,它就调用和整合了 Google、Yahoo、AlltheWeb、百 度和 OpenFind 等多家搜索引擎的数据。 集成搜索引擎(AllinOne Search Page) 。集成搜索引擎是通过网络技术,在一个网 页上链接很多个独立搜索引擎,查询时,点选或指定搜索引擎,一次输入,多个搜索引擎同 时查询,搜索结果由各搜索引擎分别以不同页面显示,比如“网际瑞士军刀“。 二、搜索引擎的工作原理 全文搜索引擎的“网络机器人“或“网络蜘蛛“是一种网络上的软件,它遍历 Web 空间,能够扫 描一定 IP 地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,

5、从一个网站 到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓取过的网页。网络机 器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。我们平时看到的全文搜索引擎,实际上只是 一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中 找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引 擎,网页索引数据库不同,排名规则也不尽相同,所以,当我们以同一关键词用不同的搜索 引擎查询时,搜索结果也就不尽相同。 和全文搜索引擎一样,分类目录的整个工作过程也同样分为收集信息、

6、分析信息和查询信息 三部分,只不过分类目录的收集、分析信息两部分主要依靠人工完成。分类目录一般都有专 门的编辑人员,负责收集网站的信息。随着收录站点的增多,现在一般都是由站点管理者递 交自己的网站信息给分类目录,然后由分类目录的编辑人员审核递交的网站,以决定是否收 录该站点。如果该站点审核通过,分类目录的编辑人员还需要分析该站点的内容,并将该站 点放在相应的类别和目录中。所有这些收录的站点同样被存放在一个“索引数据库“中。用户 在查询信息时,可以选择按照关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返 回的结果跟全文搜索引擎一样,也是根据信息关联程度排列网站。需要注意的是,分类目录 的关

7、键词查询只能在网站的名称、网址、简介等内容中进行,它的查询结果也只是被收录网 站首页的 URL 地址,而不是具体的页面。分类目录就像一个电话号码薄一样,按照各个网站 的性质,把其网址分门别类排在一起,大类下面套着小类,一直到各个网站的详细地址,一 般还会提供各个网站的内容简介,用户不使用关键词也可进行查询,只要找到相关目录,就 完全可以找到相关的网站(注意:是相关的网站,而不是这个网站上某个网页的内容,某一 目录中网站的排名一般是按照标题字母的先后顺序或者收录的时间顺序决定的) 。 搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。 真正意义上的搜索引擎,通常指的是收集了

8、因特网上几千万到几十亿个网页并对网页中的每 一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的 时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的 算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。 现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有 指向该网页的链接的 URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网 页 A 中并没有某个词比如“恶魔撒旦“,但如果有别的网页 B 用链接“恶魔撒旦“指向这个网页 A,那么用户搜索“恶魔撒旦“时也能找到网页 A。而且

9、,如果有越多网页(C、D、E、F.) 用名为“恶魔撒旦“的链接指向这个网页 A,或者给出这个链接的源网页 (B、C、D、E、F.)越优秀,那么网页 A 在用户搜索“恶魔撒旦“时也会被认为更相关, 排序也会越靠前。 搜索引擎的原理,可以看做三步:从互联网上抓取网页建立索引数据库在索引数据库中 搜索排序。 从互联网上抓取网页 利用能够从互联网上自动收集网页的 Spider 系统程序,自动访问互联网,并沿着任何网页 中的所有 URL 爬到其它网页,重复这过程,并把爬过的所有网页收集回来。 建立索引数据库 由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在 URL、 编码类型、

10、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系 等) ,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中 每一个关键词的相关度(或重要性) ,然后用这些相关信息建立网页索引数据库。 在索引数据库中搜索排序 当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相 关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数 值排序,相关度越高,排名越靠前。 最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。 搜索引擎的 Spider 一般要定期重新访问所有网页(各搜索引擎

11、的周期不同,可能是几天、 几周或几月,也可能对不同重要性的网页有不同的更新频率) ,更新网页索引数据库,以反 映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的 变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。 互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算 法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达 到几千 G 甚至几万 G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占 到互联网上普通网页的不到 30%,不同搜索引擎之间的网页数据重叠率一般在 70%以下。我 们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更 大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。 你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的内容。你也应该有这 个概念:如果搜索引擎的网页索引数据库里应该有而你没有搜出来,那是你的能力问题,学 习搜索技巧可以大幅度提高你的搜索能力。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号