第八章索引数据库与搜索引擎

上传人:鲁** 文档编号:577749889 上传时间:2024-08-22 格式:PPT 页数:24 大小:2.83MB
返回 下载 相关 举报
第八章索引数据库与搜索引擎_第1页
第1页 / 共24页
第八章索引数据库与搜索引擎_第2页
第2页 / 共24页
第八章索引数据库与搜索引擎_第3页
第3页 / 共24页
第八章索引数据库与搜索引擎_第4页
第4页 / 共24页
第八章索引数据库与搜索引擎_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《第八章索引数据库与搜索引擎》由会员分享,可在线阅读,更多相关《第八章索引数据库与搜索引擎(24页珍藏版)》请在金锄头文库上搜索。

1、8 搜索引擎8.1 网络搜索引擎的诞生与发展网络搜索引擎的诞生与发展 1.搜索引擎诞生的原因:搜索引擎诞生的原因: 2.搜索引擎的发展过程搜索引擎的发展过程:第一个成功的搜索引擎是第一个成功的搜索引擎是Web Crawler,它由华它由华盛顿大学于盛顿大学于1994年年4月推出。随之而来的是一大月推出。随之而来的是一大批网络搜索引擎如雨后春笋般地涌现:批网络搜索引擎如雨后春笋般地涌现:Lycos、Infoseek、 Open Text、Alta Vista、Excite相继相继诞生为网络信息检索立下汗马功劳。目前,国内诞生为网络信息检索立下汗马功劳。目前,国内外著名的搜索引擎很多:外著名的搜索

2、引擎很多:Yahoo, Google, Fast Search, Northern Light和和Sohu,百度,天网,百度,天网,指南针等都是众多搜索引擎的代表。指南针等都是众多搜索引擎的代表。 搜索引擎的分类从搜索层次上分为两类: 常规搜索引擎和元搜索引擎从信息媒介分: 图像搜索引擎、视频搜索引擎、网页搜索引擎从信息源的广度: 综合办搜索引擎、专业搜索引擎网页制作方式和处理方式: WEB目录式、全文数据库式、WEB结构分析型搜索引擎的发展趋势: 个性化 智能化 整合化 垂直化 移动化 开放式 8.2 搜索引擎的系统结构搜索引擎的系统结构 建立搜索引擎是将无序的网络信息资源进行有序化组织的有

3、效方法。一个搜索引擎一般由搜索器(Spider), 索引器(Indexer),索引数据库(Index Database ),检索器(Searcher),和用户接口(User Interface)等五个部分组成。 8.2.1 搜索器 是从因特网上采集信息的程序,也称之网络机器人。功能是在网上漫游,不断从网上采集并及时传回相关信息。搜索器搜集信息的主要采集策略:网页选取策略:1、从网址集开始,逐步扩大到整个互联网。2、从国家、或地区、或域名划分开始展开3、从网站类别划分,对一类网络穷尽搜索重复爬取策略:制定搜的时间,不用时时搜。友好性策略:设定搜的页面范围,不用全面搜。并行爬取策略:协调不同的搜索

4、程序。由于互联网上无数的网站页面,搜索引擎蜘蛛无法将所有的页面都下载保存到服务器。因此,许多搜索引擎的网络蜘 蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接广泛度(及外部链接的数量与质量)。在抓取网页的时候,搜索引擎蜘蛛一般有两种策略:广度优先和深度优先 广度优先是指搜索引擎蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中 的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让搜索引擎蜘蛛并行处理,提高其抓取速度。深度优先是指搜索引擎蜘蛛会从 起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链

5、接。这个方法有个优点是搜索引擎蜘蛛在设计的时候比较容易。广度优先和深度优先由于不可能抓取所有的网页,有些搜索引擎蜘蛛对一些不太重要的网站,设置了访问的层数。例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1 层,G、H属于第2层,I属于第3层。如果搜索引擎蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索 到,另外一部分不能被搜索到。 对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。 权限:在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。网站可以通过协议让搜索引擎蜘

6、蛛不去抓取,但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者查看,这样就需要给搜索引擎蜘蛛提供相应的 用户名和密码。搜索引擎蜘蛛可以通过所给的权限对这些网页进行抓取。搜索器信息处理流程: 将搜索的各类信息的文档格式过滤,变成纯文本文件传回,然后交索引器抽取相应的信息建立索引数据库。 8.2.2 索引器索引器从搜索器返回的纯文本信息文件中抽取索引项,生成倒排工作文件,进而逐步建立索引数据库。文档的概念是指数据库内容的组织形式。一般地说,一个数据库至少包括一个顺排文档和一个倒排文档。顺排文档是将数据库的全部记录按照记录号的大小排列而成的文献集合,它构成了数据

7、库的主体内容。在倒排文档中,记录的特征标识作为排列依据,其后列出含有此标识的记录号,使用倒排文档可以大大提高检索的效率。8.2.3 索引数据库索引数据库是搜索引擎的核心,它既是索引器提供的产品,又是检索器进行工作的基础。包括四类文件:倒排地址表、倒排索引、其他索引、纯文本。8.2.4 检索器是针对具体搜索引擎所配置的索引数据库而研制的专用检索工具包。检索器包括能执行检索策略的程序。即布尔逻辑检索、截词检索等等。(327页)算法:HITSPAGERANK8.2.5 用户接口用户接口的作用是接受用户的检索需求的输入,并进行语法检查,使其规范。鲸鱼尾巴图片_海洋生物_高清图片下载_三联素材 首页网页

8、素材模板高清图字体下载矢量图psd素材图标3D模型壁纸ppt模板酷站教程 特效 flash素材 作品欣赏知识阅读 /*头部960*60,创建于2010-9-10*/ var cpro_id = u195612;   您现在的位置:首页  高清图  动物  海洋生物 鲸鱼尾巴图片 鲸鱼尾巴图片 预览图及简介 .鲸鱼尾巴.图片 海洋运物 海底世界摄影素材 海洋生物高清图片下载 2950*2094像素   标签: document.write( ); 上一篇:虎鲸 下一篇:鲸鱼尾巴详细信息 站内收藏: 点这里收

9、藏文件大小: 1.04MB 更新时间: 2009-07-27 文件格式: jpg 解压密码:下载等级: 免费下载错误报告:点这里报告进入下载地址:下载地址1  下载地址2  下载地址3 相关素材« 返回顶部 « 返回总首页 鲸鱼尾巴 鲸鱼尾巴 鲸鱼尾巴 鲸鱼尾巴 鲸鱼尾巴 鲸鱼尾巴 鲸鱼尾巴 鲸鱼尾巴 鲸鱼尾巴 鲸鱼尾巴 高清图分类 风景 建筑 植物 动物 美食 生活百科 现代科技 交通 人物 体育运动 人文艺术 传统 底纹背景 设计 平面广告 工业商业 节日 动物 其它动物 猫狗 家禽家畜 野生动物 海洋生物 鸟类 昆虫 热门排

10、行 海洋风光美丽珊瑚海洋生物两只背靠背的企鹅深海鱼群珊瑚高清海珊瑚素材扇贝 珍珠 沙滩高清珊瑚海底世界高清海底世界大海龟海豚金鱼素材海龟 鱼群 /*250*250,创建于2011-1-2*/ var cpro_id = u338132; /*960*60,创建于2010-8-24*/ var cpro_id = u165424; 版权所有 2004-2011 三联素材网 最佳分辨率 1024768 Copyright All rights reserved. var _bdhmProtocol = (https: = document.location.protocol) ? https:/

11、 : http:/);document.write(unescape(%3Cscript src= + _bdhmProtocol + type=text/javascript%3E%3C/script%3E); 8.3 搜索引擎的使用方法8.3.1 布尔逻辑检索8.3.2 截词检索8.4 搜索引擎的实例搜索引擎的实例 8.4.1 Google 1111Google既是公司名既是公司名, 又是搜索引擎又是搜索引擎()的名称。的名称。Google 由英文由英文单词单词“googol”变化而来。它表示变化而来。它表示 1 后边带有后边带有 100 个零的数字。个零的数字。Google 使用这个词

12、代表公司使用这个词代表公司想征服网上无穷无尽信息资源的雄心壮志。想征服网上无穷无尽信息资源的雄心壮志。Google公司是一家私人控股公司公司是一家私人控股公司,创建于创建于1998年。年。Google 不仅为广大因特网用户提供搜索引擎服不仅为广大因特网用户提供搜索引擎服务。而且还为信息内容供应商提供联合品牌的网务。而且还为信息内容供应商提供联合品牌的网络搜索解决方案。络搜索解决方案。 8.4.2 百度百度 1111百度(百度()搜索引擎是搜索引擎是全球最大的中文搜索引擎。它是百度公司全球最大的中文搜索引擎。它是百度公司的产品。百度公司的产品。百度公司1999年底创建于美国硅年底创建于美国硅谷,

13、由李彦宏先生及徐勇先生创办。谷,由李彦宏先生及徐勇先生创办。“百百度度”二字源自辛弃疾的青玉案中的二字源自辛弃疾的青玉案中的“众里寻她千百度众里寻她千百度”名句,象征着百度对中名句,象征着百度对中文信息检索技术执著的追求。文信息检索技术执著的追求。2000年,百年,百度回国发展。百度自进入中国互联网及软度回国发展。百度自进入中国互联网及软件市场以来,就一直依靠自身实力为广大件市场以来,就一直依靠自身实力为广大网民提供最优秀的搜索引擎,为主要中文网民提供最优秀的搜索引擎,为主要中文门户提供最先进的搜索引擎技术服务。从门户提供最先进的搜索引擎技术服务。从此掀开了中文搜索引擎的新篇章。此掀开了中文搜索引擎的新篇章。8.5 元搜索引擎元搜索引擎在众多的搜索引擎中,如果逐个使用它来提供检索结果,显然速度慢,费时费力。能否同时使用多个搜索引擎呢?答案是肯定的。因而,元搜索引擎就适时诞生了。所谓元搜索引擎(meta-search engines)是指能够同时检索多个搜索引擎并将结果综合的搜索引擎。元搜索引擎已有不少,我们可以从网上找到一批元搜索网站:如,DOGPILE、metacrawler等。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号