走进搜索引擎 (1)

上传人:子 文档编号:52117797 上传时间:2018-08-18 格式:PPT 页数:18 大小:821.50KB
返回 下载 相关 举报
走进搜索引擎 (1)_第1页
第1页 / 共18页
走进搜索引擎 (1)_第2页
第2页 / 共18页
走进搜索引擎 (1)_第3页
第3页 / 共18页
走进搜索引擎 (1)_第4页
第4页 / 共18页
走进搜索引擎 (1)_第5页
第5页 / 共18页
点击查看更多>>
资源描述

《走进搜索引擎 (1)》由会员分享,可在线阅读,更多相关《走进搜索引擎 (1)(18页珍藏版)》请在金锄头文库上搜索。

1、章节: 1.搜索引擎基本背景,发展历程 2.宏观介绍搜索引擎,以及搜索引擎主要系统划分 3.搜索引擎之下载系统背景知识,设计原理,技巧以及网页库设计一.搜索引擎基本背景,发展历 程背景:万维网以非线性组织是人们在信息海洋中 彷徨,因此催生出搜索引擎 定义:在万维网上检索各种文件的计算机程序, 与其说search engine 为一个查询系统,不如 说是一个用于自定义的信息聚合系统 分类:目录是搜索引擎;全文搜索引擎;元搜索 引擎发展史:Archine-Wanderer-RBSE(FTP文件名查找文件) (获取URL) (索引HTML文件正文,引入关键字匹配的搜 索引擎)二.介绍搜索引擎,主要系

2、统划 分1.宏观介绍: 搜索引擎4大基本需求:快速,全面,准确,稳定可靠1)快速:信息爆炸增长,跟的上信息的脚步影响因素:索引库效率,分布查询能力,查询缓存命中率 2)全面:应用查询率recall 影响因素:网页索引库的大小,库的数目与recall成正比 3)准确:precision,得到的结果为正确的内容 4)查的稳:系统稳定运行,在任何情况下可惜牺牲检索质 量和检索速度来换取检索服务Recall=检索出相关的网页数/所有相关网页数 例子:“XML”,如果世界包含“XML”的网页数为M,而实际 检索出的M条中的N,则recall=N/MPrecision=检索出相关文档树/检索出文档总数 例

3、子:“XML”,如果实际检索出网页数N中,只有P个网页是 与“XML”有关,则precision=P/NA:与XML有关网页B:检索出的与XML有关网 页AnBRecall=|AnB|/|A|Precision=|AnB|/|B|系统划分前3类属于离线部分,需要长达几周时间才能计算完毕 最后1类属于在线部分,需要毫秒级的访问速度三.下载系统背景:搜索引擎的基础,搜索数据均来自下载系统 的工作爬虫(Wanderers): 爬虫 劳动者 网络资源劳动资料 万维网 劳动对象 因此,理解劳动对象才能理解劳动者先介绍万维网万维网具有蝴蝶结构SCC 56百万 nodesIN OU T 5)&7/(34/3

4、2)%8 If(Hashindex_hash&(1index_int) /判断槽位是否置位,查询某个比特位为1if(Hashindex_hash|(1index_int)) /槽位没有被置位通过Hash标志之后: 如果抓取的网页之前出现过,则跳出循环条件利用好DFS遍历种子站点A种子站点B种子站点CP路径3路径53路径133因此:限定搜索路径在一个范围之内,比如定 义该范围为万维网的直径长度,深度超过这个 度的话,遍历终止很明显的看的 出来,B与C 浪费时间2.抓取网页重要性重要性:链接欢迎度(IB),链接重要度(IL)平均链接深度(ID) 1.链接欢迎度(IB),由反向链接数目和质量决定1)反向链接越多,说明对该网页认可度越高,推断出其重 要性越高2)其次是质量,越多被重要性高的网页所指向,重要性越 高。这个是防止作弊网页,迫使用户进入其网页 2.链接重要度(IL),仅仅考虑字符串本身1)官网,”. com”,”. home”,较少斜杠 3.平均链接深度(ID),离种子站点越近,重要度越高定义网页重要性:I=*IB + *IL抓取新增的网页,时间的考虑?

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号