走进搜索引擎 (1)－金锄头文库

资源描述

《走进搜索引擎 (1)》由会员分享，可在线阅读，更多相关《走进搜索引擎 (1)（18页珍藏版）》请在金锄头文库上搜索。

1、章节： 1.搜索引擎基本背景，发展历程 2.宏观介绍搜索引擎，以及搜索引擎主要系统划分 3.搜索引擎之下载系统背景知识，设计原理，技巧以及网页库设计一.搜索引擎基本背景，发展历程背景：万维网以非线性组织是人们在信息海洋中彷徨，因此催生出搜索引擎定义：在万维网上检索各种文件的计算机程序，与其说search engine 为一个查询系统，不如说是一个用于自定义的信息聚合系统分类：目录是搜索引擎；全文搜索引擎；元搜索引擎发展史：Archine-Wanderer-RBSE(FTP文件名查找文件) （获取URL）（索引HTML文件正文，引入关键字匹配的搜索引擎）二.介绍搜索引擎，主要系

2、统划分1.宏观介绍：搜索引擎4大基本需求：快速，全面，准确，稳定可靠1）快速：信息爆炸增长，跟的上信息的脚步影响因素：索引库效率，分布查询能力，查询缓存命中率 2）全面：应用查询率recall 影响因素：网页索引库的大小，库的数目与recall成正比 3）准确：precision，得到的结果为正确的内容 4）查的稳：系统稳定运行，在任何情况下可惜牺牲检索质量和检索速度来换取检索服务Recall=检索出相关的网页数/所有相关网页数例子：“XML”，如果世界包含“XML”的网页数为M，而实际检索出的M条中的N，则recall=N/MPrecision=检索出相关文档树/检索出文档总数例

3、子：“XML”，如果实际检索出网页数N中，只有P个网页是与“XML”有关，则precision=P/NA:与XML有关网页B:检索出的与XML有关网页AnBRecall=|AnB|/|A|Precision=|AnB|/|B|系统划分前3类属于离线部分，需要长达几周时间才能计算完毕最后1类属于在线部分，需要毫秒级的访问速度三.下载系统背景：搜索引擎的基础，搜索数据均来自下载系统的工作爬虫（Wanderers）：爬虫劳动者网络资源劳动资料万维网劳动对象因此，理解劳动对象才能理解劳动者先介绍万维网万维网具有蝴蝶结构SCC 56百万 nodesIN OU T 5)&7/(34/3

4、2)%8 If(Hashindex_hash&(1index_int) /判断槽位是否置位，查询某个比特位为1if（Hashindex_hash|(1index_int)） /槽位没有被置位通过Hash标志之后：如果抓取的网页之前出现过，则跳出循环条件利用好DFS遍历种子站点A种子站点B种子站点CP路径3路径53路径133因此：限定搜索路径在一个范围之内，比如定义该范围为万维网的直径长度，深度超过这个度的话，遍历终止很明显的看的出来，B与C 浪费时间2.抓取网页重要性重要性：链接欢迎度（IB），链接重要度（IL）平均链接深度（ID） 1.链接欢迎度（IB），由反向链接数目和质量决定1)反向链接越多，说明对该网页认可度越高，推断出其重要性越高2)其次是质量，越多被重要性高的网页所指向，重要性越高。这个是防止作弊网页，迫使用户进入其网页 2.链接重要度（IL），仅仅考虑字符串本身1)官网，”. com”，”. home”，较少斜杠 3.平均链接深度（ID），离种子站点越近，重要度越高定义网页重要性：I=*IB + *IL抓取新增的网页，时间的考虑？

展开阅读全文

走进搜索引擎 (1)

最新文档