(毕业设计论文)分布式搜索引擎查询成本结果缓存倒排链缓存论文

上传人:zhuma****mei1 文档编号:54412765 上传时间:2018-09-12 格式:DOC 页数:5 大小:41KB
返回 下载 相关 举报
(毕业设计论文)分布式搜索引擎查询成本结果缓存倒排链缓存论文_第1页
第1页 / 共5页
(毕业设计论文)分布式搜索引擎查询成本结果缓存倒排链缓存论文_第2页
第2页 / 共5页
(毕业设计论文)分布式搜索引擎查询成本结果缓存倒排链缓存论文_第3页
第3页 / 共5页
(毕业设计论文)分布式搜索引擎查询成本结果缓存倒排链缓存论文_第4页
第4页 / 共5页
(毕业设计论文)分布式搜索引擎查询成本结果缓存倒排链缓存论文_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《(毕业设计论文)分布式搜索引擎查询成本结果缓存倒排链缓存论文》由会员分享,可在线阅读,更多相关《(毕业设计论文)分布式搜索引擎查询成本结果缓存倒排链缓存论文(5页珍藏版)》请在金锄头文库上搜索。

1、w分布式搜索引擎缓存系统的设计与实现分布式搜索引擎缓存系统的设计与实现【摘要】 根据 CNNIC2011 年 1 月发布的第 27 次中国互联网发展状况统计报告,截至 2010 年 12 月,中国网民规模达到 4.57 亿,搜索引擎使用率达到 81.9%,成为网民第一大应用,.与此同时,中文网页总数已达 600 亿个,较 2009 年增长了 78.6%。互联网的飞速发展,给搜索引擎提出了新的难题。由于网络信息的爆炸性增长,大规模的Web 搜索引擎平均每秒需要处理上万次查询请求,每个查询的处理需要涉及到海量的索引数据,因此查询处理已经成为搜索引擎的主要的性能瓶颈。为了在不降低查询质量的前提下,提

2、高搜索引擎的响应速度,大规模的 Web 搜索引擎采用了各种优化技术,缓存技术便是其中之一。搜索引擎的缓存系统一般来说主要包含两个层次,第一个层次是结果缓存,它将那些频繁出现查询的检索结果存放到缓存当中,这样当该查询再次出现时,便可直接在缓存中命中,从而极大的提高了查询响应速度。另一层次是倒排链缓存,由于搜索引擎处理的倒排索引容量一般都很大,无法完全将其加载到内存,因此在检索的时候经常需要从磁盘读入索引文件。由于磁盘读写的速度比内存慢很多,导致检索的大部分时间都耗费在了磁盘读写上。倒排链缓存就是为了减少与磁盘 I/O. 更多还原【Abstract】 According to CNNIC2011

3、issued in January the 27th Chinas Internet development statistics report that by 2010 in December, this number of Chinese netizens scales wto 457 million,and search engines become the most popular Internet applications,meanwhile the number of Chinese web page scales to 60 billion, which has increase

4、d 78.6% since last year.The rapid development of Internet,has brought new challenges for search engines. Large-scale Web search engine need to handle tens of thousands of querie. 更多还原 【关键词】 分布式搜索引擎; 查询成本; 结果缓存; 倒排链缓存; 【Key words】 Distributed Search Engines; Query cost; Result Caching; List Caching;

5、【索购论文全文索购论文全文】138113721138113721 139938848139938848 即付即发即付即发目录摘要 5-6 Abstract 6 图目录 9-10 表目录 10-11 第一章 绪论 11-15 1.1 选题背景和研究意义 11-12 1.2 国内外研究和发展现状 12-13 1.2.1 查询日志分析 12 w1.2.2 搜索引擎缓存系统架构 12-13 1.3 课题研究内容 13-14 1.4 论文组织结构 14-15 第二章 分布式搜索引擎缓存系统概述 15-25 2.1 引言 15 2.2 倒排索引概述 15-17 2.3 分布式搜索引擎 17-18 2.4

6、搜索引擎日志分析 18-19 2.5 缓存策略 19-21 2.6 搜索引擎结果缓存 21-23 2.6.1 缓存一致性问题 22 2.6.2 缓存策略问题 22-23 2.7 搜索引擎倒排链缓存 23 2.8 搜索引擎倒排链交集缓存 23-24 2.9 小结 24-25 第三章 中文搜索引擎缓存策略的研究 25-35 3.1 引言 25 3.2 中文查询日志分析 25-28 3.2.1 实验目的及意义 25-26 3.2.2 日志分析方法 26-27 3.2.3 实验结果分析 27-28 3.3 基于缓存收益的倒排链缓存策略 28-30 w3.4 基于查询成本的结果缓存策略 30-33 3.

7、4.1 结果缓存收益分析 30 3.4.2 基于查询成本的结果缓存策略 30-32 3.4.3 性能测试 32-33 3.5 本章小结 33-35 第四章 基于文档的结果缓存 35-46 4.1 引言 35 4.2 基于页面的结果缓存 35-37 4.3 索引更新对于结果缓存的影响 37-38 4.4 基于文档的结果缓存算法 38-44 4.4.1 基于索引段生成时间的查询处理 38-41 4.4.2 基于文档的结果缓存更新模型 41-43 4.4.3 检索质量分析 43-44 4.5 实验 44-45 4.5.1 实验环境及实验数据 44 4.5.2 实验结果 44-45 4.6 本章小结

8、45-46 第五章 系统的设计与实现 46-58 5.1 引言 46 5.2 两级架构的缓存系统 46-47 5.3 系统整体框架 47-48 5.4 结果缓存模块的实现 48-51 w5.4.1 缓存策略的选择 48-50 5.4.2 系统处理流程 50-51 5.5 倒排链缓存模块的实现 51-52 5.5.1 倒排链缓存总体架构 51 5.5.2 系统处理流程 51-52 5.6 分布式结果缓存服务器的实现 52-57 5.6.1 一致性哈希 52-55 5.6.2 负载平衡问题 55-56 5.6.3 系统测试 56-57 5.7 本章小结 57-58 第六章 本文的总结和进一步的研究工作 58-60 6.1 本文总结 58 6.2 进一步的研究工作 58-60 参考文献

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号