开源搜索引擎技术Lucene探索与开发---毕业论文

上传人:wo7****35 文档编号:55274146 上传时间:2018-09-26 格式:DOC 页数:47 大小:1.47MB
返回 下载 相关 举报
开源搜索引擎技术Lucene探索与开发---毕业论文_第1页
第1页 / 共47页
开源搜索引擎技术Lucene探索与开发---毕业论文_第2页
第2页 / 共47页
开源搜索引擎技术Lucene探索与开发---毕业论文_第3页
第3页 / 共47页
开源搜索引擎技术Lucene探索与开发---毕业论文_第4页
第4页 / 共47页
开源搜索引擎技术Lucene探索与开发---毕业论文_第5页
第5页 / 共47页
亲,该文档总共47页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《开源搜索引擎技术Lucene探索与开发---毕业论文》由会员分享,可在线阅读,更多相关《开源搜索引擎技术Lucene探索与开发---毕业论文(47页珍藏版)》请在金锄头文库上搜索。

1、本本 科科 毕毕 业业 论论 文文 开源搜索引擎技术开源搜索引擎技术 LuceneLucene 探索与开发探索与开发 The Exploration and development of open source search engine technology of Lucene 姓 名: 学 号: 学 院:软件学院 系:软件工程 专 业:软件工程 年 级: 指导教师: 年年 月月 I 摘摘 要要 在互联网蓬勃发展的今天,互联网上的信息更是浩如烟海。人们在享受互 联网带来的便利的同时,却面临着一个如何在如此海量的内容中准确、快捷地 找到自己所需要的信息的问题,由此互联网搜索引擎应运而生。 本文

2、旨在探索研究网络流行的开源搜索引擎 Lucene 的技术内涵,并基于此 使我们丢弃对于搜索引擎技术相对肤浅、苍白的理解,并建立起有关于搜索引 擎的全新的、正确的认识。 本文首先详细介绍了基于英特网的搜索引擎的系统结构。然后从应用的角 度出发,较为详尽地介绍了 Lucene 的技术精髓及搜索引擎组建关键步骤,并以 一个小型的搜索引擎项目为例,由浅入深地为我们推开了探索与发现 Lucene 搜 索引擎技术的大门。 在本项目中,我选取了 Lucene 全文检索的 Internet 网页内容检索和本机 Word 文档以及 pdf 文档内容检索的两个具有代表性的应用场景,并介绍且实现 了某些高级搜索的应

3、用。 同时,本文还挑选了 Heritrix 网络机器人、IKAnalyzer 中文分词等与搜索 引擎密切相关的技术进行了详细的说明,使我们对于搜索引擎拥有了全方位的 了解 关键词:关键词:搜索引擎;Lucene;索引;网络蜘蛛;中文分词 II Abstract The contents on the Web are increasing exponentially as the rapid development of the Internet. A problem how to obtain the useful information from vast contents quickly

4、and accurately is facing us while people are enjoying the convenience of the Internet. The solver of this problem is Web Search Engine. This paper is intended to explorer and research the inner technique of Open Source Search Engine - Lucene, which is popular on the Internet, and then, let us abando

5、n the weakness and pale knowledge of Web Search Engine, and tell us what should be true. In here, it will introduce the main system framework of Search Engine based on Internet at first . And then, we will detailedly explain the working process in kernel of Lucene and the important steps of how to b

6、uild a successful Web Search Engine with a applied angle of view. It open the door of explorering and researching Lucene for us going from the easy to the difficult and complicated by using a small Search Engine project as a example., in addition. At the same time, thie paper help us illustrate the

7、Hertrix Spider and IKAnalyzer which is working for dividing the Chinese sentence, such technology are close to the Web Search Engine. It let us have a broad overall view or perspective on Search Engine. Key words: Search Engine; Lucene; Index; Chinese parser. III 目目 录录 第一章第一章 概述概述1 1.1引言引言 1 1.2什么是搜

8、索引擎及全文检索什么是搜索引擎及全文检索 1 1.3搜索引擎的结构搜索引擎的结构 2 1.4搜索引擎的三个基本原理搜索引擎的三个基本原理 3 1.5搜索引擎的主要指标及分析搜索引擎的主要指标及分析 4 1.6中文搜索引擎的发展趋势及现状中文搜索引擎的发展趋势及现状 4 第二章第二章 LUCENELUCENE 及项目相关技术分析及项目相关技术分析.6 2.12.1系统概述系统概述 6 2.22.2L LUCENEUCENE索引策略索引策略7 2.2.1索引建立过程分析 .7 2.2.2Lucene 索引结构.9 2.2.3Lucene 索引建立12 2.2.4索引优化 13 2.32.3搜索器实

9、现及详解搜索器实现及详解 14 2.3.1查询封装 Query 类 15 2.3.2多个搜索器跨索引检索 15 2.42.4L LUCENEUCENE结果排序结果排序16 2.52.5L LUCENEUCENE 的过滤器的过滤器.16 2.62.6中文分词中文分词 17 2.6.1中文切词存在的问题及主要的分词方法 17 2.6.2IKAnalyzer 18 2.72.7网络蜘蛛网络蜘蛛(S(SPIDERPIDER) ) 19 2.7.1什么是网络蜘蛛 19 2.7.2Spider 工作原理19 2.7.3Heritrix 网络蜘蛛 .20 IV 第三章第三章功能分析与设计功能分析与设计23

10、3.13.1需求分析需求分析 23 3.23.2架构设计架构设计 24 第四章第四章搜索引擎的实现搜索引擎的实现26 4.1系统概要设计系统概要设计 26 4.2系统详细设计及实现系统详细设计及实现 27 4.2.1索引系统索引系统 27 4.2.2用户接口系统用户接口系统 31 4.3成果展示成果展示 33 第五章第五章 总总结结36 5.1论文总结论文总结 36 5.2工作总结与体会工作总结与体会 36 参考文献参考文献38 致谢致谢39 V Content Chapter 1 Preface.1 1.1 Introduction.1 1.2 What is search engine a

11、nd global search1 1.3 The structure of search engine.2 1.4 Three principles of search engine3 1.5 The analysis and evaluation indexs of search engine 4 1.6 The now situation and the future tendency of chinese search engine4 Chapter 2 Lucene and interrelated technology analysis.6 2.1 System Introduct

12、ion .6 2.2 Lucene index tactics7 2.2.1 The create procedure of index7 2.2.2 The structure of Lucenes index9 2.2.3 Create Lucene index 12 2.2.4 Index optimization.13 2.3 The explanatoriness and implement of searcher .14 2.3.1 The encapsulate class of Query .15 2.3.2 Multi-searcher15 2.4 The Sorting o

13、f searching result .16 2.5 Lucene filter 16 2.6 Chinese analyzer.17 2.6.1 The problems and resolvent of chinese analyzer.17 2.6.2 IKAnalyzer 18 2.7 Spider.19 2.7.1 What is spider19 2.7.2 The principle of Spider.19 VI 2.7.3 Heritrix.20 Chapter 3 Function analysis and design.23 3.1 System requirement

14、analysis.23 3.2 Framework design24 Chapter 4 The achievement of Search Engine project26 4.1 System preliminary design.26 4.2 System detail design27 4.2.1 Indexer.27 4.2.2 User application interface31 4.3 Result revealing.33 Chapter 5 Summary.36 5.1 The paper summary .36 5.2 The work summary and expe

15、rience36 References .38 Acknowledgements.39 第一章 概述 1 第一章第一章 概述概述 1.1引言引言 在互联网普及以前的很长一段时间里,信息的检索和管理仅仅只是意味着 图书、资料的目录分类。然而互联网和网站的横空降世并奇迹般地以有如闪电 的迅猛姿态强势介入了我们每一个人的生活。长久过着信息闭塞与滞延生活的 人们一眨眼就淹没在了高速信息时代的滚滚洪流之中。我们从没有想到会为了 查找信息而花费如此多的精力。然而,通用搜索引擎的出现迅速解决了这一难 题。 如果说出现仅仅四十年的互联网技术为我们这一时代带来的是一群令人震 惊与叹服的黑马,那么仅有十年左右历史

16、的搜索引擎技术无疑是这群黑马中的 佼佼者。搜索引擎的出现整合了众多网站的信息,就犹如这信息汪洋中的一座 导航灯塔。信息的价值从没有像今天这样如此广泛地在人们的心中得到提升。 搜索引擎技术是互联网资源导航和访问的重要手段,然而,由于搜索引擎底层 开发技术复杂,加上各搜索引擎厂商对核心技术的保密,这无形中提升了搜索 引擎项目开发的门槛。然而开源搜索引擎项目 Lucence 的出现改变了这一状况。 让更多的网站自由地使用搜索技术,无疑会极大方便我们的网络生活,这对改 善互联网的信息秩序,加强网站建设也是大有裨益。 1.2什么是搜索引擎及全文检索什么是搜索引擎及全文检索 搜索引擎是 Internet 上的一个网站,它的主要任务是在 Internet 中主动搜 索其他 Web 站点中的信息并对其自动索引,其索引内容存储在可供查询的大 型数据库中。当用户利用关键字查询时,该网站会告诉用户包含该关键字信 息的所有网址,并提供通向该网站的链接这就是搜索引擎。 全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建 立一个索引,指明该词在文章中出现的次数和位置,当用户查

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号