基于Lucene的全文检索系统的研究与实现---毕业论文

上传人:wo7****35 文档编号:55274043 上传时间:2018-09-26 格式:DOC 页数:49 大小:978KB
返回 下载 相关 举报
基于Lucene的全文检索系统的研究与实现---毕业论文_第1页
第1页 / 共49页
基于Lucene的全文检索系统的研究与实现---毕业论文_第2页
第2页 / 共49页
基于Lucene的全文检索系统的研究与实现---毕业论文_第3页
第3页 / 共49页
基于Lucene的全文检索系统的研究与实现---毕业论文_第4页
第4页 / 共49页
基于Lucene的全文检索系统的研究与实现---毕业论文_第5页
第5页 / 共49页
亲,该文档总共49页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《基于Lucene的全文检索系统的研究与实现---毕业论文》由会员分享,可在线阅读,更多相关《基于Lucene的全文检索系统的研究与实现---毕业论文(49页珍藏版)》请在金锄头文库上搜索。

1、本本 科科 毕毕 业业 论论 文文基于基于 LuceneLucene 的全文检索系统的研究与实现的全文检索系统的研究与实现Research and Implementation of a Chinese Search Engine Based on Lucene姓 名: 学 号:学 院:软件学院系:软件工程专 业:软件工程年 级: 校内指导教师: 年年 月月I摘摘 要要随着电子化信息系统与网络通讯技术的蓬勃发展,人们进入了一个信息爆炸的时代。人们在享受获取信息的便捷的同时,也面临着一个如何在海量的数据库信息中准确、快捷地找到有用的信息的问题,因此如何在海量信息中去其糟粕,取其精华,成为了当下的

2、研究热点。面对存储庞大数据量的数据库,管理起来存在诸多的问题,主要体现在索引建立复杂、搜索速度慢,对于特别目标数据搜索的 SQL 语句复杂。针对这类问题,本文通过对搜索引擎的原理、组成、数据结构和工作流程等方面深入研究的基础上,运用 Lucene 索引技术来完善以上问题。Lucene 采用倒排序法建立索引,并能记录索引与数据之间的映射关系,根据索引命中率高低来实现搜索结果排序。全文先详细介绍了构建基于 Lucene 的全文检索系统所需的主要技术支持,包括 Lucene 框架、IK 中文分词器、JDBC、SSH 架构、JSP,并通过对这些技术的使用,实现一个简单的数据库搜索系统雏形,通过实例验证

3、了基于 Lucene的全文检索系统实现的可行性。该系统界面友好、搜索效率高、命中率好,采用面向对象的编程思想使系统具有很好的延伸性和扩展性。具有一定的实用价值和运用前景。关键词:关键词: Lucene;数据库;索引;全文检索;IIAbstractWith the electronic information system and development of network communication technology flourishing, people entered the era of an information explosion. People enjoy the conv

4、enience of access to information while also facing a problem that is how to accurately and quickly find the useful information from the massive database, so how in the mass information to its dregs, its essence, become the immediate hotspot. When managing the huge amount of data stored in the databa

5、se, there are many problems, mainly reflected in the complex index-founding and slow search, the target data for the particular search complex SQL statements. For such problems, this article, based on in-depth research of search engine principle, components, data structures and workflow, use Lucene

6、indexing technology to perfect the above problems. Lucene index with inverted ordering method, and can record the mapping relationships between index and data, and arrange search results by the index hit ratio. This article introduces the key technical support required of building the full text retr

7、ial system based on Lucene in detail, including the Lucene framework, IK Analyzer, JDBC, SSH framework, JSP, and through the use of these technologies to achieve a simple database search systemprototype, this example verifies the feasibility, which is to implement a Lucene full-text retrieval system

8、. The system is user-friendly, search efficiency, hit rate is good, object-oriented programming ideas so that the system has good extensibility and scalability. It has certain practical value and application of prospects. Key words:Lucene;Database;Index;full-text search;III目目 录录第一章第一章 绪论绪论1 11.11.1

9、研究背景研究背景1 11.21.2 课题研究意义课题研究意义1 11.31.3 课题研究目的课题研究目的2 2第二章第二章 全文检索系统全文检索系统相相关技术关技术3 32.12.1 搜索引擎概述搜索引擎概述3 32.22.2 相关技术介绍相关技术介绍4 42.2.1 Lucene API42.2.2 IK Analyzer.82.2.3 JDBC 技术 102.2.4 数据库技术.102.2.5 JSP 技术 .102.2.6 SSH 框架 .11第三章第三章 系统总系统总体体设设计计12123.13.1 系统设计目标系统设计目标12123.1.1 设计要求.123.1.2 运行环境.123

10、.23.2 索引设计索引设计13133.2.1 索引架构.133.2.2 索引文档的预处理.133.2.3 索引域的设计.143.33.3 系统数据结构系统数据结构14143.3.1 数据流分析.14第四章第四章 系统实系统实现现16164.14.1 系统流程图系统流程图16164.24.2 系统预处理系统预处理16164.2.1 系统环境配置.16IV4.2.2 原始数据录入.184.34.3 系统包设计系统包设计20204.44.4 索引建立索引建立21214.4.1 源数据抓取.214.4.2 中文分词.234.4.3 索引库建立.254.54.5 系统功能实现系统功能实现27274.5

11、.1 用户接口.274.5.2 关键字高亮显示.294.5.3 搜索结果返回.29第五章第五章 系统系统测测试和试和运运行结果行结果32325.15.1 系统测试系统测试32325.1.1 测试目的.325.1.2 测试用例设计.325.25.2 运行结果运行结果3434第六章第六章 总结与展总结与展望望37376.16.1 论文总结论文总结 37376.26.2 存在的问题和改进存在的问题和改进3737参考文献参考文献3939致致 谢谢4141VContentsChapter 1 Preface.11.1 Research background 11.2 Significance of th

12、e research.11.3 Research purpose .2Chapter 2 Related technology .32.1 Search engine overview32.2 Related technical introduction42.2.1 Lucene API42.2.2 IK Analyzer.82.2.3 JDBC technology 102.2.4 Database technology102.2.5 JSP technology102.2.6 SSH framework.11Chapter 3 System overall design.123.1 Des

13、ign objectives 123.1.1 Design requirements123.1.2 Operating environment123.2 Index design133.2.1 Index structure.133.2.2 Pretreatment of the document index133.2.3 Design of the index domain 143.3 System data structure 143.3.1 Data flow analysis.14Chapter 4 System implementation164.1 System flow char

14、t.164.2 System pretreatment164.2.1 System environment configuration .16VI4.2.2 The original data entry 184.3 System package design.204.4 Indexing.214.4.1 Source data capture .214.4.2 Chinese segment234.4.3 Index base established.254.5 System function 274.5.1 User Interface274.5.2 Keyword highlight.2

15、94.5.3 Search results.29Chapter 5 System test and operation results .325.1 System test.325.1.1 Testing purposes325.1.2 Test case design.325.2 Run results34Chapter 6 Summary and future works 376.1 Summary of this paper 376.2 Improvements and future works 37References39Acknowledgements.41第一章 绪论1第一章第一章

16、 绪论绪论1.11.1 研究研究背景背景在信息化建设浪潮中,催生了大量的来自内部和外部信息资源。据了解,在企业中,数据每年以 200%的速度增长,其中 80%的数据以文件、邮件、图片等非结构化数据形式存放在企业内计算机系统中的各个角落,而这些数据总量远远超过了互联网信息的总量。随着数据库系统的不断升级和发展,对于数据的存储性能已经有了革命性的提高。但数据检索的情况并不尽如人意,传统的数据库搜索存在着以下几个问题:1.信息量大时速度慢的问题比较常用的数据库有:Oracle、MySQL、MS SQL 等,这些都是支持标准sql92 语法的数据库,数据库的重点功能在存储,对于数据量达到千万级的时候,再执行 sql 语法的速度将会变得很慢,特别是执行含有 like 的 select 语句时,比如一个采用 mysql 存储的客户信息表数据记录达到 500 万行以上时,就算增加再多的索引,采用标准 select 语句执行查询时,所需

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号