基于Lucene的电子公文检索系统的研究与实现

上传人:jiups****uk12 文档编号:40962764 上传时间:2018-05-27 格式:PDF 页数:79 大小:387.02KB
返回 下载 相关 举报
基于Lucene的电子公文检索系统的研究与实现_第1页
第1页 / 共79页
基于Lucene的电子公文检索系统的研究与实现_第2页
第2页 / 共79页
基于Lucene的电子公文检索系统的研究与实现_第3页
第3页 / 共79页
基于Lucene的电子公文检索系统的研究与实现_第4页
第4页 / 共79页
基于Lucene的电子公文检索系统的研究与实现_第5页
第5页 / 共79页
点击查看更多>>
资源描述

《基于Lucene的电子公文检索系统的研究与实现》由会员分享,可在线阅读,更多相关《基于Lucene的电子公文检索系统的研究与实现(79页珍藏版)》请在金锄头文库上搜索。

1、沈阳理工大学硕士学位论文基于Lucene的电子公文检索系统的研究与实现姓名:张琳申请学位级别:硕士专业:计算机软件与理论指导教师:陶振凯20090301沈阳理工大学硕士学位论文 摘 要 随着 Internet 的迅速发展和电子政务的推广,各个部门的电子公文不断的产生,如何对电子公文进行有效的管理并能够提供有效的检索机制, 以保证用户能够随时、 快速、全面地从这些公文中找到所关心的内容,日趋显得重要。因此,针对电子公文研究并定制一个全文检索系统是必要的。 本文分析了电子公文检索系统的研究现状及存在的不足,定制了一个基于 Lucene的专业中英文全文检索引擎,并针对 Lucene 的中文分词和检索

2、结果排序算法进行了改进, 改进后的系统实现对中文语言处理的支持并将用户所关心的信息结果返回到页面的最前端,从而满足用户的需求。本文实现对电子公文中 Text、PDF、Word、Excel 等格式文件进行有针对性地文本抽取,并转化为索引的固定格式,方便全文检索系统对其内容进行索引和存储,从而支持各种格式文档的全文检索。另外,本文采用自动索引和手工索引两种方法来对索引进行实时更新,使得索引更新变得更加灵活。本文还对实现全文检索系统中各个功能模块进行了详细的设计和分析,从而在 SSH(Struts,Spring,Hibernate)框架上实现了电子公文检索系统。 通过测试证明,本文针对电子公文检索的

3、需求特点,对中文分词和检索结果排序等关键技术进行改进来构建一个全文检索系统是成功的。 该系统可以对电子公文中不同格式的文档进行全文检索,达到了预期的目标,也完全可以满足用户的需求。 关键词:Lucene;全文检索;中文分词;结果排序 沈阳理工大学硕士学位论文 Abstract With the rapidly developing of the Internet and the popularizing of the e-government, electronic office documents from all the departments are created continuall

4、y. Its getting increasingly urgent and important on how to manage these electronic office documents and provide available retrieving mechanisms efficiently to make sure that users upon these mechanisms can find contents they really care about from these documents rapidly, comprehensively whenever th

5、ey like. This paper analyzes the deficiencies occurred in the current situation of the electronic office document searching system and customize a professional Chinese-English full-text searching system based on Lucene. This paper majorly researches and improves the searching system on two key techn

6、ologies which are Chinese word segmentation and result sorting algorithm, after the improvement, the system implements the support of the Chinese word processing and is able to fetch the information which users care most on the top of the pages in order to fulfill the requirements of them. In this p

7、aper, the new system will processes targeted text extracting and index fix-format converting on a sort of formats of documents such Text, PDF, Word, Excel and so on , it will also helps on the content indexing and storage in order to support full-text searching on various kinds of documents. Besides

8、 that, the new system will adopt two different approaches that are, auto-indexing and manual-indexing, to update the indexes in real time to make the index updating process more flexible. This paper also describes the detail design and analysis on all parts of implementation modules in full-text sea

9、rching system and implements a electronic office document searching system by using SSH. With the testing result, its manifest that the research on the Chinese word segmentation and result sorting algorithm of the full-text system are successful. This system can fulfill the target aim and the requir

10、ements of the users by supporting the entire format searching on the electronic office documents. Key Words:lucene; full-text searching; Chinese word splitting; result sorting 沈阳理工大学 硕士学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由作者本人独 立完成的。有关观点、方法、数据和文献的引用已在文中指出,并与参考 文献相对应。除文中已注明引用的内容外,本论文不包含任何其他个人或 集体已经公开发

11、表的作品成果。对本文的研究做出重要贡献的个人和集体, 均己在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承 担。 作者(签字) : 日 期 : 年 月 日 学位论文版权使用授权书 本学位论文作者完全了解沈阳理工大学有关保留、使用学位论文的规 定,即:沈阳理工大学有权保留并向国家有关部门或机构送交学位论文的 复印件和磁盘,允许论文被查阅和借阅。本人授权沈阳理工大学可以将学 位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印 或其它复制手段保存、汇编学位论文。 (保密的学位论文在解密后适用本授权书) 学位论文作者签名: 指导教师签名: 日 期: 日 期: 第 1 章 绪论

12、 -1- 第 1 章 绪论 1.1 课题的研究背景及意义 电子政务是政府机构应用现代信息和通信技术, 将管理和服务通过网络技术进行集成,在互联网上实现政府组织结构和工作流程的优化重组,超越时间和空间及部门之间的分隔限制, 向社会提供优质和全方位的、 规范而透明的、 符合国际水准的管理和服务。我国的电子政务建设已经发展十多年, 在这十多年间, 国家一直大力倡导电子政务建设,从而使我国电子公文应用经历了一场前所未有的变革。 这场变革使大多数政府部门和金融机构的纸质公文逐步被电子公文取代, 办公成本和效率取得了双丰收。 随着Internet 的迅速发展和电子政务的推广,各个部门的电子公文不断的产生,

13、如何对电子公文进行有效的管理并能够提供有效的检索机制,以保证用户能够随时、快速、全面地从这些公文中找到所关心的内容,日趋显得重要1。 每个政府部门都产生大量的公文,对于某部门的一个办公人员来说,若想找出关于某一方面的那些公文,就需要花费大量的时间和精力去查找,从而浪费了很多人力和时间,而且查找出来的结果不一定能够很好地满足用户的要求。因此为了能在大量的电子公文中找到自己所需,人们迫切需要一个高效的电子公文检索工具。目前,相比于通用网页信息检索的发展,电子公文的检索发展相对缓慢,专门针对电子公文的全文检索还尚未出现。 所以, 为政府部门提供一个电子公文的检索系统成为软件企业更关心的课题。 当前的

14、查询系统多数采用传统的关键词匹配算法进行查询, 不能准确地反映该词的扩展含义和用户的个性化信息,而全文检索因为检索速度快、准确性高而日益受到广大用户的欢迎。 全文检索从最初的字符串匹配程序已经演进到能对超大文本、 语音、 图像、活动影像等非结构化数据进行综合管理的大型软件2。由于内涵和外延的深刻变化,全文检索系统已成为新一代管理信息系统的代名词, 衡量全文检索系统的基本指标也逐渐形成规范。Lucene 是一个开放源代码的全文检索引擎工具包,利用 Lucene 建立的全文检索系统可以通过其丰富的分析技术达到令人满意的检索效果。 所以本文决定在 Lucene的基础上建立电子公文检索系统,一方面可以

15、使用户更高效、更准确和更全面的定位到沈阳理工大学硕士学位论文 -2- 所要查询的信息,从而减少用户查询的时间,提高工作效率,降低办公成本,使它在最短的时间内最大限度的发挥其价值;另一方面通过本文的研究,可以为解决电子公文检索问题提供一个新的思路,从而推进办公自动化进程。 1.2 国内外研究现状 全文检索是指以全文本信息为主要检索对象, 允许用户以自然语言根据资料内容而不是外在特征来实现检索的先进查询手段。全文检索技术的出现,导致了信息检索领域的一场革命,比起传统的标引检索,全文检索技术提供了全新的、强大的检索功能,是发现信息、分析和过滤信息、信息代理、信息安全控制等应用的主要技术基础3。全文检

16、索技术是现代信息检索技术的一个重要的分支,它是处理非结构化数据的强大工具,也是通用搜索引擎的核心技术之一。 全文检索技术目前的发展成果不仅可以实现以前信息检索的绝大部分功能,而且还能直接根据信息的内容进行检索,实现了对信息资源多角度的综合利用。 目前,在电子政务领域,国内的电子政务在公文管理方面或者不提供全文检索,或者提供全文检索功能但效果不理想。笔者在阅读大量的相关文献时,发现国内许多研究全文检索的文献,其系统的实现或者是基于关系数据库开发的,或者是使用通用数据库系统提供的全文检索功能开发的,也有利用大型全文检索软件来实现的。目前对公文管理方面提供的全文检索功能也是由这三种方法实现的: 第一,使用关系数据库中结构化查询语言 SQL 来实现。 基于关系数据库、使用结构化查询语言SQL实现的全文检索,效率不会很高,是不可取的4。例如:在非精确查询的时候使用查询语言“like %keyword%”,对数据库进行查询是对所有记录遍历,并对字段进行“%keyword%”匹配

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号