lucene中文分词在科研文档全文检索系统的应用研究

上传人:E**** 文档编号:118180412 上传时间:2019-12-11 格式:PDF 页数:62 大小:1.98MB
返回 下载 相关 举报
lucene中文分词在科研文档全文检索系统的应用研究_第1页
第1页 / 共62页
lucene中文分词在科研文档全文检索系统的应用研究_第2页
第2页 / 共62页
lucene中文分词在科研文档全文检索系统的应用研究_第3页
第3页 / 共62页
lucene中文分词在科研文档全文检索系统的应用研究_第4页
第4页 / 共62页
lucene中文分词在科研文档全文检索系统的应用研究_第5页
第5页 / 共62页
点击查看更多>>
资源描述

《lucene中文分词在科研文档全文检索系统的应用研究》由会员分享,可在线阅读,更多相关《lucene中文分词在科研文档全文检索系统的应用研究(62页珍藏版)》请在金锄头文库上搜索。

1、捅要 如何快速有效地从海量的信息资源中找到自己所需要的资源,已经成为人们越 来越重视的问题。全文检索技术即是可以解决这个问题的主要技术。 目前广泛使用的全文检索技术是L u c e I l e I 具包。L u c e n e 是一个开源的全文检索 引擎组件,在此基础上可以方便地对其进行二次开发来实现全文检索系统。但是 L u c e n e 仍有许多不足的地方需要进行改进,特别是在中文分词的处理上。由于中文 分词质量的准确与否,将直接影响到用户对搜索结果的满意度,因此中文分词技术 在全文检索系统中尤为重要,也是本文研究的关键内容。 论文首先阐述了L u c e n e 全文检索的相关技术,阐

2、述了现有的中文分词方法,然 后分析T L u c e n e 的两个分析器C l l i n e S 鲋m a l y z e r 和C J K A n a l y z e r 的不足,并提出了基于 词典的双向最大匹配分词算法;分析了L u c e n e 对于文档格式支持的局限性,提出了 一个通用的文本解析框架。 论文的主要工作是分析设计并实现了一个基于L u c e n e 的科研文档全文检索系 统。分析了系统的总体架构和功能模块,对系统进行了总体设计和详细设计。针对 科研文档格式的多样性,构建了文本解析模块,可以对多格式文档进行解析。系统 的中文分析器采用改进的中文分词算法实现。对文本解

3、析模块、中文分析器和系统 的性能进行实验分析,通过实验证明,中文分析器的分词效果非常显著,系统的查 全率和查准率都达到了用户的满意度。 最后,论文对基于L u c r e 的科研文档全文检索系统进行了分析,总结了本文取 得的成果,并对未来进一步的工作内容进行了展望。 关键词:全文检索;L u e e n e ;中文分词;文本解析 s t i l lm a n ya s p e c t st ob ei m p r o v e d ,p a r t i c u l a r l y i ni t sh a n d l i n go fC h i n e s ew o r d s e 目:I l e

4、 n t a t i o n T h eC h i n e s ew o r ds e g m e n t a t i o n i sg o o do rb a d ,d i r e c t l ya f f e c tt h e s a t i s f a c t i o no fu s e r sf o rs e a r c hr e s u l t s ,S Ot h eC h i n e s et o k e n i z e ri s t h em a i nr e s e a r c h e d c o n t e n ti nt h i sp a p e r F i r s t l

5、 y t h i sp a p e re l a b o r a t e dt h er e l e v a n tt e c h n o l o g ya b o u tL u c e n e f u l l t e x tr e t r i e v a l , e l a b o r a t e dt h ee x i s t i n gC h i n e s ew o r ds e g m e n t a t i o nm e t h o d ,a n a l y z e st h es h o r t a g e o f L u c e n e ,st w ot o k e n i z

6、 e r sC h i n e s e A n a l y z e ra n dC J K A n a l y z e r , a n dp u t s f o r w a r dt h e t w o w a y m a x i m a lm a t c h i n g p a r t i n g - w o r d s a l g o r i t h m A n da n a l y z e s t h eL u c e n e l i m i t a t i o n sf o rd o c u m e n tf o r m a t ,p r o p o s e sag e n e r a

7、 lt e x tp a r s i n g f r a m e w o r k T h em a i nt a s ko ft h i sp a p e ri st h ed e s i g na n di m p l e m e n t a t i o no f ar e s e a r c hd o c u m e n t 缸l l - t e x tr e t r i e v a ls y s t e mb a s e do nL u c e n e I ta n a l y z e sf r a m e w o r ka n df u n c t i o nm o d u l e s

8、 o ft h es y s t e m ,t h eo v e r a l ld e s i g na n dd e t a i l e dd e s i g no ft h es y s t e m A c c o r d i n gt o t h e d i v e r s i t yo fd o c u m e n tf o r m a t ,i tc o n s t r u c t s t h et e x tp a r s i n gm o d u l ew h i c hC a np a r s e v a r i o u sd o c 啪e 1 1 tf o r m a t s

9、 T h es y s t e m sC h i n e s eA n a l y z e ri s r e a l i z e db yt h ei m p r o v e d C h i n e s eD a r t i n g - w o r d sa r i t h m e t i c I ta n a l y z e st e x tp a r s i n gm o d u l e ,C h i n e s eA n a l y z e r a n d t h es y s t e m ,sp e r f o r m a n c e T h ee x p e r i m e n t

10、a lr e s u l t ss h o wt h a t t h eC h i n e s ea n a l y z e r s e 虢c ti sv e r ys i g n i f i c a n ta n dt h er e c a l lr a t i oa n dt h ep r e c i s i o nr a t e o ft h es y s t e ma l l r e a c h e dt h eu s e r ss a t i s f a c t i o n A tl a s t r e s e a r c hd o c u m e n tf u l l t e x

11、tr e t r i e v a ls y s t e mb a s e do nL u c e n ei sa n a l y z e di n t h i sp a p e r T h ea c h i e v e m e n t sm a d ei nt h i sp a p e ra r es u m m a r i z e da n dt h ef u r t h e rt a s k s 1 1 1 t h ef u t u r ea r ep r o s p e c t e d K e yw o r d s :F u l l - t e x tR e t r i e v a l

12、;L u c e n e ;C h i n e s eP a r t i n g - w o r d s ;T e x tP a r s i n g f,:。舷,pF; 目录 第一章绪论1 1 1 研究背景与意义1 1 2 本文主要工作一l 1 3 论文的主要创新2 1 4 论文结构2 第二章相关技术研究4 2 1 全文检索技术。4 2 1 1 全文检索系统。4 2 1 2 全文检索基本原理。4 2 1 3 全文检索衡量标准6 2 2L U C E N E 全文检索工具包7 2 2 1L U C E N E 系统架构7 2 2 2L U C E N E 数据流9 2 2 3L U C E N

13、E 索引结构1 0 2 2 4L U C E N E 优势1 1 2 3 本章小结13 第三章全文检索系统中关键技术研究1 5 3 1 中文分词研究与改进1 5 3 1 1 中文分词简介1 5 3 1 2 现有中文分词方法1 6 3 1 3L U C E N E 中文分词方法1 7 3 1 4 改进的中文分词算法1 8 3 2 通用的文档解析框架2 l 3 2 1L U C E N E 支持的文档格式2 l 3 2 2 通用的文档解析框架2 1 3 3 本章小结2 3 第四章全文检索系统的分析与设计。2 4 4 1 系统的需求分析2 4 4 2 系统的总体设计2 4 4 2 1 总体设计思想2 4 4 2 2 系统功能模块图2 5 4 3 系统的详细设计2 6 4 3 1 系统总体流程图2 7 4 3 2 系统用例图2 8 4 4 本章小结2 9 第五章检索系统的实现与分析3 0 5 1 系统开发环境及主要技术3 0 5 1 1 系统开发环境

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号