基于倒排索引的关系数据库全文检索查询效率研究

上传人:E**** 文档编号:114280189 上传时间:2019-11-10 格式:PDF 页数:54 大小:4.15MB
返回 下载 相关 举报
基于倒排索引的关系数据库全文检索查询效率研究_第1页
第1页 / 共54页
基于倒排索引的关系数据库全文检索查询效率研究_第2页
第2页 / 共54页
基于倒排索引的关系数据库全文检索查询效率研究_第3页
第3页 / 共54页
基于倒排索引的关系数据库全文检索查询效率研究_第4页
第4页 / 共54页
基于倒排索引的关系数据库全文检索查询效率研究_第5页
第5页 / 共54页
点击查看更多>>
资源描述

《基于倒排索引的关系数据库全文检索查询效率研究》由会员分享,可在线阅读,更多相关《基于倒排索引的关系数据库全文检索查询效率研究(54页珍藏版)》请在金锄头文库上搜索。

1、北京工业大学 硕士学位论文 基于倒排索引的关系数据库全文检索查询效率研究 姓名:吕晓旭 申请学位级别:硕士 专业:计算机应用技术 指导教师:朱青 20090501 摘要 摘要 作为近年来的研究热点,全文检索领域取得了很多新成果和新突破。尤其以 文本数据库为代表的新技术,在各项性能上有了突飞猛进的发展,并能满足当今 大部分的文本检索需求。但是当面对全文检索和结构化数据检索的双重需求时, 许多功能比较单一的文本数据库就显得力不从心。另一方面,除一些费用昂贵的 商用关系数据库( O r a c l e ,D B 2 等) 外,以P o s t g r e S Q L 为代表的开源关系数据 库,在全文

2、检索性能表现上显得十分不足,不能很好的满足全文检索的需要。所 以寻找一种即能够满足全文检索和结构化数据检索的双重需求,且价格低廉的方 案就显得具有重要的现实意义。 为了满足以上需求,本论文研究了已有的全文检索研究成果,并根据倒排索 引模型的原理,对P o s t g r c S Q L 关系数据库的全文检索方法进行了深入的分析, 发现其在查询性能上有很大提升空间。通过对P o s t g r e S Q L 全文检索索引结构和 检索流程的学习和研究,本文找到了其全文检索性能不佳的原因,同时提出一套 基于倒排索引的P o s t g r e S Q L 数据库全文检索改进方案。这套方案主要包括倒

3、排 索引结构的改造、索引的扫描方法等内容。 最后,根据对比测试结果,改进后的P o s t g r c S Q L 全文检索性能有了很大提 升,它满足了全文检索和结构化检索的双重需求,证明了从内部改进开源关系数 据库,以达到课题目标的可行性。 关键字:全文检索;倒排索引;P o s t g r e S Q L 北京川k 人学I :学硕十学何论文 A b s t r a c t T h e s ey e a r s ,a sah o t s p o tt h er e s e a r c ho ff u l l - t e x ts e a r c hg e tal o to fn e w a

4、c h i e v e m e n t sa n db r e a k t h r o u g h s I np a r t i c u l a r ,p e r f o r m a n c eo ft e x td a t a b a s eh a sb e e n g r e a t l yi n p r o v e d ,a n di tm e e t st h em o s tr e q u i r e m e n to ft h eT e x tR e t r i e v a l H o w e v e r ,i t i st o oh a r dt om e e tr e q u

5、i r e m e n to ft h ej o i n ti n q u i r i e so ff u l l t e x ts e a r c ha n ds t r u c t u r e d a t ar e t r i e v a lf o rm a n yt e x td a t a b a s e sw h i c hh a ss i n g l ef u n c t i o n O nt h eo t h e rh a n d , e x c e p ts o m ee x p e n s i v ec o m m e r c i a lR D B M S ( O r a c

6、 l e ,D B 2 ,e t c ) ,o p e ns o u r c e R D B M Sr e p r e s e n t e db yP o s t g r e S Q Lm a k ep o o rp e r f o r m a n c eo nf u l l t e x ts e a r c h S o t h a ti th a sg r e a ts i g n i f i c a n c et of i n dal o w - c o s ta p p r o a c h et om e e tt h ed o u b l e r e q u i r e m e n t

7、 so ff u l l t e x ts e a r c ha n ds t r u c t u r ed a t ar e t r i e v a l I no r d e rt om e e tt h er e q u i r e m e n t sa b o v e m e n t i o n e d ,t h i sp a p e rh a ss t u d i e dt h e r e s e a r c ha c h i e v e m e n to ff u l l t e x ts e a r c h ,a n dt h e na n a l y z e sP o s t g

8、 r e S Q Lf u l l t e x t s e a r c hm e t h o dw h i c hi sb a s e do ni n v e r t e di n d e x A f t e rt h i sa n a l y s i s ,w ef o u n dt h e r ei s ag r e a tr o o mo fi t si n q u e r yp e r f o r m a n c ei m p r o v m e n t W i t ha b o v el e a r n i n ga n d r e s e a r c ho fi n d e xs

9、t r u c t u r ea n dr e t r i e v a lp r o c e s s e so fP o s t g r e S Q Lf u l l t e x ts e a r c h ,w e f o u n ds e v e r a lr e a s o n sf o ri t sp o o rp e r f o r m a n c e ,a n db r i n gf o r w a r dap r o g r a mw h i c hi s b a s e do ni n v e r t e di n d e xt oi m p r o v et h ep e r

10、f o r m a c eo fP o s t g r e S Q Lf u l l - t e x ts e a r c h T h i sp r o g r a mi n c l u d e st h es t r u c t u r eo fi n v e r t e di n d e xt r a n s f o r m a t i o n ,s c a nm e t h o d a n dS Oo n F i n a l l y ,a ss h o w e di nc o m p a r i s o nt e s t ,t h ep e r f o r m a n c eo fP o

11、 s t g r e S Q LF T S h a s b e e n g r e a t l yi m p r o v e d T h ei m p r o v e dP o s t g r e S Q L F T Sm e e t st h ed o u b l e r e q u i r e m e n t so ff u l l t e x ts e a r c ha n dr e t r i e v a lo fs t r u c t u r ed a t a I t Sa l s op r o v e dt h e f e a s i b i l i t yo fi n s i d

12、 e l yi m p r o v i n go p e ns o u r c er e l a t i o n a ld a t a b a s et om e e tt h ed o u b l e r e q u i r e m e n t s K e y w o r d s :F u l l T e x tS e a r c h ;I n v e r tI n d e x ;P o s t g r e S Q L I I 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写

13、过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名:燃日期:星Q Q 皇生互目 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:导师签名:垄盔日期: 至Q Q 旦生墨旦 第1 章绪论 第1 章绪论 1 1 研究背景、现状与意义 随着计算机产业的发展,以计算机设备为载

14、体存储的电子信息愈来愈多,这 些信息大致可分为两类:结构化信息和非结构化信息。据统计,非结构化数据占 整个信息量的8 0 以上。在这些非结构化信息中,文本信息是一个主要的表现形 式。如何快捷有效地管理和检索文本这种非结构化数据成为一项紧迫的研究任 务,全文检索技术由此应运而生。全文检索技术的出现,导致了信息检索领域的 一场革命。它不仅可以实现情报检索的绝大部分功能,而且还能直接根据数据资 料的内容进行检索,实现了多角度、多侧面地综合利用信息资源。 全文检索是指以文本为检索对象,允许用户以自然语言根据资料内容( 例如 文献中的任何一个词语) 而不仅是外在特征( 诸如标题、作者、摘要、附录等) 来

15、实现信息检索的手段,以实现支持多角度、多侧面地综合利用信息资源。全面、 准确和快速是衡量全文检索系统的关键指标。最初的全文检索是通过在文本中逐 个字符扫描匹配完成的,比如L I K E 操作,不需要全文索引这样的辅助数据。随 着文本集越来越大,人们对全文检索的需求越来越多样,这种顺序比较效率低下 的弊端就凸显出来。人们受到书目索引的启发提出了全文索引的思想,而本文研 究的倒排索引则是目前应用得最广泛的全文索引模型之一。 衡量文本检索系统的度量是有效性和效率。有效性是度量结果集的准确性, 经常用两个指标来度量:查准率和查全率。查准率定义为与查询相关的文档在所 有获取的文档当中所占的比例;查全率定

16、义为所找到的相关文档在所有文档集中 所占的比例。效率用来度量获得结果集合的时间和空间代价。这可以通过标准的 算法复杂度分析来得到。当然也可以通过一些经验性的统计方法例如响应时间, 磁盘I O 等数据来得到。 由于传统关系数据库擅长于结构化数据的管理,其索引是关键字索引,而文 本是典型的非结构化数据,文本检索要求针对全文建立索引,并且往往还要求具 有相关度排序,高亮显示等附加功能。两者之间的巨大差异使得全文检索系统的 实现手段以及全文索引的结构与传统关系数据库不尽相同,因此人们想到了建立 一种全新的文本数据库模型,以应对日益增加的全文检索需求。 作为一种特殊的数据库系统,文本数据库要完成的工作仍然是传统数据库的 两大功能:存储和检索,具体而言就是文本数据的存储和任意字符串的检索。数 据库系统的两大功能中,检索更具有核心的地位,可以认为文本数据库研究的重 点是全文检索。 :l 匕京州k 人学l :t ;f ;:硕十学位论文 1 2 国内外研究现状 目前图内外对全文索引的研究主要集中在以下几个方面:全文索引的模型、 全文索引的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号