基于N层向量空间模型的网络信息检索平台

上传人:206****923 文档编号:47477614 上传时间:2018-07-02 格式:PDF 页数:53 大小:1.31MB
返回 下载 相关 举报
基于N层向量空间模型的网络信息检索平台_第1页
第1页 / 共53页
基于N层向量空间模型的网络信息检索平台_第2页
第2页 / 共53页
基于N层向量空间模型的网络信息检索平台_第3页
第3页 / 共53页
基于N层向量空间模型的网络信息检索平台_第4页
第4页 / 共53页
基于N层向量空间模型的网络信息检索平台_第5页
第5页 / 共53页
点击查看更多>>
资源描述

《基于N层向量空间模型的网络信息检索平台》由会员分享,可在线阅读,更多相关《基于N层向量空间模型的网络信息检索平台(53页珍藏版)》请在金锄头文库上搜索。

1、。-一群丑监 天毕又薯硕士学位论文酬K - 0 嘲j 龃盯4 _学斟专业:i 工簋扭应丑! 1 生作者姓名:到壶丑指导教师:坦至监塑撞m 自2 0 0 5 年1 月中文摘要向量空间模磴山子其锌法简洁,日J 修改性强,广泛应用r 信息检索领域。然f 】,在运用向量空间模型进行网络中文信息检索的时候,由于1 统的1 1 卜J D F方法不能很好的对网页内容进行描述,检索精度较低。N 层向量空问模型将文档按照重要程度划分成N 层,对每一层的检索单元分别赋予小同的权重,相比传统T 卜I D F 方法,复能体现文档的特征能够更好地描述文档。使用N 层向量空i 、j 模跫,会伎针对网络中文信息进行的文本检

2、索得到较好的结果。奉义提出了基于N 层向量空问模型进行网络信息检索的方法,设计实现了基于N 层向量空间模型的网络信息检索平台,并存此甲台上,应用信息增益、半衡权重、查询扩展等方法改进算法,最后对实验结果进行了对比和分析。关键训:N 层向量窄问模型,网络信息榆索平台,信息增益,平衡权重,杏询扩展A B S T R A C TT h eV e c t o rS p a c eM o d e li su s e di nm a n yf i e l d so fI n f o r m a t i o nr e t r i e v a lf o ri t ss i m p l i f i c a t

3、i o na n da d a p t a b i l i t y T h ec l a s s i c a l F F I D Fm e t h o dg e t sap o o rr e s u l ti nC h i n e s eW e bj n f o r m a t i o nr e t r i e v a lb e c a u s ei tC a l ln o td e s c r i b et h ed o c u m e n t sp r o p e r l y T h eN L e v e lv e c t o rm o d e lp a r t i t i o n sad

4、 o c u m e n ti n t oNl e v e lt e x tp a r a g r a p h s 7 l h et e r mw e i g h tv e c t o r sa r ed e f i n e da c c o r d i n gt ot h et e x tp a r a g r a p h s c o n t e x t T h eN L e v e lv e c t o rm o d e lc a nd i s t i n g u i s ht h ed o c u m e n t sm o r ee f f i c i e n t l yt h a nt

5、 h ec l a s s i c a lT F I D Fm e t h o d AC h i n e s eW e bi n f o r m a t i o nr e t r i e v a lb a s c do nN L e v e lv e c t o rm o d e lw i t hm o d i f i e da l g o r i t h mw i l lg e tm o r es i g n i f i c a n ti m p r o v e m e n tr e s u l t s W ep r o p o s et h eC h i n e s eW e bi n f

6、 o r m a t i o nr e t r i e v a lb a s e dO i lN - L e v e lv e c t o rm o d e l W ed e s i g n e da n dr e a l i z e daC h i n e s eW e bi n f o r m a t i o nr e t r i e v a ls y s t e m W ep r o p o s ea n dr e a l i z es o m ea l g o r i t h mo nt h i ss y s t e ms u c ha si n f o r m a t i o nG

7、a i n ,B7 F W S ,q u e r ye x p a n s i o n T h er e s u l t so fa l la l g o r i t h m sa r ec o m p a r e da tl a s t K E YW O R D S :N L e v e lV e c t o rM o d e l ,W e bi n f o r m a t i o nR e t r i e v a lS y s t e m ,I n f o r m a t i o nG a i n ,B T W S ,Q u e r yE x p a n s i o n独创性声明本人声明所

8、呈交的学位论文是本人在导师指导下进行的研究丁作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也小包含为获得:苤鲞盘茎或其他教育机构的学位或证书斯使用过的材料。与我一同 作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了澍意。学位论文作者签名:剔鬈、为签字F | 期:功。5 年J 月7 闩学位论文版权使用授权书本学位论文作者完全了解鑫连盘堂有关保留、使用学位论文的规定。特授权苤望盘堂可以将学位论文的_ 仝部或部分内容编入有关数掘库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论

9、文的复印件和磁盘。( 保密的学位论文存解密后适用本授权说明)学位论文作者签名:到恙为导师躲百丕蔚签字 期:劲D 5 年J 月J7F 1签字同期:加。nj 一年月【7 闩第一章信息检索概述第一章信息检索概述1 1 信息检索信息检索作为一项行为已有很长的历史,我国西汉时期的占文经学家、H录学家刘歆撰写了我国第部系统目录七略,但信息检索作为个学科束发腮始J _ 2 0t I = | :纪4 ( ) 年代术。1 9 4 9 年穆尔斯( C a l v i l 3W M ( ) o e r s ) 苗1 次捉H 了这个术语。信息检索有广义和狭义之分。广义的信息榆索包括信息的存储和检索,狭义的信息检索只包

10、含检索一个方面。本文采用狭义的信息检索末I 剃述信息检索技术的发展。从人类文明诞生到今天飞速发展的信息时代,信息处理技术的不断进步始终是推动人类文明前进的主要冈素之一。今天,随着社会信息化程度的快速提高,冈特网日益普及,数字图书馆和各种各样的电子信息载体不断涌现,信息的总量以惊人的速度不断地膨胀,信息处理技术迫切需要更有效的理论利方法来处理如此海最的信息。信息检索( I n f o r m a t i O l 3R e t r i e v a l ,I R ) 、信息过滤( 】n f o r m a t i O nF j l t e r i n g ,T F ) 、信息挖捌( 1 nF o r

11、 m a t i o r lE x t H l cL i O n ,I E )等正是遁戍了这一要求,并成为当前信息处理研究领域中的研究热点。信息主要是以文字的形式存在,辅以声音和图像等,信息榆索一般足指文件信息检索( A dH o cT n f o r m a t i o nR e lr je v a l ) 。众所周知,文件足用米记录和传播信息的载体。通常,文件通过人类的自然语言( N a t u r a lL a n g u a g e ) 来表达各种各样的信息,比如:报纸新闻、科学论文及专利信息等等。因此,信息检索的研究必然需要结合自然浯言处理( N a t a IL a n g u a

12、 g eP r o c e s s i n g ,MP )的研究成果,事实h 信息检索和自然语言处理都属_ 丁计算语吉学( C o m p u t a t i o n a lL in g u is t i c s ) 的研究范畴。计算语言学主要是利用计算机技术处理自然语高信息,对人类语言活动中的信息进行发现、提取和加工等过程的研究。自然语言是捕述人类思维的1 :具,对于机器而言,对自然语言的理解也就是对人类思维的理解,从某种意义L 讲是十分网难的。尽管如此,计算语言学经过半个多世纪的曲折发展,取得了一系列阶段性的研究成果,并在信息检索、机助翻泽( M m h i n eA d d e dT r

13、 a n s l a t i ( ) n ) 、机器学习( M a c h i n eL e a r n jn g ) 等重要领域得到了广泛的应用。文件信息检索的主要目的是针对用户提出的查询,快速准确地得到所需要的文件信息。通常,为了提高检索的效率,需要对固定的或槲对固定的文件集建市索引。信息检索的基本过程是:首先,用户可以从某一终端将其查询( q u e r y )输入到检索系统中:之后,检索系统针对用户的查询,通过适当的算法,在已筇一章信息检索概述绛建立了索9 的文件集中进行检索;最后,检索系统为用,、提供与其查询相关的文件集。通常,检索系统将所提交的相关文件集按照与查询的相关度排序,最相

14、关的文件排在最前面。信息检索的发展,经历了兰个人的阶段。1 ) 手工信息检索这个阶段的信息检索手段是书本式和卡片式,包括检索型和资料型的l2 具书等。至令这些检索T 具仍在发挥作用。2 ) 机械信息检索机械信息检索的发展期是2 0 世纪4 ( ) 一5 0 年代,生命剧期很短暂,是于工检索 柚汁算机信息检索的过渡阶段。这一阶段的主要检索手段包括穿孔卡片和缩微制品检索。:j ) 计算机信息榆索计算机信息检索起源于2 0 世纪5 0 年代初。1 9 5 4 年美国海军兵器中心图书馆利用lI l M T 0 1 机刀1 发计算机信息检索系统,它标志着计算机信息检索阶段的刀始。计算机信息检索可分为d

15、个发展阶段:脱机检索,联机检索,光箍检索,网络愉索。t f ,史信息处理技术作为高新尖技术的重点之一,得到了“八六三”国家高科技计划、国家自然科学基会以及“九七i ”国家高科技汁划的高度重视。中义信息榆索,作为中文信息处理最直接的应用之一,0 i 仅具有广泛的学术价值,同时也具有巨大的市场潜在价值,H 益得到了学术界以及工向界的广泛重视和支持。本论文将集中讨论中文信息检索。1 2 网络信息检索山于以因特网为芏体的信息高速公路的不断普及和发展,信息技术已渗透到社会生活的各个角落,我们真正处于一个“信息爆炸”的时代。一方面,因特刚卜蕴涵的海量信息远远超过人们的想象;另一方面,由i 对信息的汪洋大海

16、,A I f i J 往往感到束手无策,无所适从,出现所谓的“信息过载”和“信息迷向”的现象。于是一个极富挑战性的课题:如何帮助人们有效地选择和利用所感兴趣的信息,尽量剔除不相关的信息,成为学术界和企业界所十分关注的焦,? 、i 。现在在线文本同益增多,其中包括新闻、电子杂志、电子邮仲、技术报告、文本以及网上图书馆。面对如此众多的信息,仅仅依靠人工来收集和整理所需要的信息显然是不够的。所以,自动收集、榆索和整理所需要的各类信息成为信息产、I k 面临的新得挑战和新的发展契机。在此背景下,网络信息检索应运而生,获得极大的发展。目前网上信息的表现形式一般混合了文本、图像、视频等多媒体元素,其巾大多数为文本,而日文本也是,。大用户所习惯接受的形式,第一章信息榆索概述凼此我们在F 面主要讨论文本信息检索技术。耻论L 看来,信息的检索是很简单的。例如有一堆文件和一个想利用这些文件巾的信息解决J 、u j 题的用户。这个用户可以把这些文件部读一遍,留下对自己

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号