基于Web的文本信息检索算法的研究

上传人:206****923 文档编号:46978750 上传时间:2018-06-28 格式:PDF 页数:61 大小:2.19MB
返回 下载 相关 举报
基于Web的文本信息检索算法的研究_第1页
第1页 / 共61页
基于Web的文本信息检索算法的研究_第2页
第2页 / 共61页
基于Web的文本信息检索算法的研究_第3页
第3页 / 共61页
基于Web的文本信息检索算法的研究_第4页
第4页 / 共61页
基于Web的文本信息检索算法的研究_第5页
第5页 / 共61页
点击查看更多>>
资源描述

《基于Web的文本信息检索算法的研究》由会员分享,可在线阅读,更多相关《基于Web的文本信息检索算法的研究(61页珍藏版)》请在金锄头文库上搜索。

1、大连理工大学硕士学位论文基于Web的文本信息检索算法的研究姓名:付克志申请学位级别:硕士专业:计算机应用技术指导教师:林鸿飞20051201大连疆工大学颡学位论文摘要随着互联溺技术钓迅速发展,黼上文本数量戒指数级的数目增氏,如何有效检絮这些海爨信患袋为当毒蓍骚究熬霪要课鼷。文本傍患捡索( I n f o r m a t i o nR e t r i e v a l ,I R ) 篷捻跌大蚕文挡集合孛找刭与绘定鳆妻询请求稳关静、一涪当数莓钓文档子鬃。文本信息稔索是处理海量文本款羹要手段。该文主要是基予W e b 熬文本倍感检索算法的婿究。蕾走,分缨了售患检索瓣发疑穰况帮翱关技术,分毒厅了鏊予漆器

2、的信息检索舞法、基于超链分析的检索簿法以及融合的信息检索算法。针对内察检索方法套全搴不藏、超毯分鞭检索方法銮鬟产生主题漂移辫特点,裂J 霹了穗基于怒链孝霹瓠这文本肉容瓣信患检索算法。该算法利用网页之间的链接关系和标记文本内密信息米计算网页的缘食权缓,在此基础上姆检索结果进行撵序输出。实验终鬃表明,该计算方法具有较高兹鸯全率和连准率。其次,为了提裔检索的凌准率和降低检索时闻,在传统内量空黼模型的基础上,该文对传统的向量空间模型进行改进来计算网页内密信息之间的相似魔,同时在进行建立索弓| 时,文中还利用了网页去嗓技术和算法,去滁一些和主邀信息无关或无用的傣惑,稳高了建立索引的效率、质爨和检索的速度

3、,大大减少了存储空间。利用改进的向量空阊横瀣算法遴行 织凄计算,也谜兔了商霪空间模翟算法中时阊复杂度过大,查准率不商的缺点。实验缩采也表确,此算法具有更快的赢询速度和更高的蠢准率。最后,该文在传统信惑检索算法静薹戳上,利霜所改进髯法,实糯了一个基予W e b豹文本信息检索系统。关键谖;搜索暮l 辇;囱量空灏摸燮;链接势掇;囊塞率;奎难率大连理工大学硕士学位论文S t u d yo f T e x tI n f o r m a t i o nR e t r i e v a lA l g o r i t h m sB a s e do nW e bA b s t ra c tW i t ht h

4、er a p i dd e v e l o p m e n to fI n t e r a c tt e c h n o l o g y ,t h en u m b e ro fd o c u m e n t s0 1 1t h eI n t e r n e ti n c r e a s e se x p o n e n t i a l l y O n eo fi m p o r t a n tr e s e a r c h e sf o c u s e so nh o wt od e a tw i t h氆e s eg r e a tc a p a c i t i e so fo n l i

5、 n ed o c u m e n t s T e x ti n 稻n n a t i o nr e t r i e v a ii sat a s kt h a ti n v o l v e sf i n d i n gm o r er e l e v a n td o c u m e n t sf o rau s e rq u e r yi nac o l l e c t i o no fd o c u m e n t s T h ea l g o r i t h mo f i n f o r m a t i o nr e t r i e v a li sm a i n t ys t u d

6、 i e db a s e do nw e bi nt h ep a p e rF i r s t l y ,t h ed e v e l o p m e n ta n dt e c h n o l o g yi si n t r o d u c e dr e g a r d i n gt h ei n f o r m a t i o nr e t r i e v a lb r i e f l yi nt h ep a p e r ;B a s e do nt h i s ,t h ec o n t e n t b a s e da l g o r i t h m ,t h el i n k

7、- b a s e da l g o r i t h ma n df u s i o n - b a s e da l g o r i t h ma b o u tt h ei n f o r m a t i o nr e t r i e v a la r ea n a t y z e d I no r d e rt oa v o i dl o wr e c a l li nc o n t e n t b a s e dr e t r i o v a la n dt o p i cd r i f tc h a r a c t e r i s t i ci nh y p e r l i n k

8、s b a s e dr e t r i e v a l ,a n e wa l g o r i t h mb a s e do nh y p e r l i r 盘sa n da n c h o r si sp r o p o s e dw h i c hc o m b i n e st h ec o n t e n t - b a s e dw i t hl i n k b a s e dr e t r i e v a la l g o r i t h m h at h i sa l g o r i t h m ,P a g e R a n kv a l u e sa r ef i r s

9、 t l yc a l c u l a t e df r o mt h el i n k sb e t w e e nt h ew e bp a g e s ,t h e nt h er e l e v a n tw e i g h to f e a c hp a g ec a r lb eg a i n e dc o n s i d e r i n gP a g e R a n ka n dd o c u m e n tc o n t e n t a n dt h e nt h er e t r i e v a lr e s u l t sa r er a n k e d T h ee x

10、p e r i m e n tr e s u l t ss h o wt h a tt h en e v va l g o r i t h mf o rI Rh a sm u c hh i g h e rp r e c i s i o na n dr e c a l l S e c o n d l y i no r d e rt oi m p r o v et h ep r e c i s i o na n dr e d u c et h er e t r i e v a lt i m e ,a b o v et h et r a d i t i o n a lv e c t o rs p a

11、 c em o d e l V S M ) ,a l li n f o r m a t i o nr e t r i e v a la l g o r i t h mi sp u tf o r w a r db a s e do nN l e v e lV S Mi nt h ep a l :I e ri ao r d e rt oi m p r o v et h es i m i l a r i t yo fc o n t e n t ,m e a n w h i l ew h e nt h ei n d e xi se s t a b l i s h e d ;t h ea l g o r

12、 i t h mo fr e d u c i n gn o i s ei nw e bi sm a d eu s eo fi nt h ep a p e r W h e nt h en o i s eo fi r r e t a t i v eo ft o p i ci n f o r m a t i o ni sr e d u c e d t h ee 黼c i e n c yo fe s t a b l i s h i n gi n d e xa n dt h es p e e do fr e t r i e v a la r ei m p r o v e de v i d e n t l

13、 y ,a tt h es a m et i m et h es p a c eo fs t o r a g ei sr e d u c e dg r e a t I y C o m p a r e dw i t ht r a d i t i o n a lV S M ,t h i sn e wa l g o r i t h mr e d u c e st i m ec o m p l e x i t ya n di m p r o v e sp r e c i s i o n T h ee x p e r i m e n tr e s u l t ss h o wt h a tt h en

14、e wa t g o d t h mf o rI Rh a sm u c hh i g h e rp r e c i s i o na n dr e c a l l 。F i n a l l y ,t a k i n ga d v a n t a g eo ft h ei m p r o v e da l g o r i t h m s ,aw e b b a s e dt e x ti n f o r m a t i o ns y s t e mi Si m p l e m e n t e da b o v et h et r a d i t i o n a li n f o r m a t

15、 i o nr e t r i e v a la l g o r i t h m K e yW o r d s :T e x tI n f o r m a t i o nR e t r i e v a l ;V e c t o rS p a c eM o d e l ;L i n kA n a l y s i s ;R e c a l l ;P r e c i s i o n独创性说明作者郑重声明:本硕学位论文是我个人在导爆摆导下进行蛉聚究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其锇单位的

16、学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。大连理工大学硕士学位论文大连理工大学学位论文版权使用授权书本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。作者签名:瘟豆。盏 刷憷各豸磁硌L大连理工大学硕士学位论文1 绪论1 1 研究背景随着I n t e r n e t 的迅速发展、社会信息化的推迸和网络应用的目螽广泛,W e b 已缀成为存取信息的主要平台。它允许任何人、在任何地点、任何时间传撼和获取信息;用户既是信息消费者,又怒信息的生产者。这一机制为信息在全球范围发布和传撩提供了机会,同时也引发了“信息爆炸”。全球用户量最大的搜索引擎G o o g l e 在其网站上标明已索引3 “ 8 1 亿个翮页 1 1

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号