基于领域知识的网页提取系统设计与实现

上传人:jiups****uk12 文档编号:40628290 上传时间:2018-05-26 格式:PDF 页数:59 大小:1.65MB
返回 下载 相关 举报
基于领域知识的网页提取系统设计与实现_第1页
第1页 / 共59页
基于领域知识的网页提取系统设计与实现_第2页
第2页 / 共59页
基于领域知识的网页提取系统设计与实现_第3页
第3页 / 共59页
基于领域知识的网页提取系统设计与实现_第4页
第4页 / 共59页
基于领域知识的网页提取系统设计与实现_第5页
第5页 / 共59页
点击查看更多>>
资源描述

《基于领域知识的网页提取系统设计与实现》由会员分享,可在线阅读,更多相关《基于领域知识的网页提取系统设计与实现(59页珍藏版)》请在金锄头文库上搜索。

1、大连理工大学硕士学位论文基于领域知识的网页提取系统设计与实现姓名:曲红申请学位级别:硕士专业:软件工程指导教师:周宽久20060617大连理工大学专业学位硕士学位论文摘要国际互联网是一个巨大的知识宝藏,基于互联网的信息搜索是目前研究的热点,出现象Y a h o o ,G o o g l e ,B a i d u 等著名的网络搜索引擎,他们支持用户利用关键字搜索相关网页,由于网络搜索引擎要面对广泛的知识领域,因此针对某一领域如信息领域由于没有足够的背景知识,导致检索到大量无关的网页,具有较大相关性的网页又很少,因此研究设计针对某一具体领域的网页获取系统有一定的理论意义和应用价值。本文针对目前著名

2、的网络搜索引擎存在的不足,提出基于领域知识的网页采集模型框架,并设计一个实际系统,并将该系统应用于计算机领域的信息检索即用户输入关键字,检索系统根据背景知识生成一系列的关键字,再根据新生成的关键字进行搜索,将搜索结果存入数据库,供用户查询。本文的主要工作概括为以下几点:提出基于背景知识进行网页检索,利用谓词逻辑表示背景知识;输入关键字,利用背景知识生成一系列关键字;采集器的集成;将采集到的网页保存到M y S Q L 数据库中供用户查询;网页相关性判断。本文首先综述了网页信息采集的基本结构及国内外发展状况,提出关键字与文本的映射、U R L 过滤,相似度等相关算法,并应用于一个实际系统之中。该

3、系统分四个模块,即关键字模块,U R L 过滤模块数据库,采集模块。关键字模块包括领域背景的建立,多关键字的检索,文本映射问题;U R L 过滤模块包括文本中包含的U R L 链接过滤判定,排序:数据库包括了领域背景关键字本体的存储,文本及文本中链接的存储:采集部分介绍采集器的工作原理。最后,通过实验进行系统性能测试以及相关性的计算方法测试,对系统运行效率等进行考察,实验结果证明了模型及系统的有效性。关键字:信息采集:本体;谓词逻辑:相似度:蜘蛛基于领域知识的网页提取系统设计与实现D e s ;i g na n dI m p l e m e n t a t i o no fD o m a i

4、nK n o w l e d g eb a s e dW e bP a g e sA b s t r a c t i o nS y s t e mA b s t r a c tT h eI n t c m e ti sah u g ea n dw i d ek n o w l e d g et h e s a u r u s N o w a d a y s ,i n f o r m a t i o ns e a r c hb a s e do nt h eI n t e m e th a sb e c o m eh o t s p o t ,a n ds o m es e a r c he n

5、 g i n e sa r eu s e dt os a t i s f yp e o p l esn e e d s ,s u c ha sY a h o o ,G o o g l e ,a n dB a i d u A l lo ft h e mu s ek e y w o r d st os e a r c hp r o p e rw e bp a g e s I nf r o n to fw i d ek n o w l e d g ea r e a , d u et ot h i sw i d e n e s sa n dl a c ko fe n o u g hd o m a i

6、nb a c k g r o u n dk n o w l e d g e ,s e a r c he n g i n e sb r i n gm o r eu n r e l a t e dw e bp a g e sd u r i n gp r o c e s so fs e a r c h e s T h i sp a p e rd e s i g n sW e bP a g e sA b s t r a c t i o nS y s t e mb a s e do ns o m es p e c i f i cf i e l d ,h a v i n gs i g n i f i c

7、a n ts e n s ea n da p p l i e dV 甜u e As y s t e mi sd e s i g n e db yW e bP a g e sA b s t r a c t i o nm o d e lf r a m e w o r k ,a n di sa p p l i e dt oc o m p u t e rf i e l di n f o r m a t i o ns e a r c h T h a ti s ,u s e r sp u tk e y w o r d si n ,s y s t e mc r e a t e sas e r i e so

8、fk e y w o r d sa c c o r d i n gt od o m m nb a c k g r o u n dk n o w l e d g e ,t h e ns e a r c h e st h e s en e w l y - c o m i n gk e y w o r d s ,s a v e sr e s u l t s ,p r o v i d e st h er e s u l t sf o ru s e r s T h eg e n e r a ls t e p so fb u i l d i n gs u c hs y s t e ma r ei n l

9、r o d u c e d :U s ep r e d i c a t e1 0 9 i ct oe x p r e s sb a c k g r o u n dk n o w l e d g ea n da p p l yt ow e bp a g e ss e a r c h P u Ik e y w o r d si n u s eo n t o l o g yc r e a t eas e r i e so fb a c k g r o u n dk e y w o r d s I n t e g r a t es p i d e rS a v es p i d c r e dw e

10、bp a g e st oM y S Q L ,p r o v i d ef o ru s e r s 、i n q u i r y E s t i m a t es i m i l a r i t yo fc o l l e c t i v e dw e bp a g e s A no v c n r i e wo f r e s e a r c ho f W e bI n f o r m a t i o nC r a w i e rb o t hh o m ea n da b r o a di sg i v e nf i r s t T h e ns o m ea l g o r i t

11、h m ,s u c ha st e x tm a p p m g ,U R Lf i l t r a t i n g ,a n ds i m i l a r i t y ,a p p l i e st oap r a c t i c a ls y s t e m F o u rm o d m e sa r ek e y w o r dm o d u I e ,U R Lf i l t r a t i n gm o d u l e ,d a t a b a s e ,s p i d e rp a r t K e y w o r dm o d d ec o n t a i n ss e t t

12、i n gu po ff i e l db a c k g r o u n d ,m o r et h a no n ek e y w o r d ss e a r c h i n g ,t e x tm a p p m g ;U R Lf i l t r a t i n gm o d u l ec o n t a i n sU R Ll i n k sf i l t r a t i n go ft e x t s ,a n do r d e r i n gp r o b l e m D a m b a s ec o n t a i n sb a c k g r o u n do n t o

13、l o g yk e y w o r d ss a v i n g ,t e x t ss a v i n g ,l i n k ss a v i n g ;S p i d e rp a r ti n t r o d u c et h e o r yo fs p i d e r F i n a l l y ,e x p e r i m e n ti sd e s i g n e dt ov e r i f ys y s t e mc a p a b i l i t ya n ds i m i l a r i t ya l g o r i t h m ,c h e c k st h es y s

14、 t e me f f i c i e n c y E x p e r i m e n t a lr e s u l t sp r o v e 血a tm o d u l ea n ds y s t e ma r ef e a s i b l e K e yW o r d s :I n f o r m a t i o nR e t r i e v a l ;O n t o l o g y ;P r e d i c a t el o g i c :S i m i l a r i t y :S p i d e r独创性说明作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成

15、果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。作者签名:、堑纪日期:冱! :! :兰L大连理工大学专业学位硕士学位论文大连理工大学学位论文版权使用授权书本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也

16、可采用影印、缩印或扫描等复制手段保存和汇编学位论文。作者签名:导师签名澎缸蜀查公上五年月丑日大连理工大学专业学位硕士学位论文1 绪论1 1 课题背景随着I n t e r 兀e t I n t r a n e t 的迅速发展,网络正深刻地改变着我们的生活。而在网上发展最为迅猛的w w w 技术,以其直观、方便的使用方式和丰富的表达能力,己逐渐成为I n t e r n e t 上最重要的信息发布和传输方式。截止N 2 0 0 5 年7 月,I n t e r n e t 上的网页数量就已经超过2 1 亿,上网用户超过3 亿,而且网页还在以每天7 0 0 万的速度增加。这给人们的生活提供了丰富的资源。然而,W e b 信息的急速膨胀,在给人们提供丰富信息的同时,又使人们在对它们的有效使用方面面幅一个巨大的挑战。一方面网上的信息多种多样、丰富多彩而另一方面用户却找不到他们所需要的信息。因而基于W W w 的网上信息的采集、发柿和相关的信息处理日益成为人们关注的焦点。为此,人们发展了以W e b 搜索引擎为主的检索服务。为了解决网上信

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号