Deep Web数据源发现和语义标注技术研究

上传人:lizhe****0001 文档编号:36903107 上传时间:2018-04-04 格式:PDF 页数:60 大小:6.51MB
返回 下载 相关 举报
Deep Web数据源发现和语义标注技术研究_第1页
第1页 / 共60页
Deep Web数据源发现和语义标注技术研究_第2页
第2页 / 共60页
Deep Web数据源发现和语义标注技术研究_第3页
第3页 / 共60页
Deep Web数据源发现和语义标注技术研究_第4页
第4页 / 共60页
Deep Web数据源发现和语义标注技术研究_第5页
第5页 / 共60页
点击查看更多>>
资源描述

《Deep Web数据源发现和语义标注技术研究》由会员分享,可在线阅读,更多相关《Deep Web数据源发现和语义标注技术研究(60页珍藏版)》请在金锄头文库上搜索。

1、苏州大学硕士学位论文Deep Web数据源发现和语义标注技术研究姓名:李文骏申请学位级别:硕士专业:计算机应用技术指导教师:崔志明20080401A b s t r a c tT h eR e s e a r c ho nT e c h n o l o g yo fD e e pW e bS o u r c eD i s c o v e r ya n dS e m a n t i cA n n o t a t i o nA b s t r a c tW i t ht h er a p i dd e v e l o p m e n to fI n t e m e tt e c h n o l o

2、 g y , W e bd a t a b a s e sh a v eb e c a m ep r e v a l e n to nt h eW e b B a s e do nu s e r Sr e q u e s t ,W e bd a t a b a s e sd i s p l a yt h e i rc o n t e n t si nt h ef o r mo fH T M Lp a g e sd y n a m i c a l l y T h ew h o l ei n f o r m a t i o ne m b e d d e di nt h e s ep a g e s

3、c a l l e da sD e e pW e bc a l ln o tb ea c q u i r e db yt r a d i t i o n a ls e a r c he n g i n e s R e c e n t l y ,t h er e s e a r c hr e s u l t ss h o wt h a tD e e pW e bc o n t a i n sag r e a ta m o u n to fi n f o r m a t i o nw h i c hi sh i g h l yr e l e v a n tt om a r k e td e m a

4、 n d T h e r e f o r eD e e pW e bs e r v e da sar e s e a r c he m p h a s i sh a sb e e np a i dm o r ea n dm o r ea t t e n t i o n T h i sp a p e rf i r s t l yd e s c r i b e st h er e s e a r c hf r a m e w o r ko fD e e pW e b ,t h e nf o c u s e so nt e c h n o l o g yo fD e e pW e bs o u r

5、c ed i s c o v e r ya n dD e e pW e bs e m a n t i ca n n o t a t i o n I na d d i t i o n ,w ep r o p o s er e l e v a n ta l g o r i t h ma n dm o d e l F i n a l l y , av e r t i c a ls e a r c hp r o t o t y p es y s t e mf o rb o o kd o m a i ni sp r e s e n t e da n da c c o m p l i s h e d T

6、h em a i nw o r k so f t h i sp a p e ri n c l u d e :( 1 ) I n t r o d u c et h eb a s i sf r a m e w o r ko fD e e pW e br e s e a r c h ,t h e ns u m m a r i z et h ep r o b l e mo fD e e pW e bd a t a b a s ec l a s s i f i c a t i o na n dW e bd a t ae x t r a c t i o n ( 2 ) A n a l y z e ,t h

7、 ew o r k i n gp r i n c i p l eo ft r a d i t i o n a ls e a r c he n g i n ea n dp r o p o s ean e wa p p r o a c ho fD e e pW e bs o u r c ed i s c o v e r yb a s e d0 1 1s e a r c he n g i n e ( 3 ) P r o p o s ean o v e la p p r o a c ho fD e e pW e bs e m a n t i ca n n o t a t i o na c c o r

8、d i n gt ot h ei n s p i r a t i o nf r o mf o r e i g nr e l a t e dw o r k ( 4 ) A c c o m p l i s hav e r t i c a ls e a r c hp r o t o t y p es y s t e mf o rb o o kd o m a i na n da n a l y z et h ea p p l i c a t i o no ft h et e c h n o l o g ym e n t i o n e db e f o r e T h i sp a p e ra l

9、s od e s i g n se x p e r i m e n t st oi m p l e m e n tt h ea l g o r i t h m sa n dt e c h n o l o g ym e n t i o n e d E x p e r i m e n t a lr e s u l t sv a l i d a t et h a to u rs o l u t i o ni se f f e c t i v e K e y w o r d s :D e e pW e b ,S e a r c hE n g i n e ,S o u r c eD i s c o v

10、e r y , S e m a n t i cA n n o t a t i o n ,D a t aI n t e g r a t i o nW r i t t e nb y :L iW e n j u nS u p e r v i s e db y :C u iZ h i - m i n gl I图表目录图1 1D e e pW e b 与S u r f a c eW e b 对比2图2 1W e b 数据库在主题领域的分布情况8 图2 2 模式间的映射关系9图2 3D e e pW e b 数据集成系统框架1 0 图3 1 传统搜索引擎的工作流程2 0 图3 2 数据源发现的设计流程2

11、2 图3 3 查博士分类目录2 4 图3 4 网页表单自动分类过程2 5图4 1 查询返回结果2 9图4 2 交叉标注示例3 2图4 3 交叉标注过程3 3 图4 4 标注标注算法3 6 图5 1 图书搜索引擎的界面3 9 图5 2 图书搜索引擎的系统架构3 9 图5 3 图书搜索引擎的工作流程4 0图5 4 图书信息的标注过程4 l图5 5 聚焦爬虫的工作流程4 2 图5 6 对象数据抽取模块的工作流程4 3图5 7 信息检索模块的结构4 4 图6 1 查询扩展前后结果比较4 7表2 1D e e pW e b 的规模8 表2 2 主要分类目录的覆盖范围9表6 一l 页面分类结果4 6 表6

12、 2 小说领域词频统计结果4 6 表6 3 服装领域词频统计结果4 6表6 4 法律领域词频统计结果4 6表6 5 最优权值和阈值4 8 表6 6 使用最优值的测试结果4 8表6 7 标注的性能对比4 9苏州大学学位论文独创性声明及使用授权的声明学位论文独创性声明本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律责任。研究生签名:鸯交骏日学位

13、论文使用授权声明期砂b 庐F 西苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。研究生签名:杏表骏日南:加。r 、f 2 艿导师签名D e e pW e b 数据源发现和语义标注技术研究第l 章引言第1 章引言1 1 问题的提出一白1 9 8 3 年因特网正式诞生以来,I n t

14、e m e t 就从未放缓其发展的脚步。随着超文本标记语言( H 7 刑L ) 技术的出现,w w W 服务使用户浏览和共享信息资源的手段变得非常简便。不过,由于早期的H T M L 网页都是静态生成的,在表现形式上缺乏动态性,并且由这些H T M L 页面所构成的W e b 站点也不具备与用户间交互的能力,因此在这种背景下,产生了动态网页技术和W e b 数据库技术。这些技术的产生,使得I n t e r n e t 承载的信息增长迅速。随着W e b 信息量的不断扩大,W e b 数据库得到了广泛应用。据统计,以数据库为载体的网站数量正沿着指数级的速度在增长【1 1 ,这些网站能够根据用户的需求,将后台数据库中的内容以H T M L 网页的形式动态呈现出来。由于嵌入数据库信息的网页不具有静态U R L ,因此普通搜索引擎无法直接索引到这部分页面信息,使得这部分信息对于用户来说是隐藏的,我们称之为D e e

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号