deep web数据集成若干关键技术研究及系统原型实现_硕士论文答辩

资源描述

《deep web数据集成若干关键技术研究及系统原型实现_硕士论文答辩》由会员分享，可在线阅读，更多相关《deep web数据集成若干关键技术研究及系统原型实现_硕士论文答辩（56页珍藏版）》请在金锄头文库上搜索。

1、<p><p>Deep Web数据集成若干关键技术研究及系统原型实现导师：XXX 作者：XXXX ?Deep Web ?选题背景大数据（Big Data）时代的到来 2012年7月份，美国Brightplanet公司在白皮书Exploiting Big Data from the Deep Web中指出，大数据(Big Data)无处不在，每时每刻有204,166,667封邮件在发送，有571个新网页生成等等。全球互联网数据量以40%的速度在增长，在未来的5年将到达现在的800% 。其中绝大部分来自于Deep Web 。爆炸式的Web信息含量英

2、国著名网络咨询收集和数据统计机构Netcraft公司于2012年7月份的统计，目前全球互联网上约有698,000,000个站点，是2010年1月份统计的3倍多。中国互联网信息中心(CNNIC)于2012年7月发布第30次中国互联网络发展状况统计报告显示，截至2012年6月底，中国域名总数为873万个，网站数量为250万个，网页总数约为870亿是2006年(45亿)数目的19倍。 Deep Web信息比Surface Web更丰富从 Brightplanet公司对Deep Web做较为全面的宏观统计中，悉知Deep Web所蕴含的信息量是Surface Web的400550倍左右，月

3、平均访问量要高出Surface Web的15% ，信息质量是Surface Web的1000到2000倍。 ?选题意义研究Deep Web数据集成系统相关技术，丰富该领域理论知识；深入研究若干关键技术，提出相关问题的有效解决方法或改进；结合相关技术，实现Deep Web数据集成原型系统，为对Deep Web数据集成研究的进一步探索和应用提供参考。 ?研究现状研究机构研究项项目集成系统统接口识别识别接口集成结结果实现实现华华盛顿顿大学ShopBot 伊利诺诺斯大学 MetaQuerier 斯坦福大学HiWE 哥伦伦比亚亚大学Qprober 微软亚软亚洲研究院第三代搜索引擎人民

4、大学JobTong 苏苏州大学DeepWeb数据集成 BrightPlanet公司Deep Web数据集成系统统一些网站则建立了面向特定领域Deep Web的专用搜索引擎。如去哪网的机票、酒店等查询，一找网的商品比价等，但是估计由于商业秘密的限制，相关的技术并没有在公开的资料中阐述。 ?论文所作工作及贡献研究一种快速Web数据库发现的策略；提出了一种基于DOM的Deep Web查询接口模式抽取方法；提出了一种基于接口文本VSM的Deep Web数据源分类方法；设计一种基于正则表达式的结果数据抽取方法；设计并实现了一个面向Deep Web的数据集成原型系统； ?论文

5、结构绪论 1 Deep Web数据集成研究相关概述 2 Web数据库快速发现策略研究 3 基于DOM的Deep Web查询接口模式抽取 4 基于接口文本VSM的Web数据库分类 5 基于正则表达式的Deep Web结果数据抽取 6 Deep Web数据集成原型系统实现 7 总结与展望 8 Deep Web数据集成研究相关概述 2 Web按其蕴涵信息的“深度”可以划分为Surface Web和Deep Web两大部分。 Deep Web描述： Deep Web数据集成研究相关概述 2 Deep Web数据集成描述： Deep Web数据集成研究相关概述 2 视图视图数据库数据库局部模

6、式局部模式全局模式（中间模式）集成 Deep Web数据集成研究相关概述 2 绪论 1 Deep Web数据集成研究相关概述 2 Web数据库快速发现策略研究 3 基于DOM的Deep Web查询接口模式抽取 4 基于接口文本VSM的Web数据库分类 5 基于正则表达式的Deep Web结果数据抽取 6 Deep Web数据集成原型系统实现 7 总结与展望 8 Web数据库快速发现策略研究 3 uWeb数据库发现步骤 1）发现Web数据库网站，定位。 2）从网站中发现查询接口，识别Web数据库入口。 u基于搜索引擎的Web数据库定位利用现有搜索引擎，使用一组能描述特定领域Web数据

7、库特征的词汇当作检索关键词进行搜索提交，从搜索的网页记录页面中提取目标网站链接，定位到相关 Web数据库所在的网站。 u基于规则的Deep Web查询接口识别通过对大量Deep Web查询接口与非Deep Web查询接口表单的观察，参考一些文献总结出的规则，深入分析Deep Web查询接口与非Deep Web查询接口表单固有特点和区别，结合实际情况，提出一些Deep Web查询接口的识别规则，并基于规则设计识别算法。 Web数据库快速发现策略研究 3 Web数据库快速发现策略研究 3 判定规则： Web数据库快速发现策略研究 3 绪论 1 Deep Web数据集成研究相关概述 2

8、Web数据库快速发现策略研究 3 基于DOM的Deep Web查询接口模式抽取 4 基于接口文本VSM的Web数据库分类 5 基于正则表达式的Deep Web结果数据抽取 6 Deep Web数据集成原型系统实现 7 总结与展望 8 基于DOM的Deep Web查询接口模式抽取 4 u查询接口模式查询接口模式可以被看作是建立在对应于Web数据库上的一个视图，主要由一组领域相关的属性集合组成，通过对查询接口上的若干属性进行赋值形成对接口后台数据库的一个查询。基于DOM的Deep Web查询接口模式抽取 4 u基于DOM的查询接口模式抽取查询接口一般是HTML的Form表单，其在浏览器中

9、也被解析为DOM。基于DOM的Deep Web查询接口模式抽取 4 u基于DOM的查询接口模式抽取模式抽取流程。基于DOM的Deep Web查询接口模式抽取 4 u元素级抽取元素 = 标签文本查询控件 u元素级抽取算法基于DOM的Deep Web查询接口模式抽取 4 1）DOM节点解析的有序性； 2）查询控件内部属性值与标签文本的语义相似性。基于DOM的Deep Web查询接口模式抽取 4 u属性级抽取预聚类：根据元素的路径来实现聚类的。即以接口元素的元素路径所包含的分歧路径信息作为依据，把拥有相同分歧路径的元素聚集到相同的归类中，于此同时，通过预聚类也把两个元素路径中

10、所包含不相同分歧路径的元素分开。再聚类：充分利用构成属性的元素之间所具有的特点，提出了一个元素组合权值公式GroupWeight ，根据GroupWeight权值来实现元素聚类重组成属性。 u属性级抽取，预聚类算法与再聚类算法基于DOM的Deep Web查询接口模式抽取 4 基于DOM的Deep Web查询接口模式抽取 4 u查询接口模式表示基于DOM的Deep Web查询接口模式抽取 4 u实现结果绪论 1 Deep Web数据集成研究相关概述 2 Web数据库快速发现策略研究 3 基于DOM的Deep Web查询接口模式抽取 4 基于接口文本VSM的Web数据库分类 5 基于正

11、则表达式的Deep Web结果数据抽取 6 Deep Web数据集成原型系统实现 7 总结与展望 8 基于接口文本VSM的Web数据库分类 5 uWeb数据库分类定义设有Web数据库集合：对其进行分类： BrightPlanet根据Deep Web的内容类型分为：主题数据库(Topic DataBase)、内部站点(Internal Site)、出版物 (publications)等12种类别。 UIUC大学的MetaQuery的数据集TEL-81，并将Web数据库分为：航班(Airfares)、酒店(Hotels)、租车(Car Rentals)、图书(Books)、电影(Movi

12、es)、音乐(Music)以及工作(Jobs)和汽车(Automobile)等8个领域。基于接口文本VSM的Web数据库分类 5 uVSM模型构建关键词汇集：关键词汇集是指在某一个领域查询接口集合上频繁出现的、最能代表该领域信息的一组词汇。基于接口文本VSM的Web数据库分类 5 uVSM模型构建向量空间模型：常用的文本表示方法。权重值计算方法： TF-IDF权重函数、TF-IWF权重函数。基于接口文本VSM的Web数据库分类 5 uVSM模型构建 uVSM模型构建基于接口文本VSM的Web数据库分类 5 接口文本VSM：抽取接口文本，构建VSM模型。基于接口文本VSM

13、的Web数据库分类 5 u查询接口分类实现分类思想： 1）使用已标记的查询接口文本VSM中的数据作为训练数据集，构建区分查询接口领域类别的分类模型； 2）根据获得的分类模型，对未知的查询接口对象进行分类。分类实现：引入数据挖掘工具，使用数据挖掘分类算法可实现对查询接口的分类。基于接口文本VSM的Web数据库分类 5 u实验结果绪论 1 Deep Web数据集成研究相关概述 2 Web数据库快速发现策略研究 3 基于DOM的Deep Web查询接口模式抽取 4 基于接口文本VSM的Web数据库分类 5 基于正则表达式的Deep Web结果数据抽取 6 Deep Web数据集成原型系统

14、实现 7 总结与展望 8 基于正则表达式的Deep Web结果数据抽取 6 u结果数据正则表达式正则表达式：结果数据正则表达式：描述航班号基于正则表达式的Deep Web结果数据抽取 6 u结构数据模式构建自动化或人工构建结果模式：航班查询领域查询结果中包含了一些相同的属性，如航班号、起飞时间、到达时间、机型、价格等基于正则表达式的Deep Web结果数据抽取 6 u结果数据区域定位 u结果数据区域定位基于正则表达式的Deep Web结果数据抽取 6 公共路径选举算法：设有元素路径集合：公共路径选举算法思想：设有n个投票人，它们也可以是候选人（即可以自选），其中，

15、假设在投票中，有m个成为最终候选人，从m个候选人中选定得票最多者为目标人选，但该目标人选的得票数c必须不小于此次候选人m。基于正则表达式的Deep Web结果数据抽取 6 u结果数据区域定位公共路径选举算法：基于正则表达式的Deep Web结果数据抽取 6 u结果记录分离抽取如关系数据库表有主键一样，Deep Web的结果数据记录中也存在着唯一的、值不重复的关键字段，例如，航班机票查询领域返回的结果数据中的航班号是唯一的、不重复的。通过关键数据项获取数据区域中的分歧路径集合，每一条分歧路径可以把结果数据区域中的记录区分开，分开抽取每条记录的Html片段实现数据记录的分离抽取。基于正则表达式的Deep Web结果数据抽取 6 u结果数据标注与抽取基于正则表达式的Deep Web结果数据抽取 6 u结果保存绪论 1 Deep Web数据集成研究相关概述 2 Web数据库快速发现策略研究 3 基于接口文本VSM的Web数据库分类 5 基于正则表达式的Deep Web结果数据抽取 6 Deep Web数据集成原型系统实现 7 基于DOM的Deep Web查询接口模式抽取 4 总结与展望 8 Deep Web数据集成原</p></p>

展开阅读全文