基于XML的跨应用数据匹配及交换方法的研究与实现

上传人:jiups****uk12 文档编号:38343556 上传时间:2018-04-30 格式:PDF 页数:83 大小:2.40MB
返回 下载 相关 举报
基于XML的跨应用数据匹配及交换方法的研究与实现_第1页
第1页 / 共83页
基于XML的跨应用数据匹配及交换方法的研究与实现_第2页
第2页 / 共83页
基于XML的跨应用数据匹配及交换方法的研究与实现_第3页
第3页 / 共83页
基于XML的跨应用数据匹配及交换方法的研究与实现_第4页
第4页 / 共83页
基于XML的跨应用数据匹配及交换方法的研究与实现_第5页
第5页 / 共83页
点击查看更多>>
资源描述

《基于XML的跨应用数据匹配及交换方法的研究与实现》由会员分享,可在线阅读,更多相关《基于XML的跨应用数据匹配及交换方法的研究与实现(83页珍藏版)》请在金锄头文库上搜索。

1、 电 子 科 技 大 学 UNIVERSITY OF ELECTRONIC SCIENCE AND TECHNOLOGY OF CHINA 专业学位硕士学位论文 MASTER THESIS FOR PROFESSIONAL DEGREE 论文题目 基于 XML 的跨应用数据匹配及交换方法的研究与实现 专业学位类别 工 程 硕 士 学 号 201122060516 作 者 姓 名 于善龙 指 导 教 师 罗光春 教 授 分类号 密级 公 开 UDC注1 学 位 论 文 基于 XML 的跨应用数据匹配及交换方法的研究与实现 (题名和副题名) 于善龙 (作者姓名) 指导教师 罗光春 教 授 电子科技

2、大学 成 都 (姓名、职称、单位名称) 申请学位级别 硕士 专业学位类别 工 程 硕 士 工程领域名称 计算机技术 提交论文日期 2014 年 3 月 论文答辩日期 2014 年 5 月 学位授予单位和日期 电子科技大学 2014 年 6 月 答辩委员会主席 评阅人 注 1:注明国际十进分类法 UDC的类号。 RESEARCH AND IMPLEMENTATION OF MACTHING AND EXCHANGING OF CROSS-APPLICATION DATA BASED ON XML A Master Thesis Submitted to University of Electro

3、nic Science and Technology of China Major: Computer Technology Author: YuShanlong Advisor: Professor LuoGuangchun School : School of Computer Science 2:foreachforeach CClass O dodo :CVVn and :ClblnC 3:foreachforeach PProperty O dodo 4: :PVVn and :vPlblnP Let CDomain P; 5: ifif P is an object propert

4、y thenthen 6: :,CPnn and ,: refvCPlblnn; 7: Let CRange P; 8: :,nPPn and ,: refPClbln n; 9: else if else if P is a data property thenthen 10: :,CPnn and ,: valueCPlblnn 11:returnreturn G . 算法 3-2 关系模式构建 RS2O 图 关系模式构建 RS2O 图 第三章 一种通用的关系模式到本体的映射算法 27 输入: 关系数据库模式 R 输出: RS2O 图 , ,vGV lbllbl 1:Let ,vVlbll

5、bl; 2:foreachforeach table T in R dodo 3: :TVVn and :vTlblnT; 4: foreachforeach columnC in R dodo 5: :CVVn and :vClblnC; 6: :,TCn n and ,: valueCPlblnn 7: ifif C has a foreign key K to some table Tthenthen 8: :KVVn and :vKlblnK; 9: :,TKn n and ,: refTKlbln n 10: :,KTnn and ,: refKTlblnn 11:returnret

6、urn G. 图 3-7 表示了将以上两个算法对应到本体 O 和关系模式 R 之后的结果。O 和R 使用不同的模式元素,描述了相同的实体 Directors 和 Movies。 3.5 RS2O 系统实现 RS2O系统的输入是用RS2O图模型表示的源和目标模式,比如前面给出的例子。为了后续的实验结果对比,RS2O 系统的映射计算过程使用了两种实现,一种为 SF 实现,一种为 RS2O 实现。在 SF 实现中 RS2O 系统是用原始的 SF 算法来进行映射计算,其中输入为用RS2O图模型表示的本体和关系模式。RS2O实现中将用户的反馈加入到映射建议的排序列表当中,对反复执行映射建议排序列表的重排

7、,从而得到更好的映射建议。 电子科技大学硕士学位论文 28 DirectorClassObject PropertyDirectordirectsMoviehasTitleData PropertyOntology ODirectordirectsMoviehasTitledirector PK title director FK MovieDirectordirector FKMovieDirector PKdirector FKhasTitleRelational Schema RsubclassOfsubclassOfsubclassOfsubclassOfdomaindomainran

8、gerefref valrefrefvalvalvalRS2O图模型(O)RS2O图模型(R)图 3-7 RS2O 图模型构建过程 3.5.1 SF 实现 上面已经介绍过 SF 实现中,只是简单地使用 SF 算法对两个输入模式进行计算。第一步,RS2O 使用初始语义匹配生成 PCG,其中的匹配器是可以通过配置替换的。 此外,原始SF算法中IPG的传播系数是在图构建的过程中确定的,本实现中的传播系数可以计算多次。因此,这里提出一种新的边权值计算思想,如果一个边两端的映射对都具有相对较高的相似度,那么它应该比一端的相似度较高一端的相似度较低的边,更能体现结构上的相似性。下面举例说明,假设在 IPG

9、 图中有一条边l,两个端点分别为1n和2n,有向边表示为12,en n,那么现在有两种方法计算边的权值 e: 原 始权值算法7: 1leout,其中lout为具有相同标记l的边数 (3-3) 改进的正规化权值算法: 12lescore nscore nout (3-4) 3.5.2 RS2O 实现 本实现通过对每轮迭代过程中施加用户反馈,来提高后续迭代中映射建议的质量。原始的SF中虽然提到了这种改进的可能性,但是至今没有被实现。由上述思想很容易想到用户反馈如何体现在 IPG 中,但是如何定义用户反馈的影响,并且在图的计算过程中实现它却并不容易。本文针对最显而易见的反馈利用方式,提出改进,即用户

10、接受或拒绝映射建议的这种反馈方式。本文提出三种不同的方法在图计算过程中体现用户反馈。 第三章 一种通用的关系模式到本体的映射算法 29 方法一,当用户接受一个映射建议时,设该映射对的相似度为 1,当用户拒绝一个映射建议时,设该映射对的相似度为 0,然后重新进行计算。这个方法存在的问题是如果第一次进行不动点计算时,映射对的相似变化很大,这种影响将会很小。 方法二,为了解决方法一中的问题,确保用户反馈能够在不动点计算中发挥足够的影响,方法二在每一次不动点计算正规化后都对接受和拒绝的映射对重新进行一次初始化。这样节点能够在每步计算过程中都明确地影响它的邻居节点。然而,随着不动点计算,图中大部分节点的

11、相似度的下降,相似度较高的节点对后续的不动点计算影响越来越大,这就有可能使得一个被接受的匹配将它不匹配的邻居的相似度意外地提高。 方法三,为了防止以上两种方法中出现的情况,我们希望能够平衡用户反馈对不动点计算的影响。因此,方法三不直接改变节点的相似度,而是在 IPG 中加入额外节点。这个额外的节点始终保持不变,确保能够对后续的不动点计算施加持续的影响。 3.6 RS2O 系统分析 RS2O 系统的主要目的是减少构建关系模式与本体映射过程中的手工劳动,匹配建议只有在被某个用户验证为有效时才会被应用。因此,有两个相应的评价方法:一种是能被 RS2O 表示的映射占参照映射的百分比,后文介绍采用的实验

12、数据时会给出相应百分比。特定的复杂映射不能用 RS2O 来表示,这种复杂的映射在本文后续的实验数据中比例较低。另一种是用户用来将系统给出的映射修改为正确映射过程中所花费的工作量。后文主要使用第二种方法来评估系统。 3.6.1 评估数据 为了评估 RS2O 系统的通用可行性,这里使用两个完全不同的场景来评估RS2O 系统,此外,为了表现出不同情况下系统的优势,这里也说明了模块参数对不同场景的影响。 IMDB 和 Movie 本体 第一个场景我们用著名的电影数据库 IMDB 到 Movie 本体39的映射结果来评估系统。其中数据库关系模式中包含 27 个外键和 21 张表,如图 3-8 所示。本体

13、中包含 21 个类中的 27 个显示建模的对象属性,如图 3-9 所示,在结构复杂性和模式大小上来说,两个模式是比较相当的。这个场景下所使用的参照映射是由 ontop 团队创建的。我们从参照映射中抽取了全部 73 个对应关系,其中有 65 个能够用 RS2O 来表示映射建议。能够表示的对应关系达到了电子科技大学硕士学位论文 30 89%。 图 3-8 IMDB database 图 3-9 movie 本体 Music Brainz 和 Music 本体 第二个场景是从 Music Brainz 数据库到 Music 本体40。其中数据库关系模式中包含 271 个外键和 149 张表,本体中包

14、含 100 个类中的 169 显示建模的对象属性,两个模式的体积都比前一个场景要大得多。这个场景下使用的参照映射是由EUCLID项目开发的。参照映射中的48个对应关系有2 个不能被 RS2O 表示映射建议。能够表示的对应关系达到了 95.8%。 这里为了后续初始化图中节点相似度的方便,关系数据库模式及本体中的元第三章 一种通用的关系模式到本体的映射算法 31 素在保持原有结构和语义的前提下,经过了一定的处理。本实验中使用已有对应关系及程序来模拟用户反馈过程。 3.6.2 评估方法 前文提到了对系统进行评估的另一指标是修正系统给出的映射建议所花费的代价的大小。用户的反馈过程总是需要修正系统给出的映射建议的,这其中花费的代价是一个独特的质量衡量指标。这里我们假设用户一个接一个地验证映射建议,验证过程中要么接受,要么拒绝,我们进一步假设每一个验证过程完全相同,花费相同的代价validatew。这样来说从映射建议列表中找到任何一个正确的概念对应所花费的代价都为validatew。RS2O 通过与用户交互来提高匹配的最终正确率,所以这种设计是符合用户实际的。 3.6.3 实验结果 实验一中,分别将关系模式和本体输

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号