XML模式匹配方法研究

上传人:jiups****uk12 文档编号:47017828 上传时间:2018-06-29 格式:PDF 页数:52 大小:215.92KB
返回 下载 相关 举报
XML模式匹配方法研究_第1页
第1页 / 共52页
XML模式匹配方法研究_第2页
第2页 / 共52页
XML模式匹配方法研究_第3页
第3页 / 共52页
XML模式匹配方法研究_第4页
第4页 / 共52页
XML模式匹配方法研究_第5页
第5页 / 共52页
点击查看更多>>
资源描述

《XML模式匹配方法研究》由会员分享,可在线阅读,更多相关《XML模式匹配方法研究(52页珍藏版)》请在金锄头文库上搜索。

1、华中科技大学硕士学位论文XML模式匹配方法研究姓名:金贤哲申请学位级别:硕士专业:计算机应用技术指导教师:李瑞轩20080605华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 I摘摘 要要 随着 XML(eXtended Markup Language 扩展标记语言)技术的快速发展,越来越多的数据使用 XML 进行表示,XML 已经逐渐成为 Web 上数据表示和交换的标准。 在电子商务等的应用中,参与交易的两者都遵守相同的模式规范,那么它们之间就容易实现资源共享与信息集成。 目前大量 XML 的应用面临着模式不一致的问题,这就需要对于两个输入模式

2、,找到它们相关元素间的匹配关系,然后根据映射关系进行转换。 首先对模式匹配方法进行了研究,并分析了己有模式匹配方法的基础上,给出一种 XML 模式匹配算法,然后针对异构 XML 文档的转换,给出了一种利用 XML 模式匹配算法实现异构 XML 文档间转换的解决方案。 算法通过两部分来判断元素的相似性,即元素相似性和上下文相似性。 本文主要针对上下文相似性计算方法进行了改进。 匹配过程分两个部分, 首先计算两个 XML模式元素之间的元素相似性,利用该元素相似度计算上下文相似度。 最后基于两个相似性的合成,抽取最终匹配候选。 在 XML 文档的转换方案中先利用 XML 模式匹配算法,找到元素之间的

3、语义对应关系,然后根据产生的对应关系生成 XSLT 样式表文档。 关键词:关键词: XML 模式,模式匹配,XML 样式语言转换,文档转换 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 IIAbstract With the increasingly development of XML, more data is represented by the format of XML, which has been a default standard for Web data representation and exchange. Such a

4、s the E-commercial applications, If the two sides of exchange abide by the same schema criterion it will be easier to share resource and complete the integrate information between them. Currently, the most application of XML face the problem of disunity of the schema. It requires find the mapping re

5、lationship between the related elements in the two input schema. And then according to the mapping,one can be transformed into another. The first is to study the approaches of the schema matching. A schema matching algorithm is presented by analyzing the existing methods. And then, aiming at researc

6、h on transform between two heterogeneous documents. The similarity of two elements depends on two similarity, element level similarity and structural similarity, and the computing method of the structural similarity has been improved. The method consists of two steps, computing preliminary matching

7、relationships between elements in the two XML schemas, getting proposed context similarity and extracting final matches based on compositeness of two. In the solution of the transforming between two XML documents, the semantic mapping relationship between two schema elements can be found by using th

8、e proposed algorithm. And then according to the result of matching, create the XSLT stylesheet file. Keywords: XML Schema,schema matching, XSLT,transformation of document 独创性声明独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。 据我所知,除文中已经标明引用的内容外,本论文不包括任何其它个人或集体已经发表或撰写过的研究成果。 对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。

9、 本文完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 日期: 2008 年 月 日 学位论文版权使用授权书学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 本人授权华中科技大学可以将本学位论文的全部或部分内容列入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保证和汇编本学位论文。 保密,在 年解密后适用本授权书。 本论文属于 不保密。 (请在以上方框内打“”) 学位论文作者签名: 指导教师签名: 日期: 年 月 日 日期: 年 月 日 华 中 科 技 大 学

10、 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 11 绪 论 1 绪 论 20 世纪末 Internet 的出现打开了信息时代的序幕。 随着信息技术的飞速发展,产生了大量的各种形式的信息和数据,数据规模也高速增大。 随此,要解决的问题就是如何对这些大量的信息和数据进行有效的管理。 从此出现了各种以数据管理为中心的研究及应用,如数据集成、数据仓库、语义 Web、Web Service 等。 Web 已经成为人们获取和交换信息的重要途径。 而 HTML 的局限性也开始明显的暴露出来,它不具备大规模 Web 应用所需的可扩展、结构化和数据验证等特性。 于是,产生了一种新的标

11、记语言 XML(eXtensible Markup Language)1。 由于 XML 弥补了 HTML 的许多缺点,就得到了广泛的应用。 它具有可扩展性、灵活性、自描述性、内容与表示的分离性以及基于模式的校验等特点。 同时在跨平台、异构应用间的协同工作、基于语义的智能数据搜索等领域中受到了重大关注。 目前,XML 已逐步成为在 Web 上数据表示以及应用程序间数据交换的标准,并成为多种数据和文档的理想格式。 事实上,目前大量的 XML 应用中,一个共同的关键问题是如何发现两个模式成员之间语义上的对应关系,即模式匹配问题。 即使模式相同,也会出现用户理解和使用上的不同。 从而造成语义上的差异

12、。 这就需要对两个输入的模式找到它们的相关元素间的匹配关系,然后输出两个模式的元素间的映射关系。 这个模式之间匹配过程也是目前研究热点之一。 模式匹配(Schema Matching)的目标是寻找两个或多个模式的成员之间语义上的对应关系。 模式匹配问题最早来源于数据集成(Data Integration)研究,近年来已成为了一个研究热点。 它在模式集成、数据仓库、异构数据源集成、语义查询处理、电子商务等领域中是一个非常重要的研究基础。 模式匹配本质上是一个主观的过程,取决于用户对模式成员之间关系的主观判断。 在大多数情况下模式本身并不能完全反映其所代表的数据的语义,模式之间也很可能存在着一些不

13、确定的映射关系。 因此这种模式匹配的过程需要用户的介入。 显然模式匹配是一项非常耗费人力和时间的工作,当要匹配的模式非常多或大的时候,由人工来完成模式匹配的工作几乎不可能的。 1.1 研究背景 1.1 研究背景 以数据管理为中心的许多应用(如数据集成、数据仓库、语义 Web、Web Service华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 2等)都面临着模式匹配问题。 例如在数据集成中,集成系统为了将在全局模式上构造的查询重新构造为针对数据源模式的查询,需要用一种机制来表示数据源模式和全局模式之间的关系。 即数据源模式和全局模式之间经过进行匹

14、配操作,建立映射关系2,3。 在电子商务中, 参交易的两方都要经常交换消息(Message)数据,且通常交易双方都具有自己的消息格式,并且它们的模式也是很可能不一样的。 为了实现消息的交换,应用系统将这些不一致的格式必须转换,并建立它们元素之间的联系关系。 随着 XML 文档的应用扩大,XML Schema 的数量也迅速不断增多。 XML 的灵活性使模式设计者可以定义它们自己的标签,因此在同一应用领域也会使用几种不同的模式。 例如同一电子商务领域的一个公司可能使用不同的发票信息模式。 另外一个公司因为发票的交换就不得不将自己的 XML 文档转换为符合其合作公司的文档模式的文档,所以转换 XML

15、 文档也就成了一个尽快要解决的问题。 为解决对 XML 文档转换问题,XSLT 有着很强的功能。 XSLT 是 W3C 的推荐标准,它本身是用 XML 来编写的。 一个 XSLT 程序是一组模板规则集合,由两部分构成。 模板 模板定义了如何把源文档中的内容转换到目标文档中,即怎样转换。 模式 模式规定了需要进行转换的元素或属性对象,即在什么样的情况下需要应用这个模板规则。 写一个样式表的一般过程要求通过分析源和目标 XML 文件的语义和结构,发现它们的相似之处,也就是一个模式匹配问题,然后进行编码。 尽管,XSLT 是一种转换功能很强的语言,它也是有缺点的。 主要体现于它是一种较为复杂的语言,

16、而转换时, 即使是一个简单的转换也会要求用户写一个程序, 这就需要用户完全掌握 XSLT语言以及编程技巧。 并且,每次将一个 XML 文档转换成另一个 XML 文档时都需要写一个新的 XSLT 程序,从此 XML 文档的转换过程仍然很复杂4。 1.2 国内外研究状况 1.2 国内外研究状况 如前面所说的,在许多应用中最关键的技术就是实现模式匹配,所以本文着重研究了模式匹配,特别 XML 模式匹配。 模式匹配的研究已经有着近 30 年历史,通过几个阶段它几乎达到了工业标准阶华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 3段。 实际上,在文献5中首次提到了把自动模式匹配问题研究上升到工业应用的标准。 这意味着模式匹配问题经历了很多研究和实践的阶段后,它又上升到更高一层的实际应用中。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号