(毕业设计论文)《XML数据查询方法研究》

上传人:zhuma****mei1 文档编号:54408226 上传时间:2018-09-12 格式:DOC 页数:13 大小:266KB
返回 下载 相关 举报
(毕业设计论文)《XML数据查询方法研究》_第1页
第1页 / 共13页
(毕业设计论文)《XML数据查询方法研究》_第2页
第2页 / 共13页
(毕业设计论文)《XML数据查询方法研究》_第3页
第3页 / 共13页
(毕业设计论文)《XML数据查询方法研究》_第4页
第4页 / 共13页
(毕业设计论文)《XML数据查询方法研究》_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《(毕业设计论文)《XML数据查询方法研究》》由会员分享,可在线阅读,更多相关《(毕业设计论文)《XML数据查询方法研究》(13页珍藏版)》请在金锄头文库上搜索。

1、内容摘要 XML 自 W3C 组织提出之后,逐渐成为因特网中数据表示和数据交换的新标准,越来越多的组织使用 XML 描述信息。随着 XML 信息交流的增多,如何快速的从大量的 XML 数据中进行高效的数据查询已经成为众多研究者所关注的问题。本文从存储角度出发,研究了不同的存储方式所对应的不同查询方式。各种查询方式有不同的使用环境,本文将对各种方式进行详细介绍。关键词:关键词:XML 数据查询 XML 数据查询方法研究数据查询方法研究1XML 简介简介1.1 研究背景及意义在当今的 IT 业中,XML(Extensible Markup Language,可扩展标识语言)越来越成为一个热门的话题

2、。XML 是由 W3C(万维网联合组织)制定的标准,具有良好的数据存储格式、可扩展性、高度结构化和便于网络传输等优点,从而成为了新一代的 Web 语言。XML 提供了直接处理数据的通用方法,为基于Web 的应用提供一个描述数据和交换数据的有效手段,有利于信息的表达和结构化组织。因此,可以更好地满足网络时代在电子商务远程教育、数据库与引擎等领域的多态信息的交互、传输和再现的需求。越来越多的数据使用 XML 的标准进行表示和存储,如何对 XML 文档进行有效的查询是一个热点研究问题。1.2 XML 的产生目前,WEB 上的通用标识语言是超文本标识语言 HTML(HyPertext Markup l

3、anguage),正是由于HTML 的出现,才使得 Internet 迅速发展到今天这样庞大的规模。HTML 来自 SGML (standard Generalizes Markup Language,标准通用标记语言),SGML 是一种用标记来描述文档资料的通用语言,它包含了一系列的 DTD(Document Type Definition,文档类型定义)规范,DTD 中定义了标记的含义,因而 SGML 的语法是可以扩展的。但是 SGML 十分复杂、庞大、不易学,在计算机上实现也比较困难。鉴于这些原因,WEB 的发明者根据当时计算机技术的能力,提出了 HTML 语言。HTML 语言只使用了

4、SCML 中的很小一部分标记,为了便于计算机上实现,HTML 规定的标记是固定的,即 HTML 语法是不可扩展的,它不需要包含 DTD。HTML 以其简单精练的语法、极易掌握的通用性与易学性,使 Web 网页可以接近于每个普通人,互联网也得以迅猛发展。然而,电子商务、电子图书、远程教育等全新领域的异军突起,逐渐发展成为互联网世界重要的组成部分,随之而来的是 Web 文件的复杂化、多样化、智能化,于是高容量、高信息量、高效率便为网络信息传输技术发展的追求。与此同时,还有另一种需求变得愈发广泛而迫切,即数据能否根据不同用户不同需求而有不同的效果、不同的形式表现出来。这一切都是 HTML 所不能满足

5、的,开发一种新的 Web页面语言已势在必行。由于 HTML 只使用一组固定的元素类型,不可扩展,所以不能针对特定文档类型而设计,而且创建之后经历多年一直没有非常严格的定义。因此随着 Web 的互操作性和多样性受到专用格式化标记的日益威胁时,Web 标准化组织 W3C (Worldwide Web Consortium,万维网联盟)建议使用一种精简的 SGML 版本XML 应运而生。1.2.1 半结构化数据概念 特点及数据描述XML 数据的特点之一就是半结构化,半结构化数据是介于完全结构化数据和完全无结构的数据之间的之中数据形式,具有自描述性。一些数据源(如 Web)的数据并非像传统的结构化数据

6、那样有严格的数据格式和数据类型,即为半结构化数据。半结构化数据的特点是没有事先给定的数据模式,或者数据模式对数据的约束不强,模式的规模比较大,模式是经常变动的,数据未赋予严格的类型。它具有以下特点:(1)先有数据,后有模式。一般是先进行查询,查询结果即为数据结构及其模式。(2)用于描述数据的结构信息,而不是对数据结构进行强制性约束。(3)规模可能很大,甚至超过源数据的规模,而且因数据的不断更新而处于动态的变化过程中。(4)不讲求精确性,可能描述其中一部分结构,也可能根据数据处理的不同阶段的视角而不同。(5)非常灵活,能满足网络这种复杂分布式环境的要求。(6)加大了数据处理的难度。1.2.2 H

7、TML 与 XMLHTML: 即超文本标识语言,是编制 Web 页面文档的语言,它定义结构化文本类型和标识这些文本类型。HTML 所含的标识符定义包括:文档结构,字形字体,版面布局,链接,等超文本文档结构,这些标识符使 Web 浏览器能够阅读和重新格式化任何 Web 页面。HTML 的最新版本是 HTML4.0,它支持OBJECT 标记和层叠风格表单(CSS)。通过支持 ISO10646 字符集,它支持任何语言所需的标识,为作者插入对象和脚本提供了途径,并在文件中支持格式项。但 HTML 仅关注 Web 浏览器的页面安排,缺乏对结构化数据的表示能力,它采用单一固定语法,缺乏可扩展性,因此难以用

8、于如数据处理,刷新排列,存储,转发,交换,加密及签名等操作,因此难以满足电子商务对大量动态数据使用统一数据格式进行表示和管理的需要。XML(Extensible Markup Language-可扩充的标识语言)为网页编辑的可移植性,平台独立性,系统兼容性,资源整合与管理等提供了完整的解决方案,逐渐成为电子商务的新的基石。XML 也是从 SGML 发展而来,它是设计的元语言,而不是像 HTML 那样具有的固定标记集的标记语言。XML 可以建立用户自己的标记和类别文件。简单而言,XML 和 HTML 的本质区别是: HTML 标记是用来描述怎样在屏幕上显示信息,解决人机交互问题,而 XML 是用

9、来描述信息是什么,解决机器之间的交互问题。1.3 XML 技术XML 是标准通用标记语言 SGML 的一个子集,从 SGML 中经过精心修剪而来的 XML 既保持了SGML 的功能,同时又减少了 SGML 的复杂性。和 HTML 相比,XML 是面向内容的,具有更多的语义、良好的可扩展性、简单易用、自描述等特点,适用于 WEB 上的数据交换。XML 包含三要素:DTD(Document Type Definition 文档类型定义)或 XML 模式(Schema)、可扩展样式语言 XSL(Extensible Style Language)以及可扩展链接语言 XLL (Extensible L

10、ink Language)。其中,XSL 用于规定 XML 文档呈现样式的语言,它使数据与其表现形式相互独立;而 XLL 用于扩展目前 WEB 上已有的简单链接。文档类型定义(DTD)是一套关于标记符的语法规则,规定可以在文档中使用哪些标记符,应该按什么次序出现,哪些标记符可以出现于其它标记符中,哪些标记符有属性等。因为 XML 本身不是一种语言,而是定义语言的一个系统,想使用 XML 进行数据交换的组织可以定义它们自己的 DTD。1.4 XML 特点XML 的优势之一是它允许各个组织、个人建立适合自己需要的标记集合,并且这些标记集合可以迅速地投入使用。这一特征使得 XML 可以在电子商务、政

11、府文档、司法、出版、CAD/CAM、保险机构、厂商和中介组织信息交换等领域中一展身手,针对不同的系统、厂商提供各具特色的独立解决方案。XML 的最大优点在于它的数据存储格式不受显示格式的制约。一般来说,一篇文档包括三个要素:数据、结构以及显示方式。XML 把文档的三要素独立开来,分别处理。首先把显示格式从数据内容中独立出来,保存在样式单文件中,这样如果需要改变文档的显示方式,只要修改样式单文件就可以了。XML 的自我描述性能够很好地表现许多复杂的数据关系,使得基于 XML 的应用程序可以在 XML 文件中准确高效地搜索相关的数据内容,忽略其他不相关部分。XML 还有其他许多优点,比如它有利于不

12、同系统之间的信息交流,完全可以充当网际语言,并有希望成为数据和文档交换的标准机制。总体说来,XML 主要具有以下的一些重要特性: 半结构化半结构化是 XML 的一大特点。用户可以通过文档类型定义规范为 XML 定义语法、数据结构以及元素类型,并且可以根据用户的需要增加、删除标记。XML 文档可以用不同的样式进行显示。利用标记自身所包含的语义,XML 可以将异构的数据集成在一起。利用 XML 的半结构化性可以解决异构数据转换的问题。自描述性XML 文档通常包含一个文档类型声明,因而 XML 文档是自描述的。不仅人能读懂 XML 文档,计算机也能处理。XML 表示数据的方式真正做到了独立于应用系统

13、,并且数据能够重用。XML 文档被看作是文档的数据库化和数据的文档化。可扩展性XML 允许使用者创建和使用他们自己的标记而不是 HTML 的有限词汇表。这一点至关重要,企业可以用 XML 为电子商务和供应链集成等应用定义自己的标记语言,甚至特定行业一起来定义该领域的特殊标记语言,作为该领域信息共享与数据交换的基础。灵活性HTML 很难进一步发展,就是因为它是格式、超文本和图形用户界面语义的混合,要同时发展这些混合在一起的功能是很困难的。而 XML 提供了一种结构化的数据表示方式,使得用户界面分离于结构化数据。所以,Web 用户所追求的许多先进功能在 XML 环境下更容易实现。当然,XML 作为

14、一个新建立的标准,还有许多不足之处:它在强调了数据结构的同时,语义表达能力上略显不足。另外,XML 的有些技术尚未形成统一的标准,充分支持 XML 的应用处理程序还不多,甚至浏览器对 XML 的支持也是有限的。尽管如此,我们仍然可以预言,随着人们对 XML 认识的逐渐深入,XML 必将成为网络技术不可缺少的一员。1.5 XML 查询概述XML 数据查询与 XML 数据存储方式密切相关,在确定存储方式后,选择合适的查询语言,可以对Internet 中的大量数据进行灵活的查询。XML 数据的物理存储格式对查询处理的效率有很大的影响,不同的存储方式配合不同的查询语言和查询方式,会在查询效率上有很大的

15、不同。现今较为流行的是利用关系数据库系统管理 XML 数据,它可以保证 XML 数据的一致性和完整性。与此同时,关系数据库产品在市场上占的比重较大,包括 WEB 上的后台服务器所用的数据库一般也是关系数据库,那么如果用关系数据库存储 XML 数据的话,就能够比较方便地在两者之间进行数据格式的转换。所以,用关系数据库来存储和查询 XML 数据是一种方便可行的方法,而且比较容易实现企业应用的迁移。存储方式及查询方式确定之后,需要设计一种方便、易用的 XML 查询语言,供用户及上层应用程序检索 XML 文档。目前,己经有多种面向 XML 数据的查询语言,如 Lorel,XML-QL,XML-GL,X

16、QL,XSLT,Quilt,xQuery 等。下文将对 XML 文本存储数据查询作详细介绍。3 文本存储中文本存储中 XML 数据查询方法数据查询方法对于一般的 XML 文档,有多种查询语言可以对其进行查询,只是它们各有侧重,下面我们通过实例对它们分别介绍。以下是简单的 XML 文档:文档 students 文档 courses文档 scs3.1 XPath3.1.1 XPath 简介XPath1(XML 定位语言)是 XML 路径语言,是 W3C 关于查询部分 XML 文档的通用语言标准。XPath是实现 XML 数据的周游语言,是其他查询语言的基础。XPath 通过定义一系列规则来指定对 XML 文档树型结构的访问方式,并给出从某个结点起的查询路径,搜索文档。使用 XPath 可以在 XML 层次结构中快速定位和提取信息,它的内建函数提供了全面的功能,可以方便的处理数值及文本数据。可以这样理解 XPath,如果将 XML 文档看成 DOS 目录结构,XPath 就是 cd,dir 等目录操作命令的集合。3.1.2 XPath 文本查询实例XPath 主要用于对 X

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号