数据格式的新标准XML

上传人:jiups****uk12 文档编号:40252799 上传时间:2018-05-25 格式:PDF 页数:5 大小:306.51KB
返回 下载 相关 举报
数据格式的新标准XML_第1页
第1页 / 共5页
数据格式的新标准XML_第2页
第2页 / 共5页
数据格式的新标准XML_第3页
第3页 / 共5页
数据格式的新标准XML_第4页
第4页 / 共5页
数据格式的新标准XML_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《数据格式的新标准XML》由会员分享,可在线阅读,更多相关《数据格式的新标准XML(5页珍藏版)》请在金锄头文库上搜索。

1、数据格式的新标准x M L数据格式的新标准) ( M L张文海毛克峰李权( 北方交大计算所北京1 0 0 0 2 9 )摘要X M L 是一种具有自描述特点、内容与形式分离的元标记语言。它逐渐发展为一种数据存储和数据交换的格式标准,并在网络内容发布、数据交换、数据存储、电子商务、数据库等领域得到很广泛的应用。 关键字X M LH T M L 标记语言数据交换内容与形式分离网络内容发布1 引言一项新技术的发展往往是这样的。首先由伟大的发明者提出他的基本理论并制定出完善的实施方案;但由于方案的复杂和昂贵阻碍了这一技术的大规模发展,直至它的天才实 施者的出现;这些实施者往往更愿意针对某项特定的应用制

2、定出这一技术的精简实施方案,从而使这一技术得到广泛的推广和应用;然而使用量的增加又逐渐暴露出这种不完整性带来的局限,不过这种广泛的应用会积累大量的实践经验和显露出这一技术的真正需求范围,从而促使这种技术的集大成者出现。利用标记语言( M a r k u pL a n g u a g e ) 来描述数据就 是这样一种技术。对应的原始方案就是S G M L ( S t a n d a r dG e n e r a l i z e dM a r k u pL a n g u a g e ,通 用标记语言) ,它是由嵋M 公司制定的强大而昂贵的元标记语言;实施者和推动者是H T M L ( H y p

3、 e r - T e x tM a r k u pL a n g u a g e ,超文本标记语言) ,它是目前应用最广泛、极大地推动了网络数据交换和标记语言本身发展的标记语言;两集大成者是X M L ( e X t e n s i b l eM a r k u pL a n g u a g e ,可扩展标记语言) ,它是一种可能取代H T M L 的网络用途,并有可能发展成为 数据交换( 网络之间、数据库之间) 和数据存储格式标准的新一代标记语言。2 理解标记语言S G M L 、H T M L 、X M L 都属于标记语言。要想理解X M L 就必须先理解标记语言。标 记语言是一种通过在数

4、据正文中做各种标记,以表明标记内文本的附加信息的描述方法。这种信息可以是格式信息,也可以是含义( 内容) 信息。例如,我们可以认为书面表达中的一段文字“越= 岱邀堡揸式拯准”内的下划线就是一种标记。2 1 标准格式计算机技术中常规的标记表示法具有如下格式:( 标记名 正文2 2 实例1 ) 带格式标记的H T M L 文本:( f o r t tc o l o r = “ # F F 0 0 0 0 4 数据格式荻标准( f o n t 其中标记头 和标记尾 会指示浏览器将“数据格式新标 准”这儿个字显示为红色。1 9 5数据格式的新标准X M L2 ) 带含义( 内容) 标记的文本:数据格式

5、颓标准 标记头 邸和标记尾 ,邸可能意味着“数据格式新标准”这儿个字很重要。之所以说“意味着”,是因为标记本身需要另一套规则来说明它所代表的含义。用标记的方式来描述数据含义的做法在计算机技术中非常普遍。W P S 、M i c r o s o f tW o r d等字处理软件主要用标记存储格式信息。另外,一些编程语言和数据库脚本也使用标记来区别关键字和其它数据元素。如果象纯文本文件那样没有任何标记,就无法表示芷文所附带的格式和含义信息了。一种编辑器和阅读器对应着一套特定的标记,也就是说它们能理解这些标记代表的含义。其它阅读器甚至同一种阅读器的不同版本都有可能无法读懂这套 标记的含义,造成文件信

6、息的损失甚至完全丢失。这对于文档的电子化保存是无法忍受 的。而这正是S G M L 及其子集X M L 诞生的原因。3X M L 原理S G M L 的前身是I B M 公司为解决公司内部大量文档的交换和存储而发明的O M L ( O e n e r a l i z e dM a r k u pL a n g u a g e ,通用标记语言) ,G M L 经过不断的改进和完善最终发 展成为S G M L ,并于1 9 8 6 年被国际标准化组织公布为国际标准I S 0 8 8 7 9 。如果理解了 S G M L ,则理解X M L 将是很容易的事。但S G M L 并不是这篇论文的重点,因

7、此只能给出 其最本质的内容,那就是S G M L 本身没有预定义任何一个标记,它只提供了一套完整的规则。人们只要遵循这套规则就可以自由地创建针对特定应用的一套标记;同时,只要遵循这套规则就可以准确地理解标记的含义以至整篇文档的内容。因此,可以认为S G M L 是 一种用来定义其它标记语言的元标记语言。H T M L 就是由S G M L 定义的面向网络浏览的一 套标记,H T M L 文件的各种编辑器和各种浏览器都能够识别所有这些标记。X M L 也是一 种元标记语言,它继承了S G M L 的精华,去除了一些很少用到的特性,从而大大简化了相关规则。它有三个显著的特点:、3 1 自描述性白描

8、述性体现了它的元标记语言特性,针对专门应用的标记。它至少包括两部分:的标记定义方法有如下两种:即语言本身不含有标记,但可以根据需要定义含有标记的文档和定义标记的文件。现在常用1 ) D T D ( D o c u m e n tT y p eD e f i n i t i o n ,文档类型定义) 方式 它通过一系列专用关键字及这些关键字之间的排列方法来说明标记的含义和相互之间的关系; 2 ) S c h e m a 方式它利用S c h e m a 文件来描述标记的含义和相互之间的关系。同时,S c h e m a 文件本身也 符合X M L 文件的“格式良好”要求。 D T D 方式是一种

9、早期的标记描述方式,使用起来很方便,现在仍然有广泛的应用。但它本身需定义一套规则和关键字来支持它;而S c h e m a 方式则更能体现“自描述性”,因为 它不需要另外的规则,用同一个解释器就可以既解释X M L 文档又解释定义标记的S c h e m a文件。鉴于这一特点,S c h e m a 方式得到越来越广泛的应用,并可能最终取代D T D 方式。3 2 内容与形式的分离事实上,X M L 文档及其标记更注重数据的内容和含义。X M L 把形式表现的任务交给1 9 6数据格式的新标准X M L了一些独立的技术规范,其中最著名的规范有C S S ( C a s c a d i n gS

10、 t y l eS h e e t s ,层叠样式单) 利X S L ( e X t e n s i b l eS t y l e s h e e tL a n g u a g e ,可扩展样式单语言) 。C S S 最初是针对H T M L 制定的,它的核心思想是为各种不同的标记定义相对应的表现样式,浏览器再根据这些样式显 示对应的正文。这些标记在C S S 语法中被作为选择符使用。典型的C S S 语句如下所示:选择符 特性1 ;特性2 ;1选择符对应标记名,“特性”对应字体、大小、颜色等样式信息。 C S S 很自然地被用于显示X M L 文档。现在W 3 C 有两个推荐标准,C S S

11、 l 和C S S 2 。其 中1 9 8 6 年5 月通过的C S S 2 增加了媒体类型、特性选择符、声音样式等功能,这使X M L 文档可以描述二维矢量图形、声音等对象。事实上w 3 C 根据这一特点制定了支持图形表现的X M L 语言S V G ( S c a l a b l eV e c t o rG r a p h i c s ,可缩放矢量图形语言) 和面向网络多媒体播 放的X M L 语言S M I L ( S y n c h r o n i z e dM u l t i m e d i aI n t e g r a t i o nL a n g u a g e ,同步多媒体综合

12、语 言) 。S M I L 集成了图像、文字、V i d e o 、A u d i o 对象,支持它们的同步实时播放。 与D T D 类似,C S S 本身并不符合X M L 规范。但与之相对应的X S L 本身却符合X M L 规范,这样就可以用同一个X M L 分析器既解释X M L 文档和定义标记的S c h e m a 文档,也 可以解释描述样式的X S L 文档。 X S L 由两部分组成:第一部分用来描述如何将一个X M L 文档转换成为可浏览或可输出的格式;第二部分则定义了格式对象F O ( f o r m a t t e do b j e c t ) 。F O 直接面向显示格式

13、,负责 将第一部分产生的结果显示出来。然而由于各种原因现在还没有个多方认可的F O ,但 X S L 的转换部分却得到了广泛的应用。于是,将这一部分从X S L 中分离出来,并命名为X S L T ( X S LT r a n s f o r m a t i o n ) 。它的精髓就是转换,可以把没有表现形式的X M L 文档转换成 有样式信息的结果文档,如H T M L 文档、x H 蹦L 文档、V R M L 文档甚至是S V G 文档。X S L T 是一种功能强大的转换工具,可以书写非常复杂的转换规则,它的某些语句非 常类似高级语言。X S L T 还包含一种称为X P a t h 的

14、配套标准,它可以准确定位X M L 文档中的元素。X M L 文档与形式分离的示意图如下:3 3 格式良好表现形式X M L 文档与形式的分离“格式良好”是指标记有点象数据库中的字段名。然而一般的数据库字段只能表示其本身的含义,而不能表示字段间的关系;X M L 标记的定义则有点类似对象的定义,它用各种属性描述标记所代表的含义和相互问的关系,最终可以在逻辑上形成一种格式良好的树 形结构。X M L 文档中的数据通过这些标记被严格地组织在一起。可以这样说,基于H T M L 的I n t e m e t 是一个注重形式表现的炫目而凌乱的空间,而基于X M L 的I n t e r n e t 将

15、是1 9 7数据格式的新标准x M L个注重内容的、充满各种有序的结构化数据的空间。它使人们可以从网上更方便地检索资源,更准确地找到有用资料,更顺畅地进行数据交流。4X M L 应用X M L 作为一种数据保存与交换的格式标准,在计算机技术的各方面都得到了广泛的应 用。它可以使内容编辑者在把精力专注于文档的内容的同时又可以使用丰富多彩的表现形式。X M L 规则可以针对特定行业定义具有行业特点的标记,可以使用具有行业特征的字符 串来命名标记,所以,对于本行业用户是非常友好的。另外,由于这些标记没有格式信息,所以文档的长度将大大缩短。现在有两个比较典型的行业标准,它们是:C M L ( C h

16、e m i s t r yM a r k u pL a n g u a g e ,化学标 记语言) 和M a t h M L ( M a t h e m a t i c a lM a r k u pL a n g u a g e ,数学标记语言) 。它们为用户书写文档提供了极大的方便。X M L 规则将形式表现作为一个独立的问题来考虑,由程序员集中解决。这样,就可以为文档表现提供各种形式,如:行业所特有的格式、表格、声音,甚至于动画。同时,利用浏览器也可以表示出各种数学公式和化学符号。利用上文提到的S V G ( S c a l a b l eV e c t o rG r a p h i c ,可缩放矢量图形) 标准,可以在浏览器中表现矢量图。现在已经有大量的厂家宣 布支持这一标准,其中包括编制P h o t o s h o p 的A d o b e 公司、编制F l a s h 的M a c r o m e d i a 公司 和编制C o r e l d r a w 的C o r a l 公司。我们知道F l a s h 可以

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号