第八章java对XML的解析

资源描述

《第八章java对XML的解析》由会员分享，可在线阅读，更多相关《第八章java对XML的解析（44页珍藏版）》请在金锄头文库上搜索。

1、 XML是扩展性标识语言的简写特点：自定义标签作用：一种通用数据交换格式，系统配置文件一般采用XML格式书写，用来记录应用程序的配置信息。优点：结构严谨规范性强标准的数据交换文件，已用于通用的配置信息文件结构简单，清晰，便于书写，增强阅读性将数据结构化，让数据间具有明确的层次关系语言标记 html标记是固定标记集合 xml提供的是一个定义标记的标准，其中的标记是可以自由定义代码的书写 html语言编写相对随意，要求松散。 xml语言编写有非常严格的规范描述内容 html将数据和显示结合在一起 xml将数据和显示相分离，记录数据和数据间关系，只对数据进行描述，不考虑显示效果。张三

2、20李四 23XML声明（declaration）DOCTYPE声明处理指令（processing Instruction）注释（comment）元素（element）CDATA 并不是每一个XML都需要所有的组成部分。文档声明（ xml文档首行）: 格式： encoding定义文档字符编码集合，“gb2312” Standalone定义文档是否独立，“yes”no”文档类型定义：指定xml文档定义文档类型所用的dtd来源处理指令为处理XML文档的应用程序提供提示信息，文档注释注释不可以嵌套文档主体内容自定义标记对数据进行结构描述，通过树形结构体现文档结构文档中只能有一个顶层元素(

3、根元素) 顶层元素中包含：元素属性元素文本内容 CDATA（character data字符数据区）各种子元素1.所有XML标记都严格区分大小写2.XML只能有一个顶层元素，其他元素都包含在顶层元素中3.所有的标记都必须要要有开始和结束标签，如果没有单独的结束标签，则在开始标签的内部直接添加结束“/”4.所有标记的属性值必须用“ ”或括起来5.名字中可以包含字母、数字及一些可见字符和中文6.名字不以数字和下划线开头，不以“xml”开头，7.名称中不可以包含空格，冒号(:)8.命名尽量简短，一个文件中大小写尽量统一标准9.所有的XML标记都必须合理嵌套，不允许出现交叉嵌套存放不想被

4、解析的原始数据格式：中示例：在元素的文本中有些符号不可以直接出现，因为会出现解析错误。比如：“ “ 什么是约束模式？定义：定义XML文档中允许出现的元素名，元素中的属性，元素中的内容类型及元素间的嵌套关系和出现顺序，为文档指定XML约束模式后，就必须遵循该约束模式。XML约束模式语言：用作XML约束模式的内容也需要遵循一定的语法规则，这些规则形成XML约束模式语言，像这种创造XML标记语言的语言称为元语言。模式文档：定义约束模式的文档实例文档：根据模式文档编写的文档常见的约束模式文件：DTD、XMLSchema文档类型定义（DTD）可定义合法的XML文档构建模块。它使用一系

5、列合法的元素来定义文档的结构。DTD文件的好处：让每一个 XML 文件都可以具备单独的格式描述。也可以让一个组织都使用同一种格式描述。还可以直接引用一个权威机构指定的格式描述。定义一个元素格式： PCDATA（Parsed Character DATA）（被解析的字符数据）如何给XML文档加上约束呢？将DTD约束直接嵌套在xml文档中。格式：引入外部的DTD文件到XML文档中 mike 29 bj 文档类型名称：可以自定义，通常使用根节点名称 SYSTEM：表明XML遵循的是一个组织内部的约束。示例： PUBLIC：表示XML遵循的是权威机构或特定行业提供的DTD文件。

6、DTD名称：用于标识该DTD文件，只有在PUBLIC 声明时才用到。元素是 XML 文档的基本组成部分，在 XML 文档中使用的每个元素及其属性都要在 DTD 文件中进行定义语法格式：示例：元素的使用规则定义了: 元素中包含的组成部分每种组成部分出现的次数各组成部分间的次序(#PCDATA)表示元素中嵌套的内容是普通文本字符串。EMPTY：元素中不包含任何子元素和普通文本字符串，这种情况用于定义 XML 文件中的空元素：例如，定义的元素形式为 +一次或多次 (书+) ？0 次或一次 (书?) *0次或多次(书*) 不使用规则只一次(书)每条元素定义语句的顺序是无关紧要的具有不同用途

7、的元素不能使用相同的元素名在元素的使用规则中可以通过正则表达式定义子元素出现的次数：圆括号可将括在其中的内容组合成一个可统一操作的分组，分组中可以嵌套更小的分组。元素的各个组成成份的特点元素的使用规则中的各个组成成分用空白符分隔，他们的出现顺序没有严格要求：? 用逗号分隔，出现顺序必须与排列顺序一致：用竖杠 | 分隔，它们在 XML 文档中只能出现它们之中的任何一个：语法格式：示例： #REQUIRED：必须设置该属性 #IMPLIED：可以设置也可以不设置 #FIXED：说明该属性的取值固定为一个默认值，属性类型 CDATA：指的是纯文本，即由字符、符号组成的字符串Enumer

8、ated：属性也可以被描述为一组可接受的取值的列表，XML文件中对属性的赋值将从这个列表中选取一个值。这类属性属于枚举类型 ENUMERATED，不过关键字ENUMERATED是不出现在Dtd定义中的。ID：是用属性值的方式为文件中的某个元素定义唯一标识的方法，由处理文件的程序或脚本语言使用。 ENTITY：将多内容文本或者一个文件用一个简称来标识。 lisi预览结果：学生元素的id属性会自动加载male值。XML解析器是读取XML文档并分析其结构的代码。一般而言使用解析器需要以下步骤：创建一个解析器对象使解析器指向您的XML文档处理结果常见的解析模式 DOM(Document O

9、bject Model) 文档对象模型，w3c的标准，DOM处理XML文档是基于将XML文档解析成树状模型，放入内存进行处理 SAX(Simple Api for Xml) SAX则是采用基于事件驱动的处理模式，它将XML文档转化成一系列的事件，由单独的事件处理器来决定如何处理 JDOM基于Java语言的解析工具。 JAXP(Java API for XML Processing) SUN推出的一套处理XML文档的工具包。DOM4J 基于Java语言的优秀的XML文档解析工具，也应用在JAXM(Java API for XML Messaging )中。 DOM： Java 读入 XML

10、文档并分析其结构，将其转化为内存中的对象如果XML看成一颗数据树，那么DOM就是对这颗树的一个对象描叙，是为XML文档在逻辑上建立一个树，树的节点是一个个对象，通过存取这些对象就能够存取XML文档的内容。解析的过程：节点：XML文档中的所有节点组成了一个节点树。XML文档中的每个元素、属性、文本等都代表着树中的一个节点。树起始于文档节点，并由此继续伸出枝条，直到处于这棵树最低级别的所有文本节点为止。常用节点类型如下表所示：节点类型附加说明实例元素节点(Element)XML标记元素属性节点(Attribute)XML标记元素的属性name=”ntcsoft”文本节点(Text

11、)XML标记中的文本段jim文档类型节点文档类型声明 (DocumentType) !DOCTYPE 注释节点CommentXm注释节点工程师A 文档根元素节点元素节点元素节点元素节点属性节点 name文本节点工程师A属性节点 position属性节点 name根节点父到子子到父下一节点上一节点firstChildlastChild通过上面的XML文档，我们构建出如下树状文档对象模型，如下图所示属性描述nodeName结点名称nodeValue结点内部值，通常只应用于文本结点nodeType节点类型对应的数字parentNode如果存在，指向当前结点的父亲结点childNodes子结点

12、列表firstChild如果存在，指向当前元素的第一个子结点lastChild如果存在，指向当前元素的最后一个子结点previousSibling指向当前结点的前一个兄弟结点nextSibling指向当前结点的后一个兄弟结点attributes元素的属性列表节点编号：节点名称： 1Element 2Attribute 3Text 4CDATA Section 5Entity Reference 6Entity 7Processing Instrucion 8Comment 9Document 10Document Type 11Document Fragment 12Notation注释XML

13、文件只有载入内存才能被操作，对于xml文件，载入内存之后成为Document 对象载入文档的过程如下：实例化 javax.xml.parsers.DocumentBuilderFactory，并通过 DocumentBuilderFactory实例化 javax.xml.parsers.DocumentBuilder对象： DocumentBuilderFactory dbf =DocumentBuilderFactory.newInstance(); DocumentBuilder db = dbf.newDocumentBuilder(); 通过 DocumentBuilder 的

14、 parse(String)方法传入文件路径，载入文档，并返回由文档在内存生成的文件树Document对象： Document doc = db.parse(流);使用 Document 对象获取XML文档的根节点rootElement el = doc.getDocumentElement();org.w3c.dom.Document：表示整个 XML 文档；同时也是 Node 的子接口，除了拥有Node 的功能以外，还提供了面向整个文档一些特殊操作，如创建节点、获取某个名称的节点等Document常见方法： Element getDocumentElement()：获取文档根

15、节点；实际上，该方法的应用等价于： Node Document.getFirstChild() 返回类型不同，不过可以将返回的 Node 强制转换为Element 类型(Element 是 Node 的子接口)利用 Node 读取数据 org.w3c.dom.Node：是 XML 中所有 API 的父接口，Element,text等都是它的子类,提供了对节点的基本操作，如获取节点信息、获取子节点、添加节点等，这些操作可以通过 Node 对象的各个 API 来实现常见的方法： NodeList getChildNodes()：以 NodeList 形式存放当前节点的子节点，若无，则返回空集合 Node getFirstChild()：以 Node 形式返回当前节点的第一个子节点，若无，则返回 null Node getLastChild()：以 Node 形式返回当前节点的最后一个子节点，若无，则返回null Node getNextSibling()：以 Node 形式返回当前节点的下一个兄弟节点，若无，则返回null Node getPreviousSibling：以 Node 形式返回当前节点的下一个兄弟

展开阅读全文