|
XML 编程 XML技术讲座之十一 XPointer语言
XPointer语言的主要功能是在XML文件中定位片段(fragement),在XML链接中,通常将它加到URL的结尾,更明确地表示目标资源。但是XPointer语言的使用并不局限于XML链接,它可以用于在需要文档内部定位的任何地方,比如在可视化的XML编辑器中用于描述用户选择的节点或字符串。 XPointer语言概述 HTML中的文件内部定位非常简单,就是在目标文件中插入一个命名锚(named anchor),然后用链接元素<A>的href属性指定链接的位置即可。但这种机制存要求你同时控制目标文件和开始文件,而这并不总是成立。由于XML是结构化的文件,借助文件结构进行内部定位就成为可能,这就是XPointer语言,它支持在XML文件中定位元素、属性、字符串等内部结构。 XPointer语言基于XSLT中的XPath,支持完整形式(Full XPointers)、无修饰名称(bare names)或子节点序列(Child Sequences)三种形式以定位片段。完整形式的XPointer的形式为xpointer(表达式),其中表达式用于定位计算,得到需要的资源片断,所有的定位计算都基于一个已知节点,该节点称为上下文节点。一般而言,最初始的上下文节点总是文档中的确定位置,如文档的根节点(注意:根节点不是根元素,它是一个抽象的节点,是根元素的父节点,用"/"表示)、文档中具有确定ID值的元素(用函数id()表示)、当前元素(用函数here()表示)等。无修饰名称只有一个名称,表示文件中ID等于指定名称的元素,它提供了与HTML文件兼容的方式以定位文档片段。子节点序列由名称、一系列数字和"/"组成的序列,其中"/"用于分隔名称和数字,数字n表示前面定位元素的第n个直接子元素,子节点序列必须以"/1"或名称打头,表示该序列从根元素或指定ID的元素开始。实际上,后面两种形式都是第一种形式的简写,下面是几种形式的XPointer的例子。 xpointer(/child::lang/descendent::body[position()<=2])
XPath位置步 与XPath语言一样,XPointer语言中的表达式是多个位置步形成的一个位置路径,每个位置步间用"/"分隔,前面位置步的运算结果构成后面位置步的上下文节点。位置步的形式为axis::node-test[prediates],它包括三个部分:
在下面的例子中,第一个"/"表示文档的根节点,"child::lang"为第一个位置步,"descendent::body[position()<=2]"为第二个位置步,这两个位置步链接形成一个位置路径。在第二个位置步中,"descendent"是关键字,"body"是节点测试,"position()<=2"是谓词。 /child::lang/descendent::body[position()<=2] 关键字的运算基于上下文节点,如果上下文节点有多个,它将对上下文节点逐一进行计算。下面列出了用于XPointer中的XPath关键字。 (1) ancestor:上下文节点的所有祖先节点,即包含上下文节点的所有节点。显然,根节点没有祖先节点。 (2) ancestor-or-self:上下文节点及其所有祖先节点。 (3) attribute:上下文节点的所有属性,如果上下文节点不是元素类型,结果集为空,attribute关键字可以简写为"@"。 (4) child:上下文节点的直接子节点,包括元素、处理指令、注释、文本,但不包括属性。child关键字是缺省的。 (5) descendant:上下文节点的所有后代节点,不包括属性和命名空间节点。简写为"//"。 (6) descendant-or-self:上下文节点及其所有后代节点。 (7) following:处于上下文节点后的节点。第一个节点从上下文节点结束标记后的第一个开始标记开始。返回元素顺序按文件顺序排列。 (8) following-sibling:上下文节点后,并与上下文节点具有相同父节点的节点。按文件顺序计算。 (9) parent:上下文节点的父节点,即直接包含上下文节点的节点。如果没有节点测试,可以简写为".." (10) preceding:开始于整个上下文节点前的所有节点,不包括祖先节点。返回元素顺序按文件逆序排列。 (11) preceding-sibling:开始于上下文节点前,并与上下文节点具有相同父节点的节点。 (12) self:上下文节点。可以简写为"." 节点测试用于测试节点类型或名称,只有那些满足节点测试的节点才会保留在初始的结果集中,以待下一步的谓词过滤。在很多情况下,节点测试是一个名称,但并不总是如此,其它的节点测试还有: (1) *。通配符"*"表示所有的元素,它不考虑元素的名称,通配符"*"只选择元素类型。如果你希望选择所有节点,可以用node()表示。 (2) node()。节点测试node()表示所有类型的节点,包括元素、注释、文本、处理指令等。 (3) comment()。表示类型是注释的节点。 (4) processing-instruction()。表示类型是处理指令的节点。它还可以接收参数,表示指定名称的处理指令。 (5) text()。表示类型是文本的节点。 谓词是对结果集进行过滤的表达式,一般是布尔型,其他类型的表达式可以转化为布尔型。XPointer中,表示位置的谓词是最常用的谓词,包括几个谓词函数position()、last()等。position()表示节点在结果集中的序号,序号从1开始,一般而言,结果集中的节点是按照相对于上下文节点的距离排序。position()函数常与关系运算符(=、<>、<、<=、>、>=)、数字连用,构成关系表达式,表示结果结点满足此关系表达式。谓词[position()=n]常简写为[n]。last()表示集合中的节点数目,也可与position()函数连用。 XPointer扩展 前面介绍的定位方式来源于XPath,它们同时适用于XPath和XPointer,但是XPointer对XPath进行了扩展。其扩展主要包括: (1) 将XPath的节点(node)扩展为位置(location),位置可以是节点、点和区域;点是某个节点或字符前后的位置,区域是两个点之间的所有结构和数据。 (2) 增加了函数here() 和origin()用于进行位置定位,表示当前元素,其中here()用于本地资源,origin()用于远程资源; (3) 增加函数point()以定位点。如果点的包含结构可以包含节点,这种类型的点称为节点点(node point),此时索引按照节点进行,0表示第一个节点前的位置,n表示第n个节点前的位置;如果点的包含结构不能包含节点,这种类型的点称为字符点(character point),此时索引按照字符进行。 (4) 增加了区域表达式,用于生成区域;其形式为xpointer(start-point/range-to(end-point)),其中start-point是一个位置路径,表示区域的起始点,end-point是另一个位置路径,表示区域的结束点,range-to()是一个函数,其参数是位置路径,表示整个位置路径的计算结果是一个区域。 (5) 增加函数string-range(),用于生成字符串;其形式为string-range(location-set,substring,index,length),其中location-set表示字符串匹配的范围,substring表示匹配字符串,index表示相对于匹配位置的起始点length表示返回字符串的长度; (6) 增加函数start-point() 和end-point(),用于定位节点或区域的起始点和结束点; (7) 增加谓词函数unique(),用于测试XPointer表达式是否只返回一个位置,而不是多个位置或没有返回位置。 XPointer转义 由于XPointer不是单独出现,而一些字符不能直接出现在包含XPointer的上下文中,因此这些字符必须转义出现。首先,XML文件中不能直接出现的"<"、"&"、"""、"'"必须转义出现,转义方法与XML规范相同;其次,XPointer出现在URI中时,不能直接出现在URI中的字符必须转义出现,主要包括非ASCII字符,转义为"%HH"形式,HH是该字符的十六位编码;另外,XPointer语言要求不匹配的括号必须转义,转义方法是在不匹配的括号前面加上"^",如果表达式中出现"^",则在前再加一个"^"。 来源:网络世界 |