posts - 66, comments - 40, trackbacks - 0

之所以要引入XPath的概念，目的就是為了在匹配XML文檔結(jié)構(gòu)樹時能夠準(zhǔn)確地找到某一個節(jié)點(diǎn)元素?？梢园裍Path比作文件管理路徑：通過文件管理路徑，可以按照一定的規(guī)則查找到所需要的文件；同樣，依據(jù)XPath所制定的規(guī)則，也可以很方便地找到XML結(jié)構(gòu)文檔樹中的任何一個節(jié)點(diǎn).

　　不過，由于XPath可應(yīng)用于不止一個的標(biāo)準(zhǔn)，因此W3C將其獨(dú)立出來作為XSLT的配套標(biāo)準(zhǔn)頒布，它是XSLT以及我們后面要講到的XPointer的重要組成部分。

　　在介紹XPath的匹配規(guī)則之前，我們先來看一些有關(guān)XPath的基本概念。

　　首先要說的是XPath數(shù)據(jù)類型。XPath可分為四種數(shù)據(jù)類型：

節(jié)點(diǎn)集（node-set）
節(jié)點(diǎn)集是通過路徑匹配返回的符合條件的一組節(jié)點(diǎn)的集合。其它類型的數(shù)據(jù)不能轉(zhuǎn)換為節(jié)點(diǎn)集。
布爾值(boolean)
由函數(shù)或布爾表達(dá)式返回的條件匹配值，與一般語言中的布爾值相同，有true和false兩個值。布爾值可以和數(shù)值類型、字符串類型相互轉(zhuǎn)換。
字符串(string)
字符串即包含一系列字符的集合，XPath中提供了一系列的字符串函數(shù)。字符串可與數(shù)值類型、布爾值類型的數(shù)據(jù)相互轉(zhuǎn)換。
數(shù)值(number)
在XPath中數(shù)值為浮點(diǎn)數(shù)，可以是雙精度64位浮點(diǎn)數(shù)。另外包括一些數(shù)值的特殊描述，如非數(shù)值NaN（Not-a-Number）、正無窮大infinity、負(fù)無窮大-infinity、正負(fù)0等等。number的整數(shù)值可以通過函數(shù)取得，另外，數(shù)值也可以和布爾類型、字符串類型相互轉(zhuǎn)換。

　　其中后三種數(shù)據(jù)類型與其它編程語言中相應(yīng)的數(shù)據(jù)類型差不多，只是第一種數(shù)據(jù)類型是XML文檔樹的特有產(chǎn)物。

　　另外，由于XPath包含的是對文檔結(jié)構(gòu)樹的一系列操作，因此搞清楚XPath節(jié)點(diǎn)類型也是很必要的。回憶一下第二章中講到的XML文檔的邏輯結(jié)構(gòu)，一個XML文件可以包含元素、CDATA、注釋、處理指令等邏輯要素，其中元素還可以包含屬性，并可以利用屬性來定義命名空間。相應(yīng)地，在XPath中，將節(jié)點(diǎn)劃分為七種節(jié)點(diǎn)類型：

根節(jié)點(diǎn)（Root Node）
根節(jié)點(diǎn)是一棵樹的最上層，根節(jié)點(diǎn)是唯一的。樹上其它所有元素節(jié)點(diǎn)都是它的子節(jié)點(diǎn)或后代節(jié)點(diǎn)。對根節(jié)點(diǎn)的處理機(jī)制與其它節(jié)點(diǎn)相同。在XSLT中對樹的匹配總是先從根節(jié)點(diǎn)開始。
元素節(jié)點(diǎn)（Element Nodes）
元素節(jié)點(diǎn)對應(yīng)于文檔中的每一個元素，一個元素節(jié)點(diǎn)的子節(jié)點(diǎn)可以是元素節(jié)點(diǎn)、注釋節(jié)點(diǎn)、處理指令節(jié)點(diǎn)和文本節(jié)點(diǎn)?？梢詾樵毓?jié)點(diǎn)定義一個唯一的標(biāo)識id。
元素節(jié)點(diǎn)都可以有擴(kuò)展名，它是由兩部分組成的：一部分是命名空間URI，另一部分是本地的命名。
文本節(jié)點(diǎn)（Text Nodes）
文本節(jié)點(diǎn)包含了一組字符數(shù)據(jù)，即CDATA中包含的字符。任何一個文本節(jié)點(diǎn)都不會有緊鄰的兄弟文本節(jié)點(diǎn)，而且文本節(jié)點(diǎn)沒有擴(kuò)展名。
屬性節(jié)點(diǎn)（Attribute Nodes）
每一個元素節(jié)點(diǎn)有一個相關(guān)聯(lián)的屬性節(jié)點(diǎn)集合，元素是每個屬性節(jié)點(diǎn)的父節(jié)點(diǎn)，但屬性節(jié)點(diǎn)卻不是其父元素的子節(jié)點(diǎn)。這就是說，通過查找元素的子節(jié)點(diǎn)可以匹配出元素的屬性節(jié)點(diǎn)，但反過來不成立，只是單向的。再有，元素的屬性節(jié)點(diǎn)沒有共享性，也就是說不同的元素節(jié)點(diǎn)不共有同一個屬性節(jié)點(diǎn)。
對缺省屬性的處理等同于定義了的屬性。如果一個屬性是在DTD聲明的，但聲明為#IMPLIED，而該屬性沒有在元素中定義，則該元素的屬性節(jié)點(diǎn)集中不包含該屬性。
此外，與屬性相對應(yīng)的屬性節(jié)點(diǎn)都沒有命名空間的聲明。命名空間屬性對應(yīng)著另一種類型的節(jié)點(diǎn)。
命名空間節(jié)點(diǎn)（Namespace Nodes）
每一個元素節(jié)點(diǎn)都有一個相關(guān)的命名空間節(jié)點(diǎn)集。在XML文檔中，命名空間是通過保留屬性聲明的，因此，在XPath中，該類節(jié)點(diǎn)與屬性節(jié)點(diǎn)極為相似，它們與父元素之間的關(guān)系是單向的，并且不具有共享性。

處理指令節(jié)點(diǎn)（Processing Instruction Nodes）
處理指令節(jié)點(diǎn)對應(yīng)于XML文檔中的每一條處理指令。它也有擴(kuò)展名，擴(kuò)展名的本地命名指向處理對象，而命名空間部分為空。

· ? 注釋節(jié)點(diǎn)（Comment Nodes）
注釋節(jié)點(diǎn)對應(yīng)于文檔中的注釋。

下面，我們來構(gòu)造一棵XML文檔樹，作為后面舉例的依托：

現(xiàn)在，我們就來介紹一些XPath中節(jié)點(diǎn)匹配的基本方法。

路徑匹配
路徑匹配與文件路徑的表示相仿，比較好理解。有以下幾個符號：
符?號 含?義 舉?例 匹配結(jié)果 / 指示節(jié)點(diǎn)路徑 /A/C/D 節(jié)點(diǎn)"A"的子節(jié)點(diǎn)"C"的子節(jié)點(diǎn)"D"，即id值為d2的D節(jié)點(diǎn) / 根節(jié)點(diǎn) // 所有路徑以"http://"后指定的子路徑結(jié)尾的元素 //E 所有E元素，結(jié)果是所有三個E元素 //C/E 所有父節(jié)點(diǎn)為C的E元素，結(jié)果是id值為e1和e2的兩個E元素 * 路徑的通配符 /A/B/C/* A元素→B元素→C元素下的所有子元素，即name值為b的B元素、id值為d1的D元素和id值為e1和e2的兩個E元素 /*/*/D 上面有兩級節(jié)點(diǎn)的D元素，匹配結(jié)果是id值為d2的D元素 //* 所有的元素 | 邏輯或 //B | //C 所有B元素和C元素

位置匹配
對于每一個元素，它的各個子元素是有序的。如：

舉?例 含?義 匹配結(jié)果 /A/B/C[1] A 元素→B元素→C元素的第一個子元素 name值為b的B元素 /A/B/C[last()] A元素→B元素→C元素的最后一個子元素 id值為e2的E元素 /A/B/C[position()>1] A元素→B元素→C元素之下的位置號大于1的元素 id值為d1的D元素和兩個具有id值的E元素

屬性及屬性
在XPath中可以利用屬性及屬性值來匹配元素，要注意的是，元素的屬性名前要有"@"前綴。例如：

舉?例 含?義 匹配結(jié)果 //

B[@id] 所有具有屬性id的B元素 id值為b1和b2的兩個B元素 //B[@*] 所有具有屬性的B元素兩個具有id屬性的B元素和一個具有name屬性B元素 //B[not(@*)] 所有不具有屬性的B元素 A元素→C元素下的B元素 //B[@id="b1"] id值為b1的B元素 A元素下的B元素

· ? 親屬關(guān)系匹配
XML文檔可歸結(jié)為樹型結(jié)構(gòu)，因此任何一個節(jié)點(diǎn)都不是孤立的。通常我們把節(jié)點(diǎn)之間的歸屬關(guān)系歸結(jié)為一種親屬關(guān)系，如父親、孩子、祖先、后代、兄弟等等。在對元素進(jìn)行匹配時，同樣可以用到這些概念。例如：

舉?例 含?義 匹配結(jié)果 //E/parent::* 所有E節(jié)點(diǎn)的父節(jié)點(diǎn)元素 id值為a1的A元素和id值為c1的C元素 //F/ancestor::* 所有F元素的祖先節(jié)點(diǎn)元素 id值為a1的A元素和id值為c2的C元素 /A/child::* A的子元素 id值為b1、b2的B元素，id值為c2的C元素，以及沒有任何屬性的E元素 /A/descendant::* A的所有后代元素除A元素以外的所有其它元素 //F/self::* 所有F的自身元素 F元素本身 //F/ancestor-or-self::* 所有F元素及它的祖先節(jié)點(diǎn)元素 F元素、F元素的父節(jié)點(diǎn)C元素和A元素 /A/C/descendant-or-self::* 所有A元素→C元素及它們的后代元素 id值為c2的C元素、該元素的子元素B、D、F元素 /A/C/following-sibling::* A元素→C元素的緊鄰的后序所有兄弟節(jié)點(diǎn)元素沒有任何屬性的E元素 /A/C/preceding-sibling::* A元素→C元素的緊鄰的前面所有兄弟節(jié)點(diǎn)元素 id值為b1和b2的兩個B元素 /A/B/C/following::* A元素→B元素→C元素的后序的所有元素 id為b2的B元素、無屬性的C元素、無屬性的B元素、id為d2的D元素、無屬性的F元素、無屬性的E元素。 /A/C/preceding::* A元素→C元素的前面的所有元素 id為b2的B元素、id為e2的E元素、id為e1的E元素、id為d1的D元素、name為b的B元素、id為c1的C元素、id為b1的B元素

· ? 條件匹配
條件匹配就是利用一些函數(shù)的運(yùn)算結(jié)果的布爾值來匹配符合條件的節(jié)點(diǎn)。常用于條件匹配的函數(shù)有四大類：節(jié)點(diǎn)函數(shù)、字符串函數(shù)、數(shù)值函數(shù)、布爾函數(shù)。例如前面提到的last()、position()等等，這里我們就不再贅述。

以上這些匹配方法中，用得最多的還要數(shù)路徑匹配。

posted on 2006-12-31 13:25 happytian 閱讀(193) 評論(0) 編輯收藏

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理

2006年12月

日

一

二

三

四

五

六

Welcome here, my friend!

常用鏈接

留言簿(12)

隨筆檔案(66)

文章分類

人生

文章檔案(63)

web

Ajax forum
java.csdn
javafan
Mrs Hu's blog
sohu

常用鏈接

留言簿(12)

隨筆檔案(66)

文章分類

文章檔案(63)

web

最新隨筆

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜