摘要：XML作為過去十年中出現(xiàn)的最流行的技術(shù)之一，得到了廣泛的應(yīng)用，而其中XML解析技術(shù)是XML應(yīng)用的關(guān)鍵。本文介紹了XML解析技術(shù)的研究動向，分析和比較了4種XML解析技術(shù)的優(yōu)劣，并歸納總結(jié)了應(yīng)用系統(tǒng)設(shè)計中選取合適的XML解析技術(shù)的原則。

1 引言

XML(eXtensible Markup Language，可擴展標記語言)是由World Wide Web聯(lián)盟(W3C)定義的元語言，即一種關(guān)于語言的語言。XML的設(shè)計源于SGML (Standard Generalized Markup Language，標淮通用標記語言)，是SGML的子集，其目的是為了促進Internet上結(jié)構(gòu)化文檔的交換。簡單的說，XML是一組規(guī)則和準則的集合，用于以無格式文本來描述結(jié)構(gòu)化數(shù)據(jù)^[1]。1996年W3C聯(lián)盟就開始從事XML的標準化工作，并于1998年2月10日發(fā)布了XML1.0。

XML的出現(xiàn)給分布式計算領(lǐng)域帶來了重大影響，其力量源于它的數(shù)據(jù)獨立性^[1]。XML是純數(shù)據(jù)描述，與編程語言、操作系統(tǒng)或傳輸協(xié)議無關(guān)，從而將數(shù)據(jù)從以代碼為中心的基礎(chǔ)結(jié)構(gòu)所產(chǎn)生的約束中解放出來，讓數(shù)據(jù)能夠在Web上更自由的流通。

然而XML本身只是以純文本對數(shù)據(jù)進行編碼的一種格式，要想利用XML，或者說利用XML文件中所編碼的數(shù)據(jù)，必須先將數(shù)據(jù)從純文本中解析出來，因此，必須有一個能夠識別XML文檔中信息的解析器，用來解釋XML文檔并提取其中的數(shù)據(jù)。然而，根據(jù)數(shù)據(jù)提取的不同需求，又存在著多種解析方式，不同的解析方式有著各自的優(yōu)缺點和適用環(huán)境。選擇合適的XML解析技術(shù)能夠有效提升應(yīng)用系統(tǒng)的整體性能，因此，了解和區(qū)分各種不同的XML解析技術(shù)就顯得尤為重要。

2 XML解析技術(shù)分析

所有的XML處理都從解析開始，無論是使用XSLT或Java語言，第一步都是要讀入XML文件，解碼結(jié)構(gòu)和檢索信息等等，這就是解析，即把代表XML文檔的一個無結(jié)構(gòu)的字符序列轉(zhuǎn)換為滿足XML語法的結(jié)構(gòu)化組件的過程。

2.1 XML解析技術(shù)的分類

根據(jù)從XML中獲取數(shù)據(jù)的簡易性，性能和最終所得到的數(shù)據(jù)模型的不同，XML解析技術(shù)大致可分為以下四類：

1) 面向文檔的流式解析；

2) 面向文檔的對象式解析；

3) 面向文檔的指針式解析；

4) 面向應(yīng)用的對象式解析；

這四類解析技術(shù)分別處于不同的抽象層次，適用于不同的應(yīng)用場景，有著各自的優(yōu)缺點。針對具體的應(yīng)用需求，選擇合適的解析技術(shù)，往往能夠減少內(nèi)存消耗，縮短處理時間，更方便地獲取數(shù)據(jù)，提高應(yīng)用系統(tǒng)的整體性能。

2.2 面向文檔的流式解析技術(shù)

流式解析是一種基于事件的解析過程，解析器順序讀取XML文檔，產(chǎn)生一個對應(yīng)的事件流，并向事件處理程序發(fā)送所捕獲的各種事件，如元素開始和元素結(jié)束等，而事件處理程序則通過不同的方法處理這些事件。

流式解析是將XML文檔作為一個數(shù)據(jù)流來處理，因此，它具有類似于流媒體的優(yōu)點，能夠立即開始讀取數(shù)據(jù)，而不是等待所有的數(shù)據(jù)被處理。而且，由于應(yīng)用程序只是在讀取數(shù)據(jù)時檢查數(shù)據(jù)，不需要將整個文檔一次加載到內(nèi)存中，使得在處理大型文檔時具有較好的時間和空間上的效率。然而效率的代價是易用性的降低，流式解析編程較為復(fù)雜，程序員需要負責更多的操作。并且由于應(yīng)用程序沒有以任何方式存儲數(shù)據(jù)，所以使得更改數(shù)據(jù)或在數(shù)據(jù)流中往后移是不可能的。再加上它的單遍解析特性，意味著它也不支持隨機訪問。

流式解析又分為兩種解析方式：推式解析(SAX)和拉式解析(StAX)。這兩種方式的主要區(qū)別在于是由解析器還是應(yīng)用程序控制讀循環(huán)(讀入文件的循環(huán))。

2.2.1 推式解析(SAX解析技術(shù))

SAX(Simple API for XML)解析技術(shù)就是一種推式解析，在這種解析方式中，解析器控制著讀循環(huán)，在文檔結(jié)束之前控制權(quán)不會返回給應(yīng)用程序^[3]。解析器通過回調(diào)的方式進行數(shù)據(jù)處理。

SAX提供了一個用于處理XML的，基于事件驅(qū)動的簡單API。它的設(shè)計開始于XML-DEV郵件列表成員間的討論，他們開發(fā)出的第一個接口草案SAX1.0于1998年1月發(fā)布，其后在2000年5月發(fā)布了SAX2.0，目前最新版本是2004年4月發(fā)布的SAX2.0.2。SAX沒有經(jīng)過官方的標準機構(gòu)認可，它不由W3C聯(lián)盟或其它任何官方機構(gòu)維護(現(xiàn)在，SAX由David Megginson維護)^[4]，但它被廣泛使用并視為XML社區(qū)事實上的標準。SAX最初是為Java而定義的，但也可以用于Python、Perl、C++等其它語言。

SAX是基于事件驅(qū)動的，即SAX解析器在讀取XML文檔的過程中生成一個事件流，并且對于每個事件通過回調(diào)事件處理程序中相應(yīng)的方法來進行處理。比如元素開始和結(jié)束標記，元素內(nèi)容，實體，語法分析錯誤等事件。針對下面的簡單XML文檔，所產(chǎn)生的事件如圖1所示，注意針對元素內(nèi)的空格或回車也會生成一個文本事件。

圖1 SAX解析器生成的事件

SAX中的核心事件處理程序是一個實現(xiàn)了ContentHandler接口的類。此接口中定義了處理與XML文檔本身關(guān)聯(lián)的事件的方法，如 startDocument、endDocument、startElement、endElement、Characters等

SAX解析技術(shù)具有所有流式解析技術(shù)的優(yōu)點和缺點，但是由于在整個解析過程中，解析器掌握著控制權(quán)直到文檔結(jié)束，應(yīng)用程序很難在獲得所需的部分數(shù)據(jù)后停止解析過程(可以通過拋出異常的方式終止解析過程，但較為復(fù)雜，而且終止后也無法繼續(xù)解析過程)，因此產(chǎn)生了由應(yīng)用程序掌握控制權(quán)的拉式解析方式。

2.2.2 拉式解析(StAX解析技術(shù))

StAX(Streaming API for XML)解析技術(shù)是一種拉式解析，在這種解析方式中，應(yīng)用程序控制著讀循環(huán)。循環(huán)中，應(yīng)用程序負責反復(fù)調(diào)用解析器獲得下一個事件，直到文檔結(jié)束。通過保留解析過程的控制權(quán)，可以簡化調(diào)用代碼來準確地處理它預(yù)期的內(nèi)容，并且可隨時停止解析。此外，由于該方式?jīng)]有基于處理程序回調(diào)，應(yīng)用程序也不需要像SAX中那樣模擬解析器的狀態(tài)。

StAX針對同樣的XML文檔所獲得事件類型和SAX基本相同，但是StAX包含了兩套處理XML的API：基于指針的API和基于迭代器的API，分別提供了不同程度的抽象^[5]。

基于指針的API簡單的返回事件，此時事件用數(shù)值形式來表示。這是一種低層API，沒有提供底層XML結(jié)構(gòu)的抽象，所有的狀態(tài)信息直接從流讀取器獲得，不需要創(chuàng)建額外的對象。從而節(jié)約內(nèi)存，擁有較高的效率。

而較為高級的基于迭代器的API則以對象方式返回事件，每個事件對象都封裝了它所表示的特定XML結(jié)構(gòu)固有的信息，因此可直接利用其方法獲得屬于該結(jié)構(gòu)的信息，但也需要額外的對象創(chuàng)建開銷。相對于基于指針的API，基于迭代器的API具有更多的面向?qū)ο筇卣鳎虼烁阌趹?yīng)用于模塊化的體系結(jié)構(gòu)。

StAX也是用Java定義的，其StAX1.0于2004年3月發(fā)布，并且成為了JSR-173 規(guī)范，最新版本為2006年6月發(fā)布的StAX1.2。StAX作為用Java語言處理XML的最新標準，比早期出現(xiàn)的XPP (Xml Pull Parser)拉式解析器功能更為強大，也得到了更為廣泛的應(yīng)用。

2.3 面向文檔的對象式解析技術(shù)

由于流式解析方式固有的無法更改數(shù)據(jù)和不支持隨機訪問特性，尤其是沒有對XML文檔的結(jié)構(gòu)建模，使得應(yīng)用程序很難對XML文檔進行搜索、修改、添加和刪除等操作。為了解決這些問題，產(chǎn)生了面向文檔的對象式解析技術(shù)--DOM。

DOM(Document Object Model)是用與平臺和語言無關(guān)的方式對XML文檔進行建模的官方W3C標準^[6]，其目標是提供一個可以通用于各種程序語言、操作系統(tǒng)和應(yīng)用程序的接口。DOM最初被當作Web瀏覽器識別和處理頁面元素的方式,即在W3C介入之前的功能，稱為“DOM Level 0”。W3C于1998年10月提出了“DOM Level 1”建議，支持XML1.0和HTML處理。隨后于2000年11月提出了“DOM Level 2”建議，對Level 1進行了擴展，支持XML1.0、命名空間和CSS，也支持用戶接口和樹形操作事件，并且添加了DOM樹形操作功能。最新的“DOM Level 3”建議于2003年6月提出，在level 2的基礎(chǔ)上添加了對DTD、XML模式和XPath的支持^[1]。

DOM作為一種對象式解析技術(shù)，定義了層次化對象模型來表示XML文檔。即為XML語法中的每個概念(如元素，屬性，實體，文檔等)定義對應(yīng)的類，而解析器在讀入XML文檔的時候，會建立XML語法和類之間的一一映射。實際上，DOM的層次化對象模型是一個樹形結(jié)構(gòu)，它將一個XML文檔看作一棵節(jié)點樹，每個節(jié)點代表一個XML文檔中的元素。DOM的基本節(jié)點對象有5個^[1]：(1)Document對象：是樹的最高節(jié)點，也是對整個文檔操作的入口；(2)Element和Attr對象：對文檔中元素和元素屬性的映射；(3)Text對象：作為Element和Attr對象的子節(jié)點，代表了元素或?qū)傩缘奈谋緝?nèi)容；(4)NodeList對象：對節(jié)點按指定的方式進行遍歷。

例如對于2.2.1中的XML文檔，其對應(yīng)的DOM節(jié)點樹如下圖所示(注意元素內(nèi)的空格或回車也會被當作文本對象)：

圖2 DOM節(jié)點樹 (矩形框表示元素節(jié)點，橢圓表示文本節(jié)點)

利用DOM在內(nèi)存中建立的完整的XML文檔的樹形結(jié)構(gòu)，開發(fā)人員就可以方便的對XML文檔進行一系列操作，如遍歷、增加、刪除、修改文檔內(nèi)容等，且具有良好的導(dǎo)航能力。同時DOM所具有的對象特性也非常便于面向?qū)ο缶幊獭Ｈ欢捎?/span>DOM在使用數(shù)據(jù)前需要完整的遍歷XML文檔，在內(nèi)存中構(gòu)建樹形結(jié)構(gòu)表示，因此需要消耗大量的內(nèi)存，尤其是對于大型文檔，性能下降的很快。而且必須一次解析整個XML文檔，不可能只做部分解析，當只關(guān)注XML文檔的小部分數(shù)據(jù)時，效率很低。(Axis2項目中的Axiom對象模型實現(xiàn)了對XML文檔的部分解析，可構(gòu)建不完整的節(jié)點樹，但實現(xiàn)較為復(fù)雜)

由于DOM是與語言無關(guān)的，當DOM接口進入指定語言的數(shù)據(jù)結(jié)構(gòu)時，會產(chǎn)生不必要的復(fù)雜性，無法利用語言本身的優(yōu)勢。因此出現(xiàn)了許多與DOM類似的針對特定語言的對象模型。如JDOM就是針對Java的特定文檔對象模型，JDOM使用具體類而不使用接口，簡化了API，并在API中大量使用了Java集合類。DOM4J則是JDOM的一種智能分支，它提供了對XPath和XML Schema的支持，并且通過DOM4J API和標準DOM接口使其具有并行訪問功能^[5]。它們都屬于面向文檔的對象式解析技術(shù)。

2.4 面向文檔的指針式解析技術(shù)

前面提到的面向文檔的流式解析效率較高，但易用性差，而對象式解析易用性強，卻效率較低，這兩種方式似乎處于兩個極端。其效率問題主要在于兩種方式都是提取解析模式，即解析時，提取一部分源文件，一般來說是一個字符串，然后在內(nèi)存中進行解析構(gòu)建。這種解析模式注定了需要大量的創(chuàng)建和銷毀對象，而且還存在更新效率問題，在DOM中(SAX并不支持更新)，每一次改動都需要將DOM模型重新完整的解析成XML字符串，原文件并沒有被利用，即DOM并不支持增量更新。為了解決這些問題，提出了一種較新穎的指針式解析技術(shù)，即VTD-XML。

VTD-XML是一種無提取的XML解析方法，它較好的解決了DOM占用內(nèi)存過大的缺點，并且還提供了快速的解析與遍歷、對XPath的支持和增量更新等特性。VTD-XML是一個開源項目，目前有Java、C兩種平臺支持，第一個版本是2004年6月發(fā)布的VTD-XML0.5，其VTD- XML1.0版本于2005年10月發(fā)布，最新的版本為2007年10月發(fā)布的VTD-XML2.2。

VTD(Virtual Token Descriptor，虛擬令牌描述符)是一個64bits長度的數(shù)值類型，記錄了每個元素的起始位置，長度，深度以及令牌的類型等信息，如圖3所示。64bits固定長度使得可以用數(shù)組這種高效的結(jié)構(gòu)來組織VTD，大幅提高性能。VTD是實現(xiàn)無提取解析的關(guān)鍵，它類似于XML文檔中元素的指針，通過它可以快速定位到某個元素。

圖3 VTD記錄的比特層格式

令牌開始偏移量(即相對于XML文檔頭部的距離)是30 bits，也就是說它能解析的最大文件是1G。令牌長度為20 bits，即一個令牌的最大長度是1M。令牌類型4bits，說明支持16種詞匯類型。

為了實現(xiàn)無提取這個目的，VTD-XML將原XML文件原封不動的以二進制的方式讀進內(nèi)存，不做解碼，然后在這個比特數(shù)組上解析每個元素的位置并把一些信息，如XML令牌的開始偏移量、長度、深度和令牌類型，記錄下來，保存為VTD數(shù)組，之后的遍歷操作便可在VTD數(shù)組上進行。如果需要提取XML內(nèi)容，就查找VTD數(shù)組，利用VTD記錄中的位置等信息在原始比特數(shù)組上進行解碼并返回字符串。

而且VTD-XML還可以高效的實現(xiàn)增量更新，例如，如果想在一個大型XML文檔中找出一個節(jié)點元素并刪除它，那么只需要找到這個元素的VTD，將這個VTD從VTD數(shù)組中刪除，然后再利用所有的VTD寫出到另一個二進制數(shù)組中就可以了，因為刪除的VTD標明了要刪除的元素的位置，所以在新寫入的二進制數(shù)組中就不會出現(xiàn)這段元素了。用VTD寫入新的二進制數(shù)組的過程實際上就是一個二進制數(shù)組的拷貝過程，其效率是非常高的^[2]。

由此可見，VTD很好的解決了前兩種解析方式的缺點，通過其巧妙的設(shè)計使得在解析XML文檔時內(nèi)存占用少，效率高，并且還能夠?qū)崿F(xiàn)XML文檔的快速解析與遍歷、提供對XPath的支持。VTD的出現(xiàn)是XML解析技術(shù)的一大進步，會對XML解析技術(shù)的發(fā)展產(chǎn)生巨大影響。

2.5 面向應(yīng)用的對象式解析技術(shù)

前面所談到的三種解析技術(shù)都是從XML的角度來處理文檔和建立模型，這對于主要關(guān)心文檔的XML結(jié)構(gòu)的應(yīng)用程序來說是適用的，但是有很多應(yīng)用程序僅僅將XML作為數(shù)據(jù)交換的媒介，它們更關(guān)心的是文檔數(shù)據(jù)本身。此時，面向應(yīng)用的對象式解析(或稱為XML數(shù)據(jù)綁定)可以使應(yīng)用程序在很大程度上忽略XML文檔的實際結(jié)構(gòu)，而直接使用文檔的數(shù)據(jù)內(nèi)容。

數(shù)據(jù)綁定是指將數(shù)據(jù)從一些存儲媒介(如XML文檔、文本文件和數(shù)據(jù)庫)中取出，并通過應(yīng)用程序表示這些數(shù)據(jù)的過程，即把數(shù)據(jù)綁定到虛擬機能夠理解并且可以操作的某種內(nèi)存中的結(jié)構(gòu)^[9]。數(shù)據(jù)綁定并不是一個新鮮的概念，其在關(guān)系數(shù)據(jù)庫上早已得到了廣泛的應(yīng)用，如Hibernate就是針對數(shù)據(jù)庫的輕量級數(shù)據(jù)綁定框架。而針對XML數(shù)據(jù)綁定的Castor框架在2000年就已經(jīng)出現(xiàn)，目前已經(jīng)涌現(xiàn)出了許多類似的框架，如JBind、JAXB、JiBX、Quick和Zeus等。

其中JAXB(Java Architecture for XML Binding)是一個處于不斷發(fā)展中的應(yīng)用于Java平臺的數(shù)據(jù)綁定框架，提供了一套在XML文檔和Java對象之間自動映射的API，符合JSR31--XML數(shù)據(jù)綁定規(guī)范（XML Data Binding Specification）。該項目始于1999年8月，由Java Community Process開發(fā)，其1.0版本于2002年10月發(fā)布，目前最新版本為2007年9月17日發(fā)布的JAXB2.1.5。

如圖4，顯示了數(shù)據(jù)綁定在數(shù)據(jù)庫和XML文檔中的應(yīng)用。

圖4 數(shù)據(jù)綁定

在數(shù)據(jù)綁定中有三個重要概念^[9]：

l 編組(Marshalling)：把內(nèi)存中的數(shù)據(jù)轉(zhuǎn)換到存儲介質(zhì)中的過程。在Java和XML環(huán)境中，編組就是把一些Java對象轉(zhuǎn)化為一個(或多個)XML文檔。其核心就在于把Java中的面向?qū)ο蠼Y(jié)構(gòu)轉(zhuǎn)化成適用于XML的扁平結(jié)構(gòu)。

l 解組(Unmarshalling)：把數(shù)據(jù)從存儲媒介轉(zhuǎn)換到內(nèi)存中的過程。在Java和XML環(huán)境中，即將XML文檔解組到Java虛擬機中，其復(fù)雜性在于從數(shù)據(jù)到Java代碼變量的映射。

l 映射(Mapping)：用于編組和解組的一套規(guī)則。

初看起來XML數(shù)據(jù)綁定和面向文檔的對象式解析較為相似，都在內(nèi)存中構(gòu)建文檔表示，同時內(nèi)部表示和標準的XML文檔之間可以互相轉(zhuǎn)換。但兩者之間的不同在于文檔模型盡可能接近的保存XML的文檔結(jié)構(gòu)，而數(shù)據(jù)綁定只關(guān)心應(yīng)用程序使用的文檔數(shù)據(jù)^[7]。如圖5所示，同一個XML文檔的文檔模型和數(shù)據(jù)綁定模型是完全不同的。

圖5 文檔模型和數(shù)據(jù)綁定模型比較

如果應(yīng)用程序使用文檔模型方法，那么獲得所需要的數(shù)據(jù)就必須在節(jié)點樹中根據(jù)父子節(jié)點關(guān)系進行遍歷。而使用數(shù)據(jù)綁定方法，只需進行正常的Java編程，訪問數(shù)據(jù)更加容易，速度也比文檔模型快得多。而且，XML數(shù)據(jù)綁定并不只是簡化編程，由于它把許多文檔細節(jié)抽象出來，所以數(shù)據(jù)綁定所需的內(nèi)存通常少于文檔模型所需的內(nèi)存，如上圖中，文檔模型方法使用了10個單獨的對象，而數(shù)據(jù)綁定才使用2個。此外，由于要構(gòu)建的對象少得多，所以為XML文檔構(gòu)建數(shù)據(jù)綁定表示還可能更快^[7]。

在XML數(shù)據(jù)綁定中最為核心的是怎樣由XML文檔生成Java對象。目前有兩種方式：映射綁定方式和代碼生成方式^[8]。在映射綁定方式中，構(gòu)建自己的Java類，并向綁定框架指定這些類如何與XML文檔相關(guān)聯(lián)。如框架Castor和Quick就支持這種方式。而代碼生成方式則根據(jù)XML文檔結(jié)構(gòu)(即DTD或Schema形式的文法)自動構(gòu)建相應(yīng)的Java類，如JAXB、Castor和JBind提供了根據(jù)XML文檔的Schema描述生成Java代碼，Quick和Zeus可根據(jù)DTD描述生成Java代碼。

代碼生成方式所構(gòu)造的類可以包括完整的數(shù)據(jù)類型信息，還能夠?qū)λ鶚?gòu)造的類進行驗證。但該方式使得程序代碼和文檔結(jié)構(gòu)之間緊密耦合，如果文檔結(jié)構(gòu)發(fā)生變化，就需要重新生成代碼。而映射綁定方式則具有更大的靈活性，其使用自己構(gòu)建的對象類將數(shù)據(jù)和行為組合在一起，通過修改映射定義(而不是改變應(yīng)用程序代碼)來處理XML文檔結(jié)構(gòu)中的微小變化，可以在一定程度上解除對象類與實際XML文檔之間的耦合^[8]。其缺點在于需要編寫較為復(fù)雜的映射文件。

Author: orangelizq
email: orangelizq@163.com

歡迎大家訪問我的個人網(wǎng)站萌萌的IT人

posted on 2009-07-19 15:25 桔子汁閱讀(17109) 評論(9) 編輯收藏所屬分類: Web Service

1 引言

2 XML解析技術(shù)分析

2.1 XML解析技術(shù)的分類

2.2 面向文檔的流式解析技術(shù)

2.2.1 推式解析(SAX解析技術(shù))

2.2.2 拉式解析(StAX解析技術(shù))

2.3 面向文檔的對象式解析技術(shù)

2.4 面向文檔的指針式解析技術(shù)

2.5 面向應(yīng)用的對象式解析技術(shù)

常用鏈接

留言簿(9)

隨筆分類(124)

隨筆檔案(127)

文章分類(5)

文章檔案(5)

Good Blog

技術(shù)網(wǎng)站

搜索

積分與排名

最新評論

閱讀排行榜


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: [轉(zhuǎn)]XML解析技術(shù)研究--馮進-國防科技大學 WSRF研究--WS-N協(xié)議族 WSRF研究--WS-ServiceGroup協(xié)議 WSRF研究--WS-BaseFault協(xié)議 WSRF研究--WS-ResourceLifetime協(xié)議 WSRF研究--WS-ResourceProperties協(xié)議 WSRF研究-WS-Resource協(xié)議 WSRF研究-WSRF歷史 XML解析技術(shù)研究(二) XML解析技術(shù)研究(一)