DOM教程(什么是DOM)
作為結構的 DOM
DOM是以層次結構組織的節點或信息片斷的集合。這個層次結構允許開發人員在樹中導航儀尋找特定信息。分析該結構通常需要加載整個文檔和構造層次結構,然后才能做任何工作。由于它是基于信息層次的,因而 DOM 被認為是基于樹或基于對象的。
對于特別大的文檔,解析和加載整個文檔可能很慢且很耗資源,因此使用其他手段來處理這樣的數據會更好。這些基于事件的模型,比如 Simple API for XML(SAX),適用于處理數據流,即隨著數據的流動而依次處理數據。基于事件的 API 消除了在內存中構造樹的需要,但是卻不允許開發人員實際更改原始文檔中的數據。
另一方面,DOM 還提供了一個 API,允許開發人員添加、編輯、移動或刪除樹中任意位置的節點,從而創建一個引用程序。
解析器是一個軟件應用程序,設計用于分析文檔(這里是指 XML 文件),以及做一些特定于該信息的事情。在諸如 SAX 這樣基于事件的 API 中,解析器將向某種監聽器發送事件。在諸如 DOM 這樣基于樹的 API 中,解析器將在內存中構造一顆數據樹。
作為 API 的 DOM
從 DOM Level 1 開始,DOM API 包含了一些接口,用于表示可從 XML 文檔中找到的所有不同類型的信息。它還包含使用這些對象所必需的方法和屬性。
Level 1 包括對 XML 1.0 和 HTML 的支持,每個 HTML 元素被表示為一個接口。它包括用于添加、編輯、移動和讀取節點中包含的信息的方法,等等。然而,它沒有包括對 XML 名稱空間(XML Namespace)的支持,XML 名稱空間提供分割文檔中的信息的能力。
DOM Level 2 添加了名稱空間支持。Level 2 擴展了 Level 1,允許開發人員檢測和使用可能適用于某個節點的名稱空間信息。Level 2 還增加了幾個新的模塊,以支持級聯樣式表、事件和增強的樹操作。
當前正處于定稿階段的 DOM Level 3 包括對創建 Document 對象(以前的版本將這個任務留給實現,使得創建通用應用程序很困難)的更好支持、增強的名稱空間支持,以及用來處理文檔加載和保存、驗證以及 XPath 的新模塊;XPath 是在 XSL 轉換(XSL Transformation)以及其他 XML 技術中用來選擇節點的手段。
DOM 的模塊化意味著作為開發人員,您必須知道自己希望使用的特性是否受正在使用的 DOM 實現所支持。
確定特性可用性
DOM 推薦標準的模塊性質允許實現者挑選將要包括到產品中的部分,因而在使用某個特定的特性之前,首先確定該特性是否可用可能是必要的。本教程僅使用 DOM Level 2 Core API,不過在著手您自己的項目時,了解如何能夠檢測特性是有所幫助的。
DOM 中定義的接口之一就是 DOMImplementation。通過使用 hasFeature() 方法,您可以確定某個特定的特性是否受支持。DOM Level 2 中不存在創建DOMImplementation 的標準方法,不過下面的代碼將展示如何使用 hasFeature() 來確定 DOM Level 2 樣式表模塊在某個 Java 應用程序中是否受支持。
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.DocumentBuilder;
import org.w3c.dom.DOMImplementation;
public class ShowDomImpl {
public static void main (String args[]) {
try {
DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
DocumentBuilder docb = dbf.newDocumentBuilder();
DOMImplementation domImpl = docb.getDOMImplementation();
if (domImpl.hasFeature("StyleSheets", "2.0")) {
System.out.println("Style Sheets are supported.");
} else {
System.out.println("Style Sheets are not supported.");
}
} catch (Exception e) {}
}
}
(DOM Level 3 將包括用于創建 DOMImplementation 的標準方法。)
本教程將使用單個文檔來展示 DOM Level 2 Core API 的對象和方法。
基本的 XML 文件
本教程中的所有例子都是用了一個包含如下節點的 XML 文件,它表示輸入某個商業系統的訂單。回顧一下,XML 文件的基本組成部分包括:
XML 聲明:基本的聲明 <?xml version"1.0"?> 將這個文件定義為 XML 文檔。在聲明中指定一種字符編碼的情況并不鮮見,如下所示。通過這種方式,不管該 XML 文件使用的語言或字符編碼是什么,只要解析器理解特定的編碼,它就能夠正確地讀取該 XML 文件。
DOCTYPE 聲明:XML 是人機之間交換信息的便利手段,但是要使它能夠順利地工作,必須要有一個公共的詞匯表。可選的 DOCTYPE 聲明可用于指定一個應該用來與此文件做比較的文檔(在本例中為 orders.dtd),以確保不會產生任何混淆或丟失信息(例如,丟失一個 userid 或錯誤拼寫某個元素名稱)。以這種方式處理過的文檔稱為有效的文檔。成功的有效性檢查并不是 XML 所必需的,后面的例子實際上從文檔中省略了 DOCTYPE 聲明。
數據本身:XML 文檔中的數據必須包含在單個根元素內,比如下面的 orders 元素。要使 XML 文檔得到處理,它必須是格式良好的(well-formed)。
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE ORDERS SYSTEM "orders.dtd">
<orders>
<order>
<customerid limit="1000">12341</customerid>
<status>pending</status>
<item instock="Y" itemid="SA15">
<name>Silver Show Saddle, 16 inch</name>
<price>825.00</price>
<qty>1</qty>
</item>
<item instock="N" itemid="C49">
<name>Premium Cinch</name>
<price>49.00</price>
<qty>1</qty>
</item>
</order>
<order>
<customerid limit="150">251222</customerid>
<status>pending</status>
<item instock="Y" itemid="WB78">
<name>Winter Blanket (78 inch)</name>
<price>20</price>
<qty>10</qty>
</item>
</order>
</orders>
在 DOM 中,使用 XML 信息意味著首先將它劃分為節點。
RDF使用Schema來定義其類型系統,在定義類型時,RDF引入了部分面向對象的思想。由于RDF的圖中主要包含以下幾個部分,主語,謂語,賓語,文本。因此RDF Schema要做的主要就是為這不同的部分提供對應的一個類型。RDF Schema本身也是一個RDF文件。
<!--[if !supportLists]-->a) <!--[endif]-->繼承關系與實例關系
rdfs:subClassOf用于表示繼承關系。三元組A rdfs:subClassOf B表示A是B的子類,這與Java當中的class A extends B等價。
rdfs:type用于表示實例關系。三元組A rdfs:type B表示A是B的一個實例,這與Java當中的A = new B()等價。
<!--[if !supportLists]-->b) <!--[endif]-->類標記:
標記
|
說明
|
繼承關系(rdfs:subClassOf)
|
實例關系(rdfs:type)
|
rdfs:Resource
|
所有出現在RDF圖中的對象都屬于資源
|
|
rdfs:Class
|
rdfs:Class
|
主語和賓語。用于指明主語或賓語所屬的類型
|
rdfs:Resource
|
rdfs:Class
|
rdfs:Literal
|
文本
|
rdfs:Resource
|
rdfs:Class
|
rdfs:Datatype
|
用于有類型文本,指定數據類型
|
rdfs:Class
|
rdfs:Class
|
rdf:XMLLiteral
|
XML文本
|
rdfs:Literal
|
rdfs:Datatype
|
rdf:Property
|
謂語
|
rdfs:Resource
|
rdfs:Class
|
rdfs:Container
|
容器的基類
|
rdfs: Resource
|
rdfs:Class
|
rdf:Bag
|
|
rdfs:Container
|
rdfs:Class
|
rdf:Seq
|
|
rdfs:Container
|
rdfs:Class
|
rdf:Alt
|
|
rdfs:Container
|
rdfs:Class
|
rdf:List
|
集合
|
rdfs: Resource
|
rdfs:Class
|
rdf:nil
|
空列表
|
|
rdf:List
|
<!--[if !supportLists]-->c) <!--[endif]-->類定義:
<rdf:Description rdf:about="A">
<rdf:type rdf:resource="http://www.w3.org/2000/01/rdf-schema#Class">
<rdfs:subClassOf rdf:resource="http://www.w3.org/2000/01/rdf-schema#Resource"/>
</rdf:Description>
等價于
<rdfs:Class rdf:about="A">
<rdfs:subClassOf rdf:resource="http://www.w3.org/2000/01/rdf-schema#Resource"/>
</rdfs:Class>
<!--[if !supportLists]-->d) <!--[endif]-->范圍與域:
rdfs:range用于指定賓語的范圍。三元組P rdfs:range Q;A P B,在第一個三元組當中,我們規定了如果一個三元組使用了屬性P,那么三元組當中的賓語必須是Q的實例。第二個三元組單中,由于使用了P,所以可以得出B必定是Q的實例。
rdfs:domain用于指定主語的范圍。三元組P rdfs:range Q;A P B,在第一個三元組當中,我們規定了如果一個三元組使用了屬性P,那么三元組當中的主語必須是Q的實例。第二個三元組單中,由于使用了P,所以可以得出A必定是Q的實例。
<!--[if !supportLists]-->e) <!--[endif]-->屬性標記,所有的標記都是rdfs:Proerpty的實例
標記
|
說明
|
域,主語(rdfs:domain)
|
范圍,賓語(rdfs:range)
|
rdfs:range
|
對賓語進行約束
|
rdfs:Class
|
rdfs:Property
|
rdfs:domain
|
對主語進行約束
|
rdfs:Class
|
rdfs:Property
|
rdf:type
|
用于定義實例關系
|
rdfs:Resource
|
rdfs:Class
|
rdfs:subClassOf
|
用于定義繼承關系
|
rdfs:Class
|
rdfs:Class
|
rdfs:subPropertyOf
|
用于定義屬性之間的繼承關系。子屬性的含義是指如果A是B的子屬性,那么如果主語和賓語符合A關系,那么他們也符合B關系。
|
rdfs:Property
|
rdfs:Property
|
rdfs:label
|
提供用戶友好的標簽
|
rdfs:Resource
|
rdfs:Literal
|
rdfs:comment
|
對資源進行描述
|
rdfs:Resource
|
rdfs:Literal
|
rdfs:member
|
用于表示集合與元素之間的關系
|
rdfs:Resource
|
rdfs:Resource
|
rdf:first
|
用于指明某個資源是某個集合的首元素
|
rdf:List
|
rdfs:Resource
|
rdf:rest
|
|
rdf:List
|
rdf:List
|
<!--[if !supportLists]-->f) <!--[endif]-->屬性定義
<rdf:Property rdf:about="B">
<rdfs:domain rdf:resource="http://www.w3.org/1999/02/22-rdf-syntax-ns#List"/>
<rdfs:range rdf:resource="http://www.w3.org/1999/02/22-rdf-syntax-ns#List"/>
</rdf:Property>
RSS 是一種“輕量級、多用途、可擴展的元數據描述及聯合推廣格式”,也可以理解為一種規范。它本身是一種 XML 格式,用于為內容整合客戶端提供選擇性的、匯總過的 Web 內容。如今,許多站點都開
始通過創建 RSS feed 向瀏覽者提供內容整合服務,提供新聞、站點內容的更新等等。瀏覽者可以通過一些客戶端軟件方便地得到這些組織、匯總了的信息。
那么,怎么在我們自己的網站上創建 RSS feed 呢?下面我以 Asp+Access 為例介紹一下。
既然 RSS 是一種 XML 格式的文檔,那么我們就應當可以對后臺數據庫中的數據按照條件進行篩選、組織,然后通過 ASP 生成 XML 格式的數據流,最后發送到客戶端進行瀏覽。
數據的選取、匯集是 Asp 的拿手好戲,關鍵在于怎么生成 XML 格式的數據流。其實 Asp 也已經有自己的解決辦法,就是在寫數據前對 response 對象的 ContentType 屬性進行定義。如果 response.ContentType 的取值為 "text/xml",就會向瀏覽者發送 XML 格式的數據流。
在 IE 瀏覽器中調用 RSS 源的方法和普通的鏈接沒有什么區別,格式是:
<a type="application/rss+xml" href="RssFeed.asp">RSS說明</a>
其中 type="application/rss+xml" 加不加好象沒有什么區別。
以下程序段是創建我的網站(goaler.xicp.net)上的“某個欄目”欄目的 RSS feed 的源代碼,文件名為 RssFeed_news.asp。
其中,變量 sXmlClear 用于聲明產生的文檔是一段 XML 格式的文檔,該聲明是可選的,以保持與舊版本 XML 的向后兼容性。
sRssHead 定義 Rss 的基本元素。RSS feed 通常由 4 個主要元素構成:<channel>,<image>,<item> 和 <textinput>。其中,<channel> 元素是必需的,<item> 元素至少要出現一次。<textinput> 和 <image> 元素是可選的,是否使用要視具體情況而定。
<channel> 元素包含 Channel(RSS feed 的來源)的一個簡單描述。<title> 是頻道的名稱/標題;<link> 是與頻道內容對應的包含了完整內容的那個網頁的 URL;<description> 是與 <channel> 的內容有關的簡單描述;<language> 代表語言。還有一些別的屬性,不是太常用。
<item> 元素用于對數據庫中的記錄進行描述。<item> 一般有若干項,對應了一個 Rss feed 的數據集合。
<!-Filename:RssFeed_news.asp:-->
<% Option explicit %>
<!-- #include file="conn.asp" -->
<%
Dim sSQL, rs, sCrLf, sXmlClear, sRssHead, sRssEnd
sCrLf = chr(13) & chr(10) '回車+換行
sXmlClear = "<?xml version='1.0' encoding='gb2312'?>" & sCrLf
sRssHead = "<rss version='2.0'>" & sCrLf
sRssHead = sRssHead & "<channel>" & sCrLf
sRssHead = sRssHead & "<title>Goaler's Blog </title>" & sCrLf
sRssHead = sRssHead & "<description> Goaler's Blog </description>" & sCrLf
sRssHead = sRssHead & "<link></link>" & sCrLf
sRssHead = sRssHead & "<language>zh-cn</language>" & sCrLf
sRssHead = sRssHead & "<docs>Goaler's Blog </docs>" & sCrLf
sRssHead = sRssHead & "<generator>Rss Generator By goaler.xicp.net</generator>" & sCrLf
sRssEnd = "</channel></rss>"
Response.CharSet="gb2312" '數據集
Response.ContentType="text/xml" '數據流格式定義
'輸出:
Response.write sXmlClear
Response.write sRssHead
sSQL="select top 15 * from news order by sortid desc"
Set rs = Server.CreateObject("ADODB.Recordset")
rs.Open sSQL, s_Conn, 1, 1
if not (rs.eof and rs.bof) then
do while not rs.eof
response.write "<item>" & sCrLf
response.write "<title> " & rs("f_topic") & " </title>" & sCrLf
response.write "<link> " & "/show_new.asp?autoid=" & rs("f_i_autoid") & " </link>" & sCrLf
response.write "<author> " & rs("f_author") & " </author>" & sCrLf
response.write "<pubDate> " & rs("f_datetime") & " </pubDate>" & sCrLf
response.write "</item>" & sCrLf & sCrLf
rs.movenext
loop
end if
rs.close
set rs=nothing
Response.write sRssEnd
%>
IE 中的調用格式是:<a href="/RssFeed_news.asp">技術新聞RSS</a>。如果用一些客戶端軟件訂閱該 RSS,訂閱的 Url 就是/RssFeed_news.asp。