Java中URI,URL和URN的使用
從天極網抄錄整理 2006-1-13
URI、URL和URN是識別、定位和命名網上資源的標準途徑。本文分析了URI、URL和URN的概念,以及Java的URI和URL類(以及與URL相關的類),并演示了如何在程序中使用這些類。
Internet被認為是全球的實際和抽象的資源的集合。實際的資源包括從文件(file)到人(person),抽象的資源包括數據庫查詢等。因為要通過多樣的方式識別資源,所以需要標準的識別Internet資源的途徑。為了滿足這種需要,引入了URI、URL和URN。
URI、URL和URN的概念
URI
URI = Uniform Resource Identifier
There are two types of URIs: URLs and URNs.
See RFC 1630: Universal Resource Identifiers in WWW: A Unifying Syntax for the Expression of Names and Addresses of Objects on the Network as used in the WWW.
URL
URL = Uniform Resource Locator
See RFC 1738: Uniform Resource Locators (URL)
URN
URN = Uniform Resource Name.
URI、URL和URN是彼此關聯的。URI位于頂層,URL和URN的范疇位于底層。URL和URN都是URI的子范疇。
URI翻譯為統一資源標識,它是以某種標準化的方式標識資源的字符串。這種字符串以scheme開頭,語法如下:
[scheme:] scheme-specific-part
URI以scheme和冒號開頭。冒號把scheme與scheme-specific-part分開,并且scheme-specific-part的語法由URI的scheme決定。例如http://www.cnn.com,其中http是scheme,//www.cnn.com是 scheme-specific-part。
URI分為絕對(absolute)或相對(relative)兩類。絕對URI指以scheme(后面跟著冒號)開頭的URI。前面提到的http://www.cnn.com就是絕對的URI的一個例子,其它的例子還有mailto:jeff@javajeff.com、news:comp.lang.java.help和xyz://whatever。可以把絕對URI看作是以某種方式引用某種資源,而對環境沒有依賴。如果使用文件系統作類比,絕對URI類似于從根目錄開始的某個文件的路徑。相對URI不以scheme開始,一個例子是articles/articles.html。可以把相對URI看作是以某種方式引用某種資源,而這種方式依賴于標識符出現的環境。如果用文件系統作類比,相對URI類似于從當前目錄開始的文件路徑。
URI可以進一步分為不透明的(opaque)和分層(hierarchical)的兩類。不透明的URI指scheme-specific-part不是以‘/’開頭的絕對的URI。其例子有news:comp.lang.java和前面的mailto:jeff@javajeff.com。不透明的URI不能做進一步的解析,不需要驗證scheme-specific-part的有效性。與它不同的是,分層的URI是以‘/’開頭的絕對的URI或相對的URL。分層的URI的scheme-specific-part必須被分解為幾個組成部分。分層的URI的scheme-specific-part必須符合下面的語法:
[//authority] [path] [?query] [#fragment]
可選的授權機構(authority)標識了該URI名字空間的命名機構。如果有這一部分則以‘//’開始。它可以是基于服務器或基于授權機構的。基于授權機構有特定的語法(本文沒有討論,因為很少使用它),而基于服務器的語法如下:
[userinfo@] host [:port]
基于服務器的authority以用戶信息(例如用戶名)開始,后面跟著一個@符號,緊接著是主機的名稱,以及冒號和端口號。例如jeff@x.com:90就是一個基于服務器的authority,其中jeff為用戶信息,x.com為主機,90為端口。
可選的path根據authority(如果提供了)或schema(如果沒有authority)定義資源的位置。路徑(path)可以分成一系列的路徑片斷(path segment),每個路徑片斷使用‘/’與其它片斷隔開。如果第一個路徑片斷以‘/’開始,該路徑就被認為是絕對的,否則路徑就被認為是相對的。例如,/a/b/c由三個路徑片斷a、b和c組成,此外這個路徑是絕對的,因為第一個路徑片斷(a)的前綴是‘/’。
可選的query定義要傳遞給資源的查詢信息。資源使用該信息獲取或生成其它的的數據傳遞回調用者。例如,http://www.somesite.net/a?x=y, x=y就是一個query,在這個查詢中x是某種實體的名稱,y是該實體的值。
最后一個部分是fragment。當使用URI進行某種檢索操作時,后面執行操作的軟件使用fragment聚焦于軟件感興趣的資源部分。
分析一個例子ftp://george@x.com:90/public/notes?text=shakespeare#hamlet
上面的URI把ftp識別為schema,把george@x.com:90識別為基于服務器的authority(其中george是用戶信息,x.com是主機,90是端口),把/public/notes識別為路徑,把text=shakespeare識別為查詢,把hamlet識別為片斷。本質上它是一個叫做george的用戶希望通過/public/notes路徑在服務器x.com的90端口上檢索shakespeare文本的hamlet信息。
URI的標準化(normalize)
標準化可以通過目錄術語來理解。假定目錄x直接位于根目錄之下,x有子目錄a和b,b有文件memo.txt,a是當前目錄。為了顯示memo.txt中的內容,你可能輸入type "x"."b"memo.txt。你也可能輸入type "x"a".."b"memo.txt,在這種情況下,a和..的出現是沒有必要的。這兩種形式都不是最簡單的。但是如果輸入"x"b"memo.txt,你就指定了最簡單的路徑了,從根目錄開始訪問memo.txt。最簡單的"x"b"memo.txt路徑就是標準化的路徑。
通常通過base + relative URI訪問資源。Base URI是絕對URI,而Relative URI標識了與Base URI相對的資源。因此有必要把兩種URI通過解析過程合并,相反地從合并的URI中提取Relative URI也是可行的。
假定把x://a/作為Base URI,并把b/c作為Relative URI。Resolve這個相對URI將產生x://a/b/c。根據x://a/相對化(Relative)x://a/b/c將產生b/c。
URI不能讀取/寫入資源,這是統一的資源定位器(URL)的任務。URL是一種URI,它的schema是已知的網絡協議,并且它把URI與某種協議處理程序聯系起來(一種與資源通訊的讀/寫機制)。
URI一般不能為資源提供持久不變的名稱。這是統一的資源命名(URN)的任務。URN也是一種URI,但是全球唯一的、持久不便的,即使資源不再存在或不再使用。
使用URI
Java API通過提供URI類(位于java.net包中),使我們在代碼中使用URI成為可能。URI的構造函數建立URI對象,并且分析URI字符串,提取URI組件。URI的方法提供了如下功能:1)決定URI對象的URI是絕對的還是相對的;2)決定URI對象是opaque還是hierarchical;3)比較兩個URI對象;4)標準化(normalize)URI對象;5)根據Base URI解析某個Relative URI;6)根據Base URI計算某個URI的相對URI;7)把URI對象轉換為URL對象。
在URI里面有多個構造函數,最簡單的是URI(String uri)。這個構造函數把String類型的參數URI分解為組件,并把這些組件存儲在新的URI對象中。如果String對象的URI違反了RFC 2396的語法規則,將會產生一個java.net.URISyntaxException。
下面的代碼演示了使用URI(String uri)建立URI對象:
URI uri = new URI ("http://www.cnn.com");
|
如果知道URI是有效的,不會產生URISyntaxException,可以使用靜態的create(String uri)方法。這個方法分解uri,如果沒有違反語法規則就建立URI對象,否則將捕捉到一個內部URISyntaxException,并把該對象包裝在一個IllegalArgumentException中拋出。
下面的代碼片斷演示了create(String uri):
URI uri = URI.create ("http://www.cnn.com");
|
URI構造函數和create(String uri)方法試圖分解出URI的authority的用戶信息、主機和端口部分。對于正確形式的字符串會成功,對于錯誤形式的字符串,他們將會失敗。如果想確認某個URI的authority是基于服務器的,并且能分解出用戶信息、主機和端口,這時候可以調用URI的parseServerAuthority()方法。如果成功分解出URI,該方法將返回包含用戶信息、主機和端口部分的新URI對象,否則該方法將產生一個URISyntaxException。
下面的代碼片斷演示了parseServerAuthority():
// 下面的parseServerAuthority()調用出現后會發生什么情況?
URI uri = new URI ("http://foo:bar").parseServerAuthority();
|
一旦擁有了URI對象,你就可以通過調用getAuthority()、getFragment()、getHost()、getPath()、getPort()、getQuery()、getScheme()、getSchemeSpecificPart()和 getUserInfo()方法提取信息。以及isAbsolute()、isOpaque()等方法。
程序1: URIDemo1.java
import java.net.*;
public class URIDemo1 {
public static void main (String [] args) throws Exception {
if (args.length != 1) {
System.err.println ("usage: java URIDemo1 uri");
return;
}
URI uri = new URI (args [0]);
System.out.println ("Authority = " +uri.getAuthority ());
System.out.println ("Fragment = " +uri.getFragment ());
System.out.println ("Host = " +uri.getHost ());
System.out.println ("Path = " +uri.getPath ());
System.out.println ("Port = " +uri.getPort ());
System.out.println ("Query = " +uri.getQuery ());
System.out.println ("Scheme = " +uri.getScheme ());
System.out.println ("Scheme-specific part = " + uri.getSchemeSpecificPart ());
System.out.println ("User Info = " +uri.getUserInfo ());
System.out.println ("URI is absolute: " +uri.isAbsolute ());
System.out.println ("URI is opaque: " +uri.isOpaque ());
}
}
|
輸入java URIDemo1命令后,輸出結果如下:
query://jeff@books.com:9000/public/manuals/appliances?stove#ge
Authority = jeff@books.com:9000
Fragment = ge
Host = books.com
Path = /public/manuals/appliances
Port = 9000
Query = stove
Scheme = query
Scheme-specific part = //jeff@books.com:9000/public/manuals/appliances?stove
User Info = jeff
URI is absolute: true
URI is opaque: false
|
URI類支持基本的操作,包括標準化(normalize)、分解(resolution)和相對化(relativize)。下例演示了normalize()方法。
程序2: URIDemo2.java
import java.net.*;
class URIDemo2 {
public static void main (String [] args) throws Exception {
if (args.length != 1) {
System.err.println ("usage: java URIDemo2 uri");
return;
}
URI uri = new URI (args [0]);
System.out.println ("Normalized URI = " + uri.normalize());
}
}
|
在命令行輸入java URIDemo2 x/y/../z/./q,將看到下面的輸出:
Normalized URI = x/z/q
上面的輸出顯示y、..和.消失了。
URI通過提供resolve(String uri)、resolve(URI uri)和relativize(URI uri)方法支持反向解析和相對化操作。如果指定的URI違反了RFC 2396語法規則,resolve(String uri)通過的內部的create(String uri)調用間接地產生一個IllegalArgumentException。下面的代碼演示了resolve(String uri)和relativize(URI uri)。
程序3: URIDemo3.java
import java.net.*;
class URIDemo3 {
public static void main (String [] args) throws Exception {
if (args.length != 2) {
System.err.println ("usage: " + "java URIDemo3 uriBase uriRelative");
return;
}
URI uriBase = new URI (args [0]);
System.out.println ("Base URI = " +uriBase);
URI uriRelative = new URI (args [1]);
System.out.println ("Relative URI = " +uriRelative);
URI uriResolved = uriBase.resolve (uriRelative);
System.out.println ("Resolved URI = " +uriResolved);
URI uriRelativized = uriBase.relativize (uriResolved);
System.out.println ("Relativized URI = " +uriRelativized);
}
}
|
編譯URIDemo3后,在命令行輸入java URIDemo3 http://www.somedomain.com/ x/../y,輸出如下:
Base URI = http://www.somedomain.com/
Relative URI = x/../y
Resolved URI = http://www.somedomain.com/y
Relativized URI = y
|
使用URL
Java提供了URL類,每一個URL對象都封裝了資源標識符和協議處理程序。獲得URL對象的途徑之一是調用URI的toURL()方法,也可以直接調用URL的構造函數來建立URL對象。
URL類有多個構造函數。其中最簡單的是URL(String url),它有一個String類型的參數。如果某個URL沒有包含協議處理程序或該URL的協議是未知的,其它的構造函數會產生一個java.net.MalformedURLException。
下面的代碼片斷演示了使用URL(String url)建立一個URL對象,該對象封裝了一個簡單的URL組件和http協議處理程序。
URL url = new URL ("http://www.informit.com");
|
一旦擁有了URL對象,就可以使用getAuthority()、getDefaultPort()、 getFile()、 getHost()、 getPath()、getPort()、 getProtocol()、getQuery()、getRef()、getUserInfo()、getDefaultPort()等方法提取各種組件。如果URL中沒有指定端口,getDefaultPort()方法返回URL對象的協議默認端口。getFile()方法返回路徑和查詢組件的結合體。getProtocol()方法返回資源的連接類型(例如http、mailto、ftp)。getRef()方法返回URL的片斷。最后,getUserInfo()方法返回Authority的用戶信息部分。還可以調用openStream()方法得到java.io.InputStream引用。使用這種引用,可以用面向字節的方式讀取資源。
下面是URLDemo1的代碼。該程序建立一個URL對象,調用URL的各種方法來檢索該URL的信息,調用URL的openStream()方法打開與資源的連接并讀取/打印這些字節。
程序4: URLDemo1.java
import java.io.*;
import java.net.*;
class URLDemo1 {
public static void main (String [] args) throws IOException {
if (args.length != 1) {
System.err.println ("usage: java URLDemo1 url");
return;
}
URL url = new URL (args [0]);
System.out.println ("Authority = "+ url.getAuthority ());
System.out.println ("Default port = " +url.getDefaultPort ());
System.out.println ("File = " +url.getFile ());
System.out.println ("Host = " +url.getHost ());
System.out.println ("Path = " +url.getPath ());
System.out.println ("Port = " +url.getPort ());
System.out.println ("Protocol = " +url.getProtocol ());
System.out.println ("Query = " +url.getQuery ());
System.out.println ("Ref = " +url.getRef ());
System.out.println ("User Info = " +url.getUserInfo ());
System.out.print ('"n');
InputStream is = url.openStream ();
int ch;
while ((ch = is.read ()) != -1) {
System.out.print ((char) ch);
}
is.close ();
}
}
|
在命令行輸入java URLDemo1 http://www.javajeff.com/articles/articles/html后,上面的代碼的輸出如下:
Authority = http://www.javajeff.com
Default port = 80
File = /articles/articles.html
Host = http://www.javajeff.com
Path = /articles/articles.html
Port = -1
Protocol = http
Query = null
Ref = null
User Info = null
<html>
…
</html>
|
URL的openStream()方法返回的InputStream類型,這意味著你必須按字節次序讀取資源數據,這種做法是恰當的,因為你不知道將要讀取的數據是什么類型。如果你事先知道要讀取的數據是文本,并且每一行以換行符("n)結束,你就可以按行讀取而不是按字節讀取數據了。
下面的代碼片斷演示了把一個InputStream對象包裝進InputStreamReader以從8位過渡到16位字符,進而把結果對象包裝進BufferedReader以調用其readLine()方法。
InputStream is = url.openStream ();
BufferedReader br = new BufferedReader (new InputStreamReader (is));
String line;
while ((line = br.readLine ()) != null) {
System.out.println (line);
}
is.close ();
|
有時候按字節的次序讀取數據并不方便。例如,如果資源是JPEG文件,那么獲取一個圖像處理過程并向該過程注冊一個用戶使用數據的方法更好。如果出現這種情況,你就有必要使用getContent()方法。
當調用getContent()方法時,它會返回某種對象的引用,而你可以調用該對象的方法(在轉換成適當的類型后),采用更方便的方式取得數據。但是在調用該方法前,最好使用instanceof驗證對象的類型,防止類產生異常。
對于JPEG資源,getContent()返回一個對象,該對象實現了java.awt.Image.ImageProducer接口。下面的代碼演示了使用如何getContent()。
URL url = new URL (args [0]);
Object o = url.getContent ();
if (o instanceof ImageProducer) {
ImageProducer ip = (ImageProducer) o;
// ...
}
|
查看一下getContent()方法的源代碼,你會找到openConnection().getContent()。URL的openConnection()方法返回一個java.net.URLConnection對象。URLConnection的方法反映了資源和連接的細節信息,使我們能編寫代碼訪問資源。
下面的URLDemo2代碼演示了openConnection(),以及如何調用URLConnection的方法。
程序5: URLDemo2.java
import java.io.*;
import java.net.*;
import java.util.*;
class URLDemo2 {
public static void main (String [] args) throws IOException {
if (args.length != 1) {
System.err.println ("usage: java URLDemo2 url");
return;
}
URL url = new URL (args [0]);
// 返回代表某個資源的連接的新的特定協議對象的引用
URLConnection uc = url.openConnection ();
// 進行連接
uc.connect ();
// 打印header的內容
Map m = uc.getHeaderFields ();
Iterator i = m.entrySet ().iterator ();
while (i.hasNext ()) {
System.out.println (i.next ());
}
// 檢查是否資源允許輸入和輸出操作
System.out.println ("Input allowed = " +uc.getDoInput ());
System.out.println ("Output allowed = " +uc.getDoOutput ());
}
}
|
URLConnection的getHeaderFields()方法返回一個java.util.Map。該map包含header名稱和值的集合。header是基于文本的名稱/值對,它識別資源數據的類型、數據的長度等等。
編譯URLDemo2后,在命令行輸入java URLDemo2 http://www.javajeff.com,輸出如下:
Date=[Sun, 17 Feb 2002 17:49:32 GMT]
Connection=[Keep-Alive]
Content-Type=[text/html; charset=iso-8859-1]
Accept-Ranges=[bytes]
Content-Length=[7214]
null=[HTTP/1.1 200 OK]
ETag=["4470e-1c2e-3bf29d5a"]
Keep-Alive=[timeout=15, max=100]
Server=[Apache/1.3.19 (Unix) Debian/GNU]
Last-Modified=[Wed, 14 Nov 2001 16:35:38 GMT]
Input allowed = true
Output allowed = false
|
仔細看一下前面的輸出,會看到叫做Content-Type的東西。Content-Type識別了資源數據的類型是text/html。text部分叫做類型,html部分叫做子類型。如果內容是普通的文本,Content-Type的值可能是text/plain。text/html表明內容是文本的但是html格式的。
Content-Type是多用途Internet郵件擴展(MIME)的一部分。MIME是傳統的傳輸消息的7位ASCII標準的一種擴展。通過引入了多種header,MIME使視頻、聲音、圖像、不同字符集的文本與7位ASCII結合起來。當使用URLConnection類的時候,你會遇到getContentType()和getContentLength()。這些方法返回的值是Content-Type和Content-Length的信息。
使用URL提交HTTP請求
你也許聽說過HTML的<form>。它使我們能夠從某種資源得到(GET)數據并按后來的處理把<form>的字段數據發送(POST)到某種資源。
假設你想把<form>數據發送(POST)到某個服務器程序。首先,<form>的數據必須組織為名稱/值對(name/value pair),其次每個對必須指定為name=value格式,再次如果發送多個名稱/值對,必須使用 & 符號把每對分開。最后name內容和value的內容必須使用application/x-www-form-urlencoded MIME類型編碼。
為了輔助編碼,Java提供了java.net.URLEncoder類,它聲明了一對靜態的encode()方法。每個方法有一個String參數并返回包含已編碼的內容。例如,如果encode()發現參數中有空格,它在結果中用加號代替空格。
下面的代碼演示了調用URLEncoder的encode(String s)方法,對‘a空格b’進行編碼。結果a+b存儲在一個新的String對象中。
String result = URLEncoder.encode ("a b");
|
另一個必須完成的事務是調用URLConnection的setDoOutput(boolean doOutput)方法,其參數的值必須為true。這種事務是必要的,因為URLConnection對象在默認情況下不支持輸出。下面是URLDemo3的源代碼,它演示了把窗體數據發送給某個資源。它實現了前面提到的各種事務。
程序6: URLDemo3.java
import java.io.*;
import java.net.*;
class URLDemo3 {
public static void main (String [] args) throws IOException {
if (args.length < 2 || args.length % 2 != 0) {
System.err.println ("usage: java URLDemo3 name value " + "[name value ...]");
return;
}
URL url = new URL("http://banshee.cs.uow.edu.au:2000/~nabg/echo.cgi");
URLConnection uc = url.openConnection ();
// 驗證連接的類型,必須是HttpURLConnection的
if (!(uc instanceof HttpURLConnection)) {
System.err.println ("Wrong connection type");
return;
}
// 必須能把名/值對輸出到服務器程序資源
uc.setDoOutput (true);
// 不使用cache
uc.setUseCaches (false);
//設置Content-Type指示指定MIME類型
uc.setRequestProperty ("Content-Type", "application/x-www-form-urlencoded");
// 建立名/值對內容發送給服務器
String content = buildContent (args);
//設置Content-Length
uc.setRequestProperty ("Content-Length", "" + content.length ());
// 連接的適當類型
HttpURLConnection hc = (HttpURLConnection) uc;
// 把HTTP請求方法設置為POST(默認的是GET)
hc.setRequestMethod ("POST");
// 輸出內容
OutputStream os = uc.getOutputStream ();
DataOutputStream dos = new DataOutputStream (os);
dos.writeBytes (content);
dos.flush ();
dos.close ();
// 從服務器程序資源輸入和顯示內容
InputStream is = uc.getInputStream ();
int ch;
while ((ch = is.read ()) != -1)
System.out.print ((char) ch);
is.close ();
}
static String buildContent (String [] args) {
StringBuffer sb = new StringBuffer ();
for (int i = 0; i < args.length; i++) {
// 對參數編碼
String encodedItem = URLEncoder.encode (args [i]);
sb.append (encodedItem);
if (i % 2 == 0)
sb.append ("="); // 分離名稱和值
else
sb.append ("&"); // 分離名稱/值對
} // end for
// 刪除最后的 & 間隔符
sb.setLength (sb.length () - 1);
return sb.toString ();
}
}
|
URLDemo3編譯后,在命令行輸入java URLDemo3 name1 value1 name2 value2 name3 value3,你可以看到下面的輸出:
<html>
<head>
<title>Echoing your name value pairs</title>
</head>
<body>
<ol>
<li>name1 : value1
<li>name2 : value2
<li>name3 : value3
</ol>
<hr>
Mon Feb 18 08:58:45 2002
</body>
</html>
|
總結
本文研究了Java的網絡API,聚焦于URI、URL。你學習了這些概念,以及怎樣使用URI和URL(URL相關),同時你學習了MIME的知識以及它與URL的關系。
posted on 2008-10-04 11:54
何克勤 閱讀(2008)
評論(0) 編輯 收藏 所屬分類:
J2SE