亚洲AV电影天堂男人的天堂,久久亚洲私人国产精品,亚洲色偷偷综合亚洲AVYP

字符，字節(jié)和編碼三者的關(guān)系

1. 編碼問題的由來，相關(guān)概念的理解
1.1 字符與編碼的發(fā)展
從計(jì)算機(jī)對多國語言的支持角度看，大致可以分為三個(gè)階段：

　系統(tǒng)內(nèi)碼說明系統(tǒng)
階段一 ASCII 計(jì)算機(jī)剛開始只支持英語，其它語言不能夠在計(jì)算機(jī)上存儲和顯示。英文 DOS
階段二 ANSI編碼
（本地化）為使計(jì)算機(jī)支持更多語言，通常使用 0x80~0xFF 范圍的 2 個(gè)字節(jié)來表示 1 個(gè)字符。比如：漢字 '中' 在中文操作系統(tǒng)中，使用 [0xD6,0xD0] 這兩個(gè)字節(jié)存儲。

不同的國家和地區(qū)制定了不同的標(biāo)準(zhǔn)，由此產(chǎn)生了 GB2312, BIG5, JIS 等各自的編碼標(biāo)準(zhǔn)。這些使用 2 個(gè)字節(jié)來代表一個(gè)字符的各種漢字延伸編碼方式，稱為 ANSI 編碼。在簡體中文系統(tǒng)下，ANSI 編碼代表 GB2312 編碼，在日文操作系統(tǒng)下，ANSI 編碼代表 JIS 編碼。

不同 ANSI 編碼之間互不兼容，當(dāng)信息在國際間交流時(shí)，無法將屬于兩種語言的文字，存儲在同一段 ANSI 編碼的文本中。中文 DOS，中文 Windows 95/98，日文 Windows 95/98
階段三 UNICODE
（國際化）為了使國際間信息交流更加方便，國際組織制定了 UNICODE 字符集，為各種語言中的每一個(gè)字符設(shè)定了統(tǒng)一并且唯一的數(shù)字編號，以滿足跨語言、跨平臺進(jìn)行文本轉(zhuǎn)換、處理的要求。 Windows NT/2000/XP，Linux，Java

字符串在內(nèi)存中的存放方法：

在 ASCII 階段，單字節(jié)字符串使用一個(gè)字節(jié)存放一個(gè)字符（SBCS）。比如，"Bob123" 在內(nèi)存中為：

42 6F 62 31 32 33 00

B o b 1 2 3 \0

在使用 ANSI 編碼支持多種語言階段，每個(gè)字符使用一個(gè)字節(jié)或多個(gè)字節(jié)來表示（MBCS），因此，這種方式存放的字符也被稱作多字節(jié)字符。比如，"中文123" 在中文 Windows 95 內(nèi)存中為7個(gè)字節(jié)，每個(gè)漢字占2個(gè)字節(jié)，每個(gè)英文和數(shù)字字符占1個(gè)字節(jié)：

D6 D0 CE C4 31 32 33 00

中文 1 2 3 \0

在 UNICODE 被采用之后，計(jì)算機(jī)存放字符串時(shí)，改為存放每個(gè)字符在 UNICODE 字符集中的序號。目前計(jì)算機(jī)一般使用 2 個(gè)字節(jié)（16 位）來存放一個(gè)序號（DBCS），因此，這種方式存放的字符也被稱作寬字節(jié)字符。比如，字符串 "中文123" 在 Windows 2000 下，內(nèi)存中實(shí)際存放的是 5 個(gè)序號：

2D 4E 87 65 31 00 32 00 33 00 00 00 ← 在 x86 CPU 中，低字節(jié)在前

中文 1 2 3 \0 　

一共占 10 個(gè)字節(jié)。

回頁首

1.2 字符，字節(jié)，字符串
理解編碼的關(guān)鍵，是要把字符的概念和字節(jié)的概念理解準(zhǔn)確。這兩個(gè)概念容易混淆，我們在此做一下區(qū)分：

　概念描述舉例
字符人們使用的記號，抽象意義上的一個(gè)符號。 '1', '中', 'a', '$', '￥', ……
字節(jié) 計(jì)算機(jī)中存儲數(shù)據(jù)的單元，一個(gè)8位的二進(jìn)制數(shù)，是一個(gè)很具體的存儲空間。 0x01, 0x45, 0xFA, ……
ANSI
字符串在內(nèi)存中，如果“字符”是以 ANSI 編碼形式存在的，一個(gè)字符可能使用一個(gè)字節(jié)或多個(gè)字節(jié)來表示，那么我們稱這種字符串為 ANSI 字符串或者多字節(jié)字符串。 "中文123"
（占7字節(jié)）
UNICODE
字符串在內(nèi)存中，如果“字符”是以在 UNICODE 中的序號存在的，那么我們稱這種字符串為 UNICODE 字符串或者寬字節(jié)字符串。 L"中文123"
（占10字節(jié)）

由于不同 ANSI 編碼所規(guī)定的標(biāo)準(zhǔn)是不相同的，因此，對于一個(gè)給定的多字節(jié)字符串，我們必須知道它采用的是哪一種編碼規(guī)則，才能夠知道它包含了哪些“字符”。而對于 UNICODE 字符串來說，不管在什么環(huán)境下，它所代表的“字符”內(nèi)容總是不變的。

回頁首

1.3 字符集與編碼
各個(gè)國家和地區(qū)所制定的不同 ANSI 編碼標(biāo)準(zhǔn)中，都只規(guī)定了各自語言所需的“字符”。比如：漢字標(biāo)準(zhǔn)（GB2312）中沒有規(guī)定韓國語字符怎樣存儲。這些 ANSI 編碼標(biāo)準(zhǔn)所規(guī)定的內(nèi)容包含兩層含義：

使用哪些字符。也就是說哪些漢字，字母和符號會(huì)被收入標(biāo)準(zhǔn)中。所包含“字符”的集合就叫做“字符集”。
規(guī)定每個(gè)“字符”分別用一個(gè)字節(jié)還是多個(gè)字節(jié)存儲，用哪些字節(jié)來存儲，這個(gè)規(guī)定就叫做“編碼”。
各個(gè)國家和地區(qū)在制定編碼標(biāo)準(zhǔn)的時(shí)候，“字符的集合”和“編碼”一般都是同時(shí)制定的。因此，平常我們所說的“字符集”，比如：GB2312, GBK, JIS 等，除了有“字符的集合”這層含義外，同時(shí)也包含了“編碼”的含義。

“UNICODE 字符集”包含了各種語言中使用到的所有“字符”。用來給 UNICODE 字符集編碼的標(biāo)準(zhǔn)有很多種，比如：UTF-8, UTF-7, UTF-16, UnicodeLittle, UnicodeBig 等。

1.4 常用的編碼簡介
簡單介紹一下常用的編碼規(guī)則，為后邊的章節(jié)做一個(gè)準(zhǔn)備。在這里，我們根據(jù)編碼規(guī)則的特點(diǎn)，把所有的編碼分成三類：

分類編碼標(biāo)準(zhǔn) 說明
單字節(jié)字符編碼 ISO-8859-1 最簡單的編碼規(guī)則，每一個(gè)字節(jié)直接作為一個(gè) UNICODE 字符。比如，[0xD6, 0xD0] 這兩個(gè)字節(jié)，通過 iso-8859-1 轉(zhuǎn)化為字符串時(shí)，將直接得到 [0x00D6, 0x00D0] 兩個(gè) UNICODE 字符，即 "ÖÐ"。

反之，將 UNICODE 字符串通過 iso-8859-1 轉(zhuǎn)化為字節(jié)串時(shí)，只能正常轉(zhuǎn)化 0~255 范圍的字符。
ANSI 編碼 GB2312,
BIG5,
Shift_JIS,
ISO-8859-2 …… 把 UNICODE 字符串通過 ANSI 編碼轉(zhuǎn)化為“字節(jié)串”時(shí)，根據(jù)各自編碼的規(guī)定，一個(gè) UNICODE 字符可能轉(zhuǎn)化成一個(gè)字節(jié)或多個(gè)字節(jié)。

反之，將字節(jié)串轉(zhuǎn)化成字符串時(shí)，也可能多個(gè)字節(jié)轉(zhuǎn)化成一個(gè)字符。比如，[0xD6, 0xD0] 這兩個(gè)字節(jié)，通過 GB2312 轉(zhuǎn)化為字符串時(shí)，將得到 [0x4E2D] 一個(gè)字符，即 '中' 字。

“ANSI 編碼”的特點(diǎn)：
1. 這些“ANSI 編碼標(biāo)準(zhǔn)”都只能處理各自語言范圍之內(nèi)的 UNICODE 字符。
2. “UNICODE 字符”與“轉(zhuǎn)換出來的字節(jié)”之間的關(guān)系是人為規(guī)定的。
UNICODE 編碼 UTF-8,
UTF-16, UnicodeBig …… 與“ANSI 編碼”類似的，把字符串通過 UNICODE 編碼轉(zhuǎn)化成“字節(jié)串”時(shí)，一個(gè) UNICODE 字符可能轉(zhuǎn)化成一個(gè)字節(jié)或多個(gè)字節(jié)。

與“ANSI 編碼”不同的是：
1. 這些“UNICODE 編碼”能夠處理所有的 UNICODE 字符。
2. “UNICODE 字符”與“轉(zhuǎn)換出來的字節(jié)”之間是可以通過計(jì)算得到的。

我們實(shí)際上沒有必要去深究每一種編碼具體把某一個(gè)字符編碼成了哪幾個(gè)字節(jié)，我們只需要知道“編碼”的概念就是把“字符”轉(zhuǎn)化成“字節(jié)”就可以了。對于“UNICODE 編碼”，由于它們是可以通過計(jì)算得到的，因此，在特殊的場合，我們可以去了解某一種“UNICODE 編碼”是怎樣的規(guī)則。

2. 字符與編碼在程序中的實(shí)現(xiàn)
2.1 程序中的字符與字節(jié)
在 C++ 和 Java 中，用來代表“字符”和“字節(jié)”的數(shù)據(jù)類型，以及進(jìn)行編碼的方法：

類型或操作 C++ Java
字符 wchar_t char
字節(jié) char byte
ANSI 字符串 char[] byte[]
UNICODE 字符串 wchar_t[] String
字節(jié)串→字符串 mbstowcs(), MultiByteToWideChar() string = new String(bytes, "encoding")
字符串→字節(jié)串 wcstombs(), WideCharToMultiByte() bytes = string.getBytes("encoding")

以上需要注意幾點(diǎn)：

Java 中的 char 代表一個(gè)“UNICODE 字符（寬字節(jié)字符）”，而 C++ 中的 char 代表一個(gè)字節(jié)。
MultiByteToWideChar() 和 WideCharToMultiByte() 是 Windows API 函數(shù)。

2.2 C++ 中相關(guān)實(shí)現(xiàn)方法
聲明一段字符串常量：

// ANSI 字符串，內(nèi)容長度 7 字節(jié)
char sz[20] = "中文123";

// UNICODE 字符串，內(nèi)容長度 5 個(gè) wchar_t（10 字節(jié)）
wchar_t wsz[20] = L"\x4E2D\x6587\x0031\x0032\x0033";

UNICODE 字符串的 I/O 操作，字符與字節(jié)的轉(zhuǎn)換操作：

// 運(yùn)行時(shí)設(shè)定當(dāng)前 ANSI 編碼，VC 格式
setlocale(LC_ALL, ".936");

// GCC 中格式
setlocale(LC_ALL, "zh_CN.GBK");

// Visual C++ 中使用小寫 %s，按照 setlocale 指定編碼輸出到文件
// GCC 中使用大寫 %S
fwprintf(fp, L"%s\n", wsz);

// 把 UNICODE 字符串按照 setlocale 指定的編碼轉(zhuǎn)換成字節(jié)
wcstombs(sz, wsz, 20);
// 把字節(jié)串按照 setlocale 指定的編碼轉(zhuǎn)換成 UNICODE 字符串
mbstowcs(wsz, sz, 20);

在 Visual C++ 中，UNICODE 字符串常量有更簡單的表示方法。如果源程序的編碼與當(dāng)前默認(rèn) ANSI 編碼不符，則需要使用 #pragma setlocale，告訴編譯器源程序使用的編碼：

// 如果源程序的編碼與當(dāng)前默認(rèn) ANSI 編碼不一致，
// 則需要此行，編譯時(shí)用來指明當(dāng)前源程序使用的編碼
#pragma setlocale(".936")

// UNICODE 字符串常量，內(nèi)容長度 10 字節(jié)
wchar_t wsz[20] = L"中文123";

以上需要注意 #pragma setlocale 與 setlocale(LC_ALL, "") 的作用是不同的，#pragma setlocale 在編譯時(shí)起作用，setlocale() 在運(yùn)行時(shí)起作用。

2.3 Java 中相關(guān)實(shí)現(xiàn)方法
字符串類 String 中的內(nèi)容是 UNICODE 字符串：

// Java 代碼，直接寫中文
String string = "中文123";//come from http://www.bt285.cn http://www.5a520.cn

// 得到長度為 5，因?yàn)槭?5 個(gè)字符
System.out.println(string.length());

字符串 I/O 操作，字符與字節(jié)轉(zhuǎn)換操作。在 Java 包 java.io.* 中，以“Stream”結(jié)尾的類一般是用來操作“字節(jié)串”的類，以“Reader”，“Writer”結(jié)尾的類一般是用來操作“字符串”的類。

// 字符串與字節(jié)串間相互轉(zhuǎn)化

// 按照 GB2312 得到字節(jié)（得到多字節(jié)字符串）
byte [] bytes = string.getBytes("GB2312");

// 從字節(jié)按照 GB2312 得到 UNICODE 字符串
string = new String(bytes, "GB2312");

// 要將 String 按照某種編碼寫入文本文件，有兩種方法：

// 第一種辦法：用 Stream 類寫入已經(jīng)按照指定編碼轉(zhuǎn)化好的字節(jié)串
OutputStream os = new FileOutputStream("1.txt");
os.write(bytes);
os.close();

// 第二種辦法：構(gòu)造指定編碼的 Writer 來寫入字符串
Writer ow = new OutputStreamWriter(new FileOutputStream("2.txt"), "GB2312");
ow.write(string);
ow.close();

/* 最后得到的 1.txt 和 2.txt 都是 7 個(gè)字節(jié) */

如果 java 的源程序編碼與當(dāng)前默認(rèn) ANSI 編碼不符，則在編譯的時(shí)候，需要指明一下源程序的編碼。比如：

E:\>javac -encoding BIG5 Hello.java

以上需要注意區(qū)分源程序的編碼與 I/O 操作的編碼，前者是在編譯時(shí)起作用，后者是在運(yùn)行時(shí)起作用。

3. 幾種誤解，以及亂碼產(chǎn)生的原因和解決辦法
3.1 容易產(chǎn)生的誤解
　對編碼的誤解
誤解一在將“字節(jié)串”轉(zhuǎn)化成“UNICODE 字符串”時(shí)，比如在讀取文本文件時(shí)，或者通過網(wǎng)絡(luò)傳輸文本時(shí)，容易將“字節(jié)串”簡單地作為單字節(jié)字符串，采用每“一個(gè)字節(jié)”就是“一個(gè)字符”的方法進(jìn)行轉(zhuǎn)化。

而實(shí)際上，在非英文的環(huán)境中，應(yīng)該將“字節(jié)串”作為 ANSI 字符串，采用適當(dāng)?shù)木幋a來得到 UNICODE 字符串，有可能“多個(gè)字節(jié)”才能得到“一個(gè)字符”。

通常，一直在英文環(huán)境下做開發(fā)的程序員們，容易有這種誤解。
誤解二在 DOS，Windows 98 等非 UNICODE 環(huán)境下，字符串都是以 ANSI 編碼的字節(jié)形式存在的。這種以字節(jié)形式存在的字符串，必須知道是哪種編碼才能被正確地使用。這使我們形成了一個(gè)慣性思維：“字符串的編碼”。

當(dāng) UNICODE 被支持后，Java 中的 String 是以字符的“序號”來存儲的，不是以“某種編碼的字節(jié)”來存儲的，因此已經(jīng)不存在“字符串的編碼”這個(gè)概念了。只有在“字符串”與“字節(jié)串”轉(zhuǎn)化時(shí)，或者，將一個(gè)“字節(jié)串”當(dāng)成一個(gè) ANSI 字符串時(shí)，才有編碼的概念。

不少的人都有這個(gè)誤解。

第一種誤解，往往是導(dǎo)致亂碼產(chǎn)生的原因。第二種誤解，往往導(dǎo)致本來容易糾正的亂碼問題變得更復(fù)雜。

在這里，我們可以看到，其中所講的“誤解一”，即采用每“一個(gè)字節(jié)”就是“一個(gè)字符”的轉(zhuǎn)化方法，實(shí)際上也就等同于采用 iso-8859-1 進(jìn)行轉(zhuǎn)化。因此，我們常常使用 bytes = string.getBytes("iso-8859-1") 來進(jìn)行逆向操作，得到原始的“字節(jié)串”。然后再使用正確的 ANSI 編碼，比如 string = new String(bytes, "GB2312")，來得到正確的“UNICODE 字符串”。

3.2 非 UNICODE 程序在不同語言環(huán)境間移植時(shí)的亂碼
非 UNICODE 程序中的字符串，都是以某種 ANSI 編碼形式存在的。如果程序運(yùn)行時(shí)的語言環(huán)境與開發(fā)時(shí)的語言環(huán)境不同，將會(huì)導(dǎo)致 ANSI 字符串的顯示失敗。

比如，在日文環(huán)境下開發(fā)的非 UNICODE 的日文程序界面，拿到中文環(huán)境下運(yùn)行時(shí)，界面上將顯示亂碼。如果這個(gè)日文程序界面改為采用 UNICODE 來記錄字符串，那么當(dāng)在中文環(huán)境下運(yùn)行時(shí)，界面上將可以顯示正常的日文。

由于客觀原因，有時(shí)候我們必須在中文操作系統(tǒng)下運(yùn)行非 UNICODE 的日文軟件，這時(shí)我們可以采用一些工具，比如，南極星，AppLocale 等，暫時(shí)的模擬不同的語言環(huán)境。

3.3 網(wǎng)頁提交字符串
當(dāng)頁面中的表單提交字符串時(shí)，首先把字符串按照當(dāng)前頁面的編碼，轉(zhuǎn)化成字節(jié)串。然后再將每個(gè)字節(jié)轉(zhuǎn)化成 "%XX" 的格式提交到 Web 服務(wù)器。比如，一個(gè)編碼為 GB2312 的頁面，提交 "中" 這個(gè)字符串時(shí)，提交給服務(wù)器的內(nèi)容為 "%D6%D0"。

在服務(wù)器端，Web 服務(wù)器把收到的 "%D6%D0" 轉(zhuǎn)化成 [0xD6, 0xD0] 兩個(gè)字節(jié)，然后再根據(jù) GB2312 編碼規(guī)則得到 "中" 字。

在 Tomcat 服務(wù)器中，request.getParameter() 得到亂碼時(shí)，常常是因?yàn)榍懊嫣岬降?#8220;誤解一”造成的。默認(rèn)情況下，當(dāng)提交 "%D6%D0" 給 Tomcat 服務(wù)器時(shí)，request.getParameter() 將返回 [0x00D6, 0x00D0] 兩個(gè) UNICODE 字符，而不是返回一個(gè) "中" 字符。因此，我們需要使用 bytes = string.getBytes("iso-8859-1") 得到原始的字節(jié)串，再用 string = new String(bytes, "GB2312") 重新得到正確的字符串 "中"。

3.4 從數(shù)據(jù)庫讀取字符串
通過數(shù)據(jù)庫客戶端（比如 ODBC 或 JDBC）從數(shù)據(jù)庫服務(wù)器中讀取字符串時(shí)，客戶端需要從服務(wù)器獲知所使用的 ANSI 編碼。當(dāng)數(shù)據(jù)庫服務(wù)器發(fā)送字節(jié)流給客戶端時(shí)，客戶端負(fù)責(zé)將字節(jié)流按照正確的編碼轉(zhuǎn)化成 UNICODE 字符串。

如果從數(shù)據(jù)庫讀取字符串時(shí)得到亂碼，而數(shù)據(jù)庫中存放的數(shù)據(jù)又是正確的，那么往往還是因?yàn)榍懊嫣岬降?#8220;誤解一”造成的。解決的辦法還是通過 string = new String( string.getBytes("iso-8859-1"), "GB2312") 的方法，重新得到原始的字節(jié)串，再重新使用正確的編碼轉(zhuǎn)化成字符串。

3.5 電子郵件中的字符串
當(dāng)一段 Text 或者 HTML 通過電子郵件傳送時(shí)，發(fā)送的內(nèi)容首先通過一種指定的字符編碼轉(zhuǎn)化成“字節(jié)串”，然后再把“字節(jié)串”通過一種指定的傳輸編碼（Content-Transfer-Encoding）進(jìn)行轉(zhuǎn)化得到另一串“字節(jié)串”。比如，打開一封電子郵件源代碼，可以看到類似的內(nèi)容：

Content-Type: text/plain;
charset="gb2312"
Content-Transfer-Encoding: base64

sbG+qcrQuqO17cf4yee74bGjz9W7+b3wudzA7dbQ0MQNCg0KvPKzxqO6uqO17cnnsaPW0NDEDQoNCg==

最常用的 Content-Transfer-Encoding 有 Base64 和 Quoted-Printable 兩種。在對二進(jìn)制文件或者中文文本進(jìn)行轉(zhuǎn)化時(shí)，Base64 得到的“字節(jié)串”比 Quoted-Printable 更短。在對英文文本進(jìn)行轉(zhuǎn)化時(shí)，Quoted-Printable 得到的“字節(jié)串”比 Base64 更短。

郵件的標(biāo)題，用了一種更簡短的格式來標(biāo)注“字符編碼”和“傳輸編碼”。比如，標(biāo)題內(nèi)容為 "中"，則在郵件源代碼中表示為：

// 正確的標(biāo)題格式
Subject: =?GB2312?B?1tA=?=

其中，

第一個(gè)“=?”與“?”中間的部分指定了字符編碼，在這個(gè)例子中指定的是 GB2312。
“?”與“?”中間的“B”代表 Base64。如果是“Q”則代表 Quoted-Printable。
最后“?”與“?=”之間的部分，就是經(jīng)過 GB2312 轉(zhuǎn)化成字節(jié)串，再經(jīng)過 Base64 轉(zhuǎn)化后的標(biāo)題內(nèi)容。
如果“傳輸編碼”改為 Quoted-Printable，同樣，如果標(biāo)題內(nèi)容為 "中"：

// 正確的標(biāo)題格式
Subject: =?GB2312?Q?=D6=D0?=

如果閱讀郵件時(shí)出現(xiàn)亂碼，一般是因?yàn)?#8220;字符編碼”或“傳輸編碼”指定有誤，或者是沒有指定。比如，有的發(fā)郵件組件在發(fā)送郵件時(shí)，標(biāo)題 "中"：

// 錯(cuò)誤的標(biāo)題格式
Subject: =?ISO-8859-1?Q?=D6=D0?=

這樣的表示，實(shí)際上是明確指明了標(biāo)題為 [0x00D6, 0x00D0]，即 "ÖÐ"，而不是 "中"。

4. 幾種錯(cuò)誤理解的糾正
誤解：“ISO-8859-1 是國際編碼？”
非也。iso-8859-1 只是單字節(jié)字符集中最簡單的一種，也就是“字節(jié)編號”與“UNICODE 字符編號”一致的那種編碼規(guī)則。當(dāng)我們要把一個(gè)“字節(jié)串”轉(zhuǎn)化成“字符串”，而又不知道它是哪一種 ANSI 編碼時(shí)，先暫時(shí)地把“每一個(gè)字節(jié)”作為“一個(gè)字符”進(jìn)行轉(zhuǎn)化，不會(huì)造成信息丟失。然后再使用 bytes = string.getBytes("iso-8859-1") 的方法可恢復(fù)到原始的字節(jié)串。

誤解：“Java 中，怎樣知道某個(gè)字符串的內(nèi)碼？”
Java 中，字符串類 java.lang.String 處理的是 UNICODE 字符串，不是 ANSI 字符串。我們只需要把字符串作為“抽象的符號的串”來看待。因此不存在字符串的內(nèi)碼的問題。

posted @ 2009-06-03 20:19 江蘇520| 編輯收藏

java異常處理筆記

摘要: 對于一個(gè)非常熟悉 C++ 異常處理模型的程序員來說，它幾乎可以不經(jīng)任何其它培訓(xùn)和學(xué)習(xí)，就可以完全接受和能夠輕松地使用 Java 語言中的異常處理編程方法。這是因?yàn)?Java 語言中的異常處理模型幾乎與 C++ 中異常處理模型有 99% 的相似度，無論是從語法規(guī)則，還是語義上來說，它們二者都幾乎完全一致... 閱讀全文

posted @ 2009-06-02 21:39 江蘇520| 編輯收藏

java多線程問題及處理(筆記)

1.死鎖
多線程編程在實(shí)際的網(wǎng)絡(luò)程序開發(fā)中，在客戶端程序?qū)崿F(xiàn)中使用的比較簡單，但是在服務(wù)器端程序?qū)崿F(xiàn)中卻不僅是大量使用，而且會(huì)出現(xiàn)比客戶端更多的問題。

另外一個(gè)容易在服務(wù)器端出現(xiàn)的多線程問題是——死鎖。死鎖指兩個(gè)或兩個(gè)以上的線程為了使用某個(gè)臨界資源而無限制的等待下去。還是以前面衛(wèi)生間的例子來說明死鎖，例如兩個(gè)人都同時(shí)到達(dá)衛(wèi)生間，而且兩個(gè)人都比較禮貌，第一個(gè)人和第二個(gè)人說：你先吧，第二個(gè)人和第一個(gè)人說：你先吧。這兩個(gè)人就這樣一直在互相禮讓，誰也不進(jìn)入，這種現(xiàn)象就是死鎖。這里的兩個(gè)人就好比是線程，而衛(wèi)生間在這里就是臨界資源，而由于這兩個(gè)線程在一直謙讓，誰也不使用臨界資源。

死鎖不僅使程序無法達(dá)到預(yù)期實(shí)現(xiàn)的功能，而且浪費(fèi)系統(tǒng)的資源，所以在服務(wù)器端程序中危害比較大，在實(shí)際的服務(wù)器端程序開發(fā)中，需要注意避免死鎖。

而死鎖的檢測比較麻煩，而且不一定每次都出現(xiàn)，這就需要在測試服務(wù)器端程序時(shí)，有足夠的耐心，仔細(xì)觀察程序執(zhí)行時(shí)的性能檢測，如果發(fā)現(xiàn)執(zhí)行的性能顯著降低，則很可能是發(fā)生了死鎖，然后再具體的查找死鎖出現(xiàn)的原因，并解決死鎖的問題。

死鎖出現(xiàn)的最本質(zhì)原因還是邏輯處理不夠嚴(yán)謹(jǐn)，在考慮時(shí)不是很周全，所以一般需要修改程序邏輯才能夠很好的解決死鎖。

2. 線程優(yōu)先級
在日常生活中，例如火車售票窗口等經(jīng)?？梢钥吹?#8220;XXX優(yōu)先”，那么多線程編程中每個(gè)線程是否也可以設(shè)置優(yōu)先級呢？

在多線程編程中，支持為每個(gè)線程設(shè)置優(yōu)先級。優(yōu)先級高的線程在排隊(duì)執(zhí)行時(shí)會(huì)獲得更多的CPU執(zhí)行時(shí)間，得到更快的響應(yīng)。在實(shí)際程序中，可以根據(jù)邏輯的需要，將需要得到及時(shí)處理的線程設(shè)置成較高的優(yōu)先級，而把對時(shí)間要求不高的線程設(shè)置成比較低的優(yōu)先級。

在Thread類中，總計(jì)規(guī)定了三個(gè)優(yōu)先級，分別為：

l MAX_PRIORITY——最高優(yōu)先級

l NORM_PRIORITY——普通優(yōu)先級，也是默認(rèn)優(yōu)先級

l MIN_PRIORITY——最低優(yōu)先級

在前面創(chuàng)建的線程對象中，由于沒有設(shè)置線程的優(yōu)先級，則線程默認(rèn)的優(yōu)先級是NORM_PRIORITY，在實(shí)際使用時(shí)，也可以根據(jù)需要使用Thread類中的setPriority方法設(shè)置線程的優(yōu)先級，該方法的聲明為：

public final void setPriority(int newPriority)

假設(shè)t是一個(gè)初始化過的線程對象，需要設(shè)置t的優(yōu)先級為最高，則實(shí)現(xiàn)的代碼為：

t. setPriority(Thread. MAX_PRIORITY);

這樣，在該線程執(zhí)行時(shí)將獲得更多的執(zhí)行機(jī)會(huì)，也就是優(yōu)先執(zhí)行。如果由于安全等原因，不允許設(shè)置線程的優(yōu)先級，則會(huì)拋出SecurityException異常。

下面使用一個(gè)簡單的輸出數(shù)字的線程演示線程優(yōu)先級的使用，實(shí)現(xiàn)的示例代碼如下：

package priority;

/**

* 測試線程優(yōu)先級

* author by http://www.bt285.cn http://www.5a520.cn

*/

public class TestPriority {

public static void main(String[] args) {

PrintNumberThread p1 = new PrintNumberThread("高優(yōu)先級");

PrintNumberThread p2 = new PrintNumberThread("普通優(yōu)先級");

PrintNumberThread p3 = new PrintNumberThread("低優(yōu)先級");

p1.setPriority(Thread.MAX_PRIORITY);

p2.setPriority(Thread.NORM_PRIORITY);

p3.setPriority(Thread.MIN_PRIORITY);

p1.start();

p2.start();

p3.start();

}

package priority;

/**

* 輸出數(shù)字的線程

*/

public class PrintNumberThread extends Thread {

String name;

public PrintNumberThread(String name){

this.name = name;

}

public void run(){

try{

for(int i = 0;i < 10;i++){

System.out.println(name + ":" + i);

}

}catch(Exception e){}

}

程序的一種執(zhí)行結(jié)果為：

高優(yōu)先級:0

高優(yōu)先級:1

高優(yōu)先級:2

普通優(yōu)先級:0

高優(yōu)先級:3

普通優(yōu)先級:1

高優(yōu)先級:4

普通優(yōu)先級:2

高優(yōu)先級:5

高優(yōu)先級:6

高優(yōu)先級:7

高優(yōu)先級:8

高優(yōu)先級:9

普通優(yōu)先級:3

普通優(yōu)先級:4

普通優(yōu)先級:5

普通優(yōu)先級:6

普通優(yōu)先級:7

普通優(yōu)先級:8

普通優(yōu)先級:9

低優(yōu)先級:0

低優(yōu)先級:1

低優(yōu)先級:2

低優(yōu)先級:3

低優(yōu)先級:4

低優(yōu)先級:5

低優(yōu)先級:6

低優(yōu)先級:7

低優(yōu)先級:8

低優(yōu)先級:9

在該示例程序，PrintNumberThread線程實(shí)現(xiàn)的功能是輸出數(shù)字，每次數(shù)字輸出之間沒有設(shè)置時(shí)間延遲，在測試類TestPriority中創(chuàng)建三個(gè)PrintNumberThread類型的線程對象，然后分別設(shè)置線程優(yōu)先級是最高、普通和最低，接著啟動(dòng)線程執(zhí)行程序。從執(zhí)行結(jié)果可以看出高優(yōu)先級的線程獲得了更多的執(zhí)行時(shí)間，首先執(zhí)行完成，而低優(yōu)先級的線程由于優(yōu)先級較低，所以最后一個(gè)執(zhí)行結(jié)束。

其實(shí)，對于線程優(yōu)先級的管理主要由系統(tǒng)的線程調(diào)度實(shí)現(xiàn)，較高優(yōu)先級的線程優(yōu)先執(zhí)行，所以可以通過設(shè)置線程的優(yōu)先級影響線程的執(zhí)行。

5 總結(jié)
關(guān)于多線程的基礎(chǔ)知識就介紹這么多，在本章中介紹了線程的概念、線程的實(shí)現(xiàn)方式以及使用多線程時(shí)會(huì)遇到的問題以及解決辦法，而需要建立多線程的概念，也就是并發(fā)編程的概念還需要進(jìn)行比較多的練習(xí)，理解多線程的概念并熟悉多線程的編程。

而關(guān)于多線程編程的高級知識，如線程組等則可以在熟悉了線程的基本概念以后再進(jìn)行更加深入的學(xué)習(xí)。

posted @ 2009-05-31 20:53 江蘇520| 編輯收藏

從JAR與zip檔案文件中提取Java 資源

多數(shù) java 程序員都非常清楚使用 jar 文件將組成 java 解決方案的各種資源（即 .class 文件、聲音和圖像）打包的優(yōu)點(diǎn)。剛開始使用 jar 文件的人常問的一個(gè)問題是：“如何從 jar 文件中提取圖像呢？”本文將回答這個(gè)問題，并會(huì)提供一個(gè)類，這個(gè)類使從 jar 文件中提取任何資源變得非常簡單！

加載 gif 圖像
   假定我們有一個(gè) jar 文件，其中包含我們的應(yīng)用程序要使用的一組 .gif 圖像。下面就是使用 JarResources 訪問 jar 文件中的圖像文件的方法：
    JarResources JR=new JarResources(" http://www.bt285.cn /GifBundle.jar");

    Image logo=Toolkit.getDefaultToolkit().createImage(JR.getResources("logo.gif"));

    這段代碼說明我們可以創(chuàng)建一個(gè)JarResources對象，并將其初始化為包含我們要使用的資源的 jar 文件 -- images.jar。隨后我們使用JarResources的getResource()方法將來自 logo.gif 文件的原始數(shù)據(jù)提供給 awt Toolkit 的createImage()方法。

命名說明
JarResource 是一個(gè)非常簡單的示例，它說明了如何使用 java 所提供的各種功能來處理 jar 和 zip 檔案文件。

工作方式
JarReources類的重要數(shù)據(jù)域用來跟蹤和存儲指定 jar 文件的內(nèi)容：

public final class JarResources {

   public boolean debugon=false;

   private Hashtable htsizes=new Hashtable();
   private Hashtable htjarcontents=new Hashtable();

   private String jarfilename;

這樣，該類的實(shí)例化設(shè)置 jar 文件的名稱，然后轉(zhuǎn)到init()方法完成全部實(shí)際工作。

   public JarResources(String jarfilename) {
      this.jarfilename=jarfilename;
      init();
   }

現(xiàn)在，init()方法只將指定 jar 文件的整個(gè)內(nèi)容加載到一個(gè) hashtable（通過資源名訪問）中。

      這是一個(gè)相當(dāng)有用的方法，下面我們對它作進(jìn)一步的分析。ZipFile類為我們提供了對 jar/zip 檔案頭信息的基本訪問方法。這類似于文件系統(tǒng)中的目錄信息。下面我們列出ZipFile中的所有條目，并用檔案中每個(gè)資源的大小添充 htsizes hashtable：

 private void init() {

      try {

          // extracts just sizes only.

          ZipFile zf=new ZipFile(jarFileName);

          Enumeration e=zf.entries();

          while (e.hasMoreElements()) {

              ZipEntry ze=(ZipEntry)e.nextElement();

              if (debugOn) {

                 System.out.println(dumpZipEntry(ze));

              htSizes.put(ze.getName(),new Integer((int)ze.getSize()));

          zf.close();

接下來，我們使用ZipInputStream類訪問檔案。ZipInputStream類完成了全部魔術(shù)，允許我們單獨(dú)讀取檔案中的每個(gè)資源。我們從檔案中讀取組成每個(gè)資源的精確字節(jié)數(shù)，并將其存儲在 htjarcontents hashtable 中，您可以通過資源名訪問這些數(shù)據(jù)：

          // extract resources and put them into the hashtable.

          FileInputStream fis=new FileInputStream(jarFileName);

          BufferedInputStream bis=new BufferedInputStream(fis);

          ZipInputStream zis=new ZipInputStream(bis);

          ZipEntry ze=null;

          while ((ze=zis.getNextEntry())!=null) {

             if (ze.isDirectory()) {

                continue;////啊喲!沒有處理子目錄中的資源啊 http://www.5a520.cn  小說520網(wǎng)

             if (debugOn) {

                System.out.println(

                   "ze.getName()="+ze.getName()+","+"getSize()="+ze.getSize()

);

             int size=(int)ze.getSize();

             // -1 means unknown size.

             if (size==-1) {

                size=((Integer)htSizes.get(ze.getName())).intValue();

             byte[] b=new byte[(int)size];

             int rb=0;

             int chunk=0;

            while (((int)size - rb) > 0) {

                 chunk=zis.read(b,rb,(int)size - rb);

                 if (chunk==-1) {

                    break;

                 rb+=chunk;

             // add to internal resource hashtable

             htJarContents.put(ze.getName(),b);

             if (debugOn) {

                System.out.println(

                   ze.getName()+" rb="+rb+

                   ",size="+size+

                   ",csize="+ze.getCompressedSize()

);

       } catch (NullPointerException e) {

          System.out.println("done.");

       } catch (FileNotFoundException e) {

          e.printStackTrace();

       } catch (IOException e) {

          e.printStackTrace();

請注意，用來標(biāo)識每個(gè)資源的名稱是檔案中資源的限定路徑名，例如，不是包中的類名 -- 即 java.util.zip 包中的ZipEntry類將被命名為 "java/util/zip/ZipEntry"，而不是 "java.util.zip.ZipEntry"。

其它方法:

/**

    * Dumps a zip entry into a string.

    * @param ze a ZipEntry

*/

   private String dumpZipEntry(ZipEntry ze) {

       StringBuffer sb=new StringBuffer();

       if (ze.isDirectory()) {

          sb.append("d ");

       } else {

          sb.append("f ");

       if (ze.getMethod()==ZipEntry.STORED) {

          sb.append("stored   ");

       } else {

          sb.append("defalted ");

       sb.append(ze.getName());

       sb.append("\t");

       sb.append(""+ze.getSize());

       if (ze.getMethod()==ZipEntry.DEFLATED) {

          sb.append("/"+ze.getCompressedSize());

       return (sb.toString());

/**

    * Extracts a jar resource as a blob.

    * @param name a resource name.

*/

   public byte[] getResource(String name) {

      return (byte[])htJarContents.get(name);

代碼的最后一個(gè)重要部分是簡單的測試驅(qū)動(dòng)程序。該測試驅(qū)動(dòng)程序是一個(gè)簡單的應(yīng)用程序，它接收 jar/zip 檔案名和資源名。它試圖發(fā)現(xiàn)檔案中的資源文件，然后將成功或失敗的消息報(bào)告出來：

public static void main(String[] args) throws IOException {

       if (args.length!=2) {

          System.err.println(

             "usage: java JarResources < jar file name> < resource name>"

);

          System.exit(1);

       JarResources jr=new JarResources(args[0]);

       byte[] buff=jr.getResource(args[1]);

       if (buff==null) {

          System.out.println("Could not find "+args[1]+".");

       } else {

          System.out.println("Found "+args[1]+ " (length="+buff.length+").");

}              // End of JarResources class.

您已了解了這個(gè)類。一個(gè)易于使用的類，它隱藏了使用打包在 jar 文件中的資源的全部棘手問題。

小結(jié)
如果您曾經(jīng)渴望知道如何從 jar 文件中提取圖像，那么您現(xiàn)在已學(xué)到了一種方法。有了本技巧提供的這個(gè)新類，您就不僅可以用 jar 文件處理圖像，而且可以將提取魔術(shù)用于 jar 文件中的任何資源。

posted @ 2009-05-29 19:56 江蘇520| 編輯收藏

JSP頁面查詢顯示常用模式

背景：
1．    需要將數(shù)據(jù)庫查詢結(jié)果在JSP中以列表方式顯示
2．    在一個(gè)良好的J2EE模式中數(shù)據(jù)庫查詢一般用DAO實(shí)現(xiàn)（Data Access Object）， JSP僅用于顯示數(shù)據(jù)

問題：
    通過JDBC ResultSet可獲取查詢結(jié)果（存在于數(shù)據(jù)庫緩沖區(qū)內(nèi)），但在Statement、Connection關(guān)閉后ResultSet即不可用。因此需要一種方式取出所有查詢結(jié)果并傳遞至JSP頁面。

解決方法一：
    使用Value Object。將每條記錄均封裝成JavaBean對象，如：http://www.bt285.cn 把這些對象裝入Collection傳送給JSP顯示。這種方法的缺點(diǎn)是每一種查詢都需要定義一個(gè)java class，并且將記錄數(shù)據(jù)封裝成java對象時(shí)也需要很多額外的代碼。
示例代碼：

//查詢數(shù)據(jù)代碼
Connection conn = DBUtil.getConnection();
PreparedStatement pst = null;
ResultSet rs = null;
try{
String sql=“select emp_code, real_name from t_employee where organ_id=?”;
pst = conn.preparedStatement(sql);
pst.setString(1, “101”);
ResultSet rs = pst.executeQuery();
List list = new ArrayList();
Employee emp;
while (rs.next()){
emp = new Employee();
emp.setReakName(rs.getString(“real_name”));
emp.setEmpCode(rs.getString(“emp_code”));
…
list.add(emp);
}
return list;
}finally{
DBUtil.close(rs, pst ,conn);
}
//jsp顯示部分代碼
<%
List empList = (List)request.getAttribute(“empList”);
if (empList == null) empList = Collections.EMPTY_LIST;
%>
…
<table cellspacing="0" width=”90%”>
<tr> <td> http://www.5a520.cn 小說520網(wǎng) 代碼</td> <td>姓名</td> </tr>
<%
Employee emp;
for (int i=0; i< empList.size(); i++){
emp = (Employee) empList.get(i);
%>
<tr>
<td><%= emp.getEmpCode()%></td>
<td><%= emp.getRealName()%></td>
</tr>
<%
}// end for
%>
</table>

解決方法二：
    遍歷ResultSet取出所有數(shù)據(jù)封裝進(jìn)Collection。
具體做法：
1．    生成一個(gè)List對象(List list = new ArrayList() )。
2．    生成一個(gè)Map對象(Map map = new HashMap() )。使用Map封裝一行數(shù)據(jù)，key為各字段名，value為對應(yīng)的值。(map.put(“USER_NAME”), rs.getString(“USER_NAME”))
3．    將第2 步生成的Map對象裝入第1步的list對象中(list.add(map) )。
4．    重復(fù)2、3步直到ResultSet遍歷完畢
在DBUtil. resultSetToList(ResultSet rs)方法中實(shí)現(xiàn)了上述過程（所有列名均使用大寫），可參考使用。

示例代碼：

//查詢數(shù)據(jù)部分代碼：
…
Connection conn = DBUtil.getConnection();
PreparedStatement pst = null;
ResultSet rs = null;
try{
String sql=“select emp_code, real_name from t_employee where organ_id=?”;
pst = conn.preparedStatement(sql);
pst.setString(1, “101”);
rs = pst.executeQuery();
List list = DBUtil. resultSetToList(ResultSet rs);
return list;
}finally{
DBUtil.close(rs, pst ,conn);
}
//JSP顯示部分代碼
<%
List empList = (List)request.getAttribute(“empList”);
if (empList == null) empList = Collections.EMPTY_LIST;
%>
…
<table cellspacing="0" width=”90%”>
<tr> <td> http://www.feng123.com 蜂蜜代碼</td> <td>姓名</td> </tr>
<%
Map colMap;
for (int i=0; i< empList.size(); i++){
colMap = (Map) empList.get(i);
%>
<tr>
<td><%=colMap.get(“EMP_CODE”)%></td>
<td><%=colMap.get(“REAL_NAME”)%></td>
</tr>
<%
}// end for
%>
</table>

解決方法三：
使用RowSet。
RowSet是JDBC2.0中提供的接口,Oracle對該接口有相應(yīng)實(shí)現(xiàn)，其中很有用的是oracle.jdbc.rowset.OracleCachedRowSet。 OracleCachedRowSet實(shí)現(xiàn)了ResultSet中的所有方法，但與ResultSet不同的是，OracleCachedRowSet中的數(shù)據(jù)在Connection關(guān)閉后仍然有效。

oracle的rowset實(shí)現(xiàn)在http://otn.oracle.com/software/content.html的jdbc下載里有，名稱是ocrs12.zip

示例代碼：

//查詢數(shù)據(jù)部分代碼：
import javax.sql.RowSet;
import oracle.jdbc.rowset.OracleCachedRowSet;
…
Connection conn = DBUtil.getConnection();
PreparedStatement pst = null;
ResultSet rs = null;
try{……
String sql=“select emp_code, real_name from t_employee where organ_id=?”;
pst = conn.preparedStatement(sql);
pst.setString(1, “101”);
rs = pst.executeQuery();
OracleCachedRowSet ors = newOracleCachedRowSet();
//將ResultSet中的數(shù)據(jù)封裝到RowSet中
ors.populate(rs);
return ors;
}finally{
DBUtil.close(rs, pst, conn);
}
//JSP顯示部分代碼
<%
javax.sql.RowSet empRS = (javax.sql.RowSet) request.getAttribute(“empRS”);
%>
…
<table cellspacing="0" width=”90%”>
<tr> <td>代碼</td> <td>姓名</td> </tr>
<%
if (empRS != null) while (empRS.next() ) {
%>
<tr>
<td><%= empRS.get(“EMP_CODE”)%></td>
<td><%= empRS.get(“REAL_NAME”)%></td>
</tr>
<%
}// end while
%>
</table>

適用場合：
  方法一使用于定制的查詢操作
  方法二適用于多條查詢語句或需要對查詢結(jié)果進(jìn)行處理的情況。
  方法三適合于單條查詢語句，適用于快速開發(fā)。

posted @ 2009-05-27 21:36 江蘇520| 編輯收藏

江蘇520

導(dǎo)航

留言簿(5)

隨筆檔案

閱讀排行榜

評論排行榜

常用鏈接

統(tǒng)計(jì)

最新評論

字符，字節(jié)和編碼三者的關(guān)系

java異常處理筆記

java多線程問題及處理(筆記)

從JAR與zip檔案文件中提取Java 資源

JSP頁面查詢顯示常用模式

江蘇520

導(dǎo)航

留言簿(5)

隨筆檔案

閱讀排行榜

評論排行榜

常用鏈接

統(tǒng)計(jì)

最新評論

字符，字節(jié)和編碼三者的關(guān)系

java異常處理筆記

java多線程問題及處理(筆記)

從JAR與zip檔案文件中提取Java 資源

JSP頁面查詢顯示常用模式

字符，字節(jié)和編碼三者的關(guān)系