亚洲校园春色小说,亚洲国产精品成人精品无码区在线,亚洲第一区精品日韩在线播放

工作中經(jīng)常遇到java編碼問題，由于缺乏研究，總是無法給出確切的答案，這個周末在網(wǎng)上查了一些資料，在此做些匯總。

問題一：在java中讀取文件時應該采用什么編碼？

Java讀取文件的方式總體可以分為兩類：按字節(jié)讀取和按字符讀取。按字節(jié)讀取就是采用InputStream.read()方法來讀取字節(jié)，然后保存到一個byte[]數(shù)組中，最后經(jīng)常用new String(byte[]);把字節(jié)數(shù)組轉換成String。在最后一步隱藏了一個編碼的細節(jié)，new String(byte[]);會使用操作系統(tǒng)默認的字符集來解碼字節(jié)數(shù)組，中文操作系統(tǒng)就是GBK。而我們從輸入流里讀取的字節(jié)很可能就不是GBK編碼的，因為從輸入流里讀取的字節(jié)編碼取決于被讀取的文件自身的編碼。舉個例子：我們在D:盤新建一個名為demo.txt的文件，寫入”我們。”，并保存。此時demo.txt編碼是ANSI，中文操作系統(tǒng)下就是GBK。此時我們用輸入字節(jié)流讀取該文件所得到的字節(jié)就是使用GBK方式編碼的字節(jié)。那么我們最終new String(byte[]);時采用平臺默認的GBK來編碼成String也是沒有問題的(字節(jié)編碼和默認解碼一致)。試想一下，如果在保存demo.txt文件時，我們選擇UTF-8編碼，那么該文件的編碼就不在是ANSI了，而變成了UTF-8。仍然采用輸入字節(jié)流來讀取，那么此時讀取的字節(jié)和上一次就不一樣了，這次的字節(jié)是UTF-8編碼的字節(jié)。兩次的字節(jié)顯然不一樣，一個很明顯的區(qū)別就是：GBK每個漢字兩個字節(jié)，而UTF-8每個漢字三個字節(jié)。如何我們最后還使用new String(byte[]);來構造String對象，則會出現(xiàn)亂碼，原因很簡單，因為構造時采用的默認解碼GBK，而我們的字節(jié)是UTF-8字節(jié)。正確的辦法就是使用new String(byte[],”UTF-8”);來構造String對象。此時我們的字節(jié)編碼和構造使用的解碼是一致的，不會出現(xiàn)亂碼問題了。

說完字節(jié)輸入流，再來說說字節(jié)輸出流。

我們知道如果采用字節(jié)輸出流把字節(jié)輸出到某個文件，我們是無法指定生成文件的編碼的(假設文件以前不存在)，那么生成的文件是什么編碼的呢？經(jīng)過測試發(fā)現(xiàn)，其實這取決于寫入的字節(jié)編碼格式。比如以下代碼：

OutputStream out = new FileOutputStream("d:\\demo.txt");

out.write("我們".getBytes());

getBytes()會采用操作系統(tǒng)默認的字符集來編碼字節(jié)，這里就是GBK，所以我們寫入demo.txt文件的是GBK編碼的字節(jié)。那么這個文件的編碼就是GBK。如果稍微修改一下程序：out.write("我們".getBytes(“UTF-8”));此時我們寫入的字節(jié)就是UTF-8的，那么demo.txt文件編碼就是UTF-8。這里還有一點，如果把”我們”換成123或abc之類的ascii碼字符，那么無論是采用getBytes()或者getBytes(“UTF-8”)那么生成的文件都將是GBK編碼的。

這里可以總結一下，InputStream中的字節(jié)編碼取決文件本身的編碼，而OutputStream生成文件的編碼取決于字節(jié)的編碼。

下面說說采用字符輸入流來讀取文件。

首先，我們需要理解一下字符流。其實字符流可以看做是一種包裝流，它的底層還是采用字節(jié)流來讀取字節(jié)，然后它使用指定的編碼方式將讀取字節(jié)解碼為字符。說起字符流，不得不提的就是InputStreamReader。以下是java api對它的說明： InputStreamReader是字節(jié)流通向字符流的橋梁：它使用指定的 charset 讀取字節(jié)并將其解碼為字符。它使用的字符集可以由名稱指定或顯式給定，否則可能接受平臺默認的字符集。說到這里其實很明白了，InputStreamReader在底層還是采用字節(jié)流來讀取字節(jié)，讀取字節(jié)后它需要一個編碼格式來解碼讀取的字節(jié)，如果我們在構造InputStreamReader沒有傳入編碼方式，那么會采用操作系統(tǒng)默認的GBK來解碼讀取的字節(jié)。還用上面demo.txt的例子，假設demo.txt編碼方式為GBK，我們使用如下代碼來讀取文件：

InputStreamReader in = new InputStreamReader(new FileInputStream(“demo.txt”));

那么我們讀取不會產(chǎn)生亂碼，因為文件采用GBK編碼，所以讀出的字節(jié)也是GBK編碼的，而InputStreamReader默認采用解碼也是GBK。如果把demo.txt編碼方式換成UTF-8,那么我們采用這種方式讀取就會產(chǎn)生亂碼。這是因為字節(jié)編碼(UTF-8)和我們的解碼編碼(GBK)造成的。解決辦法如下：

InputStreamReader in = new InputStreamReader(new FileInputStream(“demo.txt”),”UTF-8”);

給InputStreamReader指定解碼編碼，這樣二者統(tǒng)一就不會出現(xiàn)亂碼了。

下面說說字符輸出流。

字符輸出流的原理和字符輸入流的原理一樣，也可以看做是包裝流，其底層還是采用字節(jié)輸出流來寫文件。只是字符輸出流根據(jù)指定的編碼將字符轉換為字節(jié)的。字符輸出流的主要類是：OutputStreamWriter。Java api解釋如下：OutputStreamWriter 是字符流通向字節(jié)流的橋梁：使用指定的 charset 將要向其寫入的字符編碼為字節(jié)。它使用的字符集可以由名稱指定或顯式給定，否則可能接受平臺默認的字符集。說的很明白了，它需要一個編碼將寫入的字符轉換為字節(jié)，如果沒有指定則采用GBK編碼，那么輸出的字節(jié)都將是GBK編碼，生成的文件也是GBK編碼的。如果采用以下方式構造OutputStreamWriter：

OutputStreamWriter out = new OutputStreamWriter(new FileOutputStream(“dd.txt”),”UTF-8”);

那么寫入的字符將被編碼為UTF-8的字節(jié),生成的文件也將是UTF-8格式的。

問題二：既然讀文件要使用和文件編碼一致的編碼，那么javac編譯文件也需要讀取文件，它使用什么編碼呢？

這個問題從來就沒想過，也從沒當做是什么問題。正是因為問題一而引發(fā)的思考，其實這里還是有東西可以挖掘的。下面分三種情況來探討，這三種情況也是我們常用的編譯java源文件的方法。

1.javac在控制臺編譯java類文件。

通常我們手動建立一個java文件Demo.java，并保存。此時Demo.java文件的編碼為ANSI,中文操作系統(tǒng)下就是GBK.然后使用javac命令來編譯該源文件。”javac Demo.java”。Javac也需要讀取java文件，那么javac是使用什么編碼來解碼我們讀取的字節(jié)呢？其實javac采用了操作系統(tǒng)默認的GBK編碼解碼我們讀取的字節(jié)，這個編碼正好也是Demo.java文件的編碼，二者一致，所以不會出現(xiàn)亂碼情況。讓我們來做點手腳，在保存Demo.java文件時，我們選擇UTF-8保存。此時Demo.java文件編碼就是UTF-8了。我們再使用”javac Demo.java”來編譯，如果Demo.java里含有中文字符，此時控制臺會出現(xiàn)警告信息，也出現(xiàn)了亂碼。究其原因，就是因為javac采用了GBK編碼解碼我們讀取的字節(jié)。因為我們的字節(jié)是UTF-8編碼的，所以會出現(xiàn)亂碼。如果不信的話你可以自己試試。那么解決辦法呢？解決辦法就是使用javac的encoding參數(shù)來制定我們的解碼編碼。如下：javac -encoding UTF-8 Demo.java。這里我們指定了使用UTF-8來解碼讀取的字節(jié)，由于這個編碼和Demo.java文件編碼一致，所以不會出現(xiàn)亂碼情況了。

2.Eclipse中編譯java文件。

我習慣把Eclipse的編碼設置成UTF-8。那么每個項目中的java源文件的編碼就是UTF-8。這樣編譯也從沒有問題，也沒有出現(xiàn)過亂碼。正是因為這樣才掩蓋了使用javac可能出現(xiàn)的亂碼。那么Eclipse是如何正確編譯文件編碼為UTF-8的java源文件的呢？唯一的解釋就是Eclipse自動識別了我們java源文件的文件編碼，然后采取了正確的encoding參數(shù)來編譯我們的java源文件。功勞都歸功于IDE的強大了。

3.使用Ant來編譯java文件。

Ant也是我常用的編譯java文件的工具。首先，必須知道Ant在后臺其實也是采用javac來編譯java源文件的，那么可想而知，1會出現(xiàn)的問題在Ant中也會存在。如果我們使用Ant來編譯UTF-8編碼的java源文件，并且不指定如何編碼，那么也會出現(xiàn)亂碼的情況。所以Ant的編譯命令<javac>有一個屬性” encoding”允許我們指定編碼，如果我們要編譯源文件編碼為UTF-8的java文件，那么我們的命令應該如下：

指定了編碼也就相當于”javac –encoding”了，所以不會出現(xiàn)亂碼了。

問題三：tomcat中編譯jsp的情況。

這個話題也是由問題二引出的。既然javac編譯java源文件需要采用正確的編碼，那么tomcat編譯jsp時也要讀取文件，此時tomcat采用什么編碼來讀取文件？會出現(xiàn)亂碼情況嗎？下面我們來分析。

我們通常會在jsp開頭寫上如下代碼：

<%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%>

我常常不寫pageEncoding這個屬于，也不明白它的作用，但是不寫也沒出現(xiàn)過亂碼情況。其實這個屬性就是告訴tomcat采用什么編碼來讀取jsp文件的。它應該和jsp文件本身的編碼一致。比如我們新建個jsp文件，設置文件編碼為GBK,那么此時我們的pageEncoding應該設置為GBK,這樣我們寫入文件的字符就是GBK編碼的，tomcat讀取文件時采用也是GBK編碼，所以能保證正確的解碼讀取的字節(jié)。不會出現(xiàn)亂碼。如果把pageEncoding設置為UTF-8，那么讀取jsp文件過程中轉碼就出現(xiàn)了亂碼。上面說我常常不寫pageEncoding這個屬性，但是也沒出現(xiàn)過亂碼，這是怎么回事呢？那是因為如果沒有pageEncoding屬性，tomcat會采用contentType中charset編碼來讀取jsp文件，我的jsp文件編碼通常設置為UTF-8,contentType的charset也設置為UTF-8,這樣tomcat使用UTF-8編碼來解碼讀取的jsp文件，二者編碼一致也不會出現(xiàn)亂碼。這只是contentType中charset的一個作用，它還有兩個作用，后面再說。可能有人會問：如果我既不設置pageEncoding屬性，也不設置contentType的charset屬性，那么tomcat會采取什么編碼來解碼讀取的jsp文件呢？答案是iso-8859-1，這是tomcat讀取文件采用的默認編碼，如果用這種編碼來讀取文件顯然會出現(xiàn)亂碼。

問題四：輸出。

問題二和問題三分析的過程其實就是從源文件àclass文件過程中的轉碼情況。最終的class文件都是以unicode編碼的，我們前面所做的工作就是把各種不同的編碼轉換為unicode編碼，比如從GBK轉換為unicode,從UTF-8轉換為unicode。因為只有采用正確的編碼來轉碼才能保證不出現(xiàn)亂碼。Jvm在運行時其內(nèi)部都是采用unicode編碼的，其實在輸出時，又會做一次編碼的轉換。讓我們分兩種情況來討論。

1.java中采用Sysout.out.println輸出。

比如：Sysout.out.println(“我們”)。經(jīng)過正確的解碼后”我們”是unicode保存在內(nèi)存中的，但是在向標準輸出(控制臺)輸出時，jvm又做了一次轉碼，它會采用操作系統(tǒng)默認編碼(中文操作系統(tǒng)是GBK)，將內(nèi)存中的unicode編碼轉換為GBK編碼，然后輸出到控制臺。因為我們操作系統(tǒng)是中文系統(tǒng)，所以往終端顯示設備上打印字符時使用的也是GBK編碼。因為終端的編碼無法手動改變，所以這個過程對我們來說是透明的，只要編譯時能正確轉碼，最終的輸出都將是正確的，不會出現(xiàn)亂碼。在Eclipse中可以設置控制臺的字符編碼，具體位置在Run Configuration對話框的Common標簽里,我們可以試著設置為UTF-8,此時的輸出就是亂碼了。因為輸出時是采用GBK編碼的，而顯示卻是使用UTF-8，編碼不同，所以出現(xiàn)亂碼。

2.jsp中使用out.println()輸出到客戶端瀏覽器。

Jsp編譯成class后，如果輸出到客戶端，也有個轉碼的過程。Java會采用操作系統(tǒng)默認的編碼來轉碼，那么tomcat采用什么編碼來轉碼呢？其實tomcat是根據(jù)<%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%>中contentType的charset參數(shù)來轉碼的，contentType用來設置tomcat往瀏覽器發(fā)送HTML內(nèi)容所使用的編碼。Tomcat根據(jù)這個編碼來轉碼內(nèi)存中的unicode。經(jīng)過轉碼后tomcat輸出到客戶端的字符編碼就是utf-8了。那么瀏覽器怎么知道采取什么編碼格式來顯示接收到的內(nèi)容呢？這就是contentType的charset屬性的第三個作用了：這個編碼會在HTTP響應頭中指定以通知瀏覽器。瀏覽器使用http響應頭的contentType的charset屬性來顯示接收到的內(nèi)容。

總結一下contentType charset的三個作用：

1).在沒有pageEncoding屬性時，tomcat使用它來解碼讀取的jsp文件。

2).tomcat向客戶端輸出時，使用它來編碼發(fā)送的內(nèi)容。

3).通知瀏覽器，應該以什么編碼來顯示接收到的內(nèi)容。

為了能更好的理解上面所說的解碼和轉碼過程，我們舉一個例子。

新建一個index.jsp文件，該文件編碼為GBK,在jsp開頭我們寫上如下代碼：

<%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="GBK"%>

這里的charset和pageEncoding不同，但是也不會出現(xiàn)亂碼，我來解釋一下。首先tomcat讀取jsp內(nèi)容，并根據(jù)pageEncoding指定的GBK編碼將讀取的GBK字節(jié)解碼并轉換為unicode字節(jié)碼保存在class文件中。然后tomcat在輸出時(out.println())使用charset屬性將內(nèi)存中的unicode轉換為utf-8編碼，并在響應頭中通知瀏覽器，瀏覽器以utf-8顯示接收到的內(nèi)容。整個過程沒有一次轉碼錯誤，所以就不會出現(xiàn)亂碼情況。

問題五：Properties和ResourceBundle使用的解碼編碼。

               以上兩個是我們常用的類，他們在讀取文件過程中并不允許我們指定解碼編碼，那么它們采取什么解碼方式呢？查看源碼后發(fā)現(xiàn)都是采用iso-8859-1編碼來解碼
           的。這樣的話我們也不難理解我們寫的properties文件為什么都是iso-8859-1 的了。因為采取任何一個別的編碼都將產(chǎn)生亂碼。因為iso-8859-1編碼是沒
           有中文的，所以我們輸入的中文要轉換為unicode，通常我們使用插件來完成，也可以使用jdk自帶的native2ascii工具。

posted on 2011-05-26 10:35 zhangchao 閱讀(40458) 評論(19) 編輯收藏所屬分類: J2SE

常用鏈接

留言簿(2)

隨筆分類

隨筆檔案

搜索

最新評論

閱讀排行榜

評論排行榜


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導航: 博客園 IT新聞 Chat2DB C++博客博問管理