Motivition
曾經有一個網友問過我這樣一個問題:
<%@page contentType="text/html; charset=UTF-8"%>
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
</head>
<body>
中國
</body>
</html>
這個頁面在為什么在運行的時候“中國”會變成亂碼?
Analysis
Key Step
對于上面問題的分析需要從整個JSP頁面請求的生命周期來看,一般的都需要經歷下面幾個階段:
1。應用服務器根據JSP頁面生成一個Java文件
2。應用服務器調用java.exe將Java文件編譯成一個Servlet對應的class文件
3。用戶的瀏覽器請求JSP對應的Servlet,Web容器起一個線程執行Servlet,將數據返回給客戶端瀏覽器
4。用戶的IE根據返回的數據,將結果顯示給用戶。
Key Step Analysis
為了更好的了解編碼問題,我們暫時先從上面的四個環節一步步來分析,根據分析的結果,來得到最終的解決辦法。
1. 在應用服務器根據JSP頁面生成Java文件階段。
應用服務器會將整個JSP頁面的代碼讀取出來,然后寫到一個新的JAVA文件中,在讀文件和寫文件的時候都牽涉到一個編碼問題,這個編碼問題應用服務器是如何解決的呢?我研究Tomcat應用服務器的源代碼,發現Tomcat中有一個pageEncoding參數非常重要,在ParserController會從JSP文件中讀出這個參數(如果沒有讀到,就從第一行的contentType中讀取charset),然后保存起來,如果沒有讀取到這個參數,會從JspConfig中讀出一個默認的PageEncoding參數,如果這兩個參數都沒有的設置,系統會默認成ISO8859-1的編碼來讀取原來的JSP文件。
從上面的分析出,我們已經基本了解了應用服務器讀取JSP文件的編碼方式,由于Java底層都是基于Unicode編碼來存儲字符的,所以在寫文件的時候,都輸出成Unicode編碼的形式。
2。在JDK將Java文件編譯成Class文件的時候
可以利用-encoding參數指定源文件的編碼,這在手動編譯的時候非常重要,因為這決定了Java虛擬機讀取Java文件時采用的編碼方式,但是在Web應用中這個環節我們可以忽略,因為應用服務器可以很好的解決這個編碼。以Tomcat為例,由于生成的java文件是固定的UTF-8編碼,所以Tomcat也固定的采用UTF-8編碼來讀取,通過瀏覽AbstractCatalinaTask可以看到reader = new InputStreamReader(hconn.getInputStream(), CHARSET);其中的CHARSET=utf-8。所以在這個環節中應用服務器都可以很好的把握,不會帶來編碼問題。
3. 用戶的瀏覽器請求JSP對應的Servlet階段。
如果前面的環節中不會帶來編碼問題,也就是說在Java虛擬機中運行的時候,能正常的獲取到“中國”,那么在執行servlet的環節中不會“中國”始終是以Unicode存儲的中國,那么在第三個環節中需要關注的是JspWriter如何將數據返回給客戶端瀏覽器。大家可以試驗一下,在java中如果用new String(str.getBytes("encoding"),"encoding")執行的時候,始終不會出現亂碼問題,也就是說,一個字符串可以用不同的代碼來getBytes()生成字節數組(底層I18N.jar所作的工作,提供Byte2Char和Char2Byte的轉換)。
如果大家可以理解這一點,那么下面大家就需要了解JspWriter輸出字符串時采用的編碼方式是什么?通過瀏覽Response.java類可以了解到Tomcat應用服務器是根據contentType來獲取的writer的編碼方式,也就是說,最后返回客戶端的字節流是contentType對應的charset中獲取出來的字節數組。
4. IE根據返回的數據處理顯示階段
通過前面的分析可以了解到,應用服務器返回的“中國”是根據ContentType中的charset來顯示的,只要IE知道該用這個編碼來接收字節流并轉成字符串,并將用戶的瀏覽器推薦合適的編碼來查看結果,用戶就可以瀏覽到正確的“中國”兩個字。可以高興得是,目前的IE等瀏覽器正式這樣處理的。
Conclusion
通過上面的分析,我們可以看到,在整個JSP頁面的編碼過程中,我們真正要解決的是JSP文件到Java文件這個過程中的編碼問題,也就是PageEncoding參數的設置問題。由于pageEncoding參數是servlet2.3規范中規定的參數,所以下面的方法在很多應用服務器下面都通用,這方面的設置本人在工作中基本上得到了下面的一些方法:
1。在JSP頁面的中加上pageEncoding參數,比如:<%@ page contentType="text/html; charset=UTF-8" pageEncoding="GBK"%>,這樣就可以將頁面可以用ANSI來存儲。也就是說當頁面存儲的編碼方式和chtentType中的charset不一樣的時候,可以考慮加上pageEncoding參數。
2。有些應用服務器(如weblogic),在沒有獲取到pageEncoding參數的時候,不是先從charset中獲取編碼類型,而是從另外的一些配置文件,如weblogic.xml文件中加上下面的代碼:
<jsp-descriptor>
<jsp-param>
<param-name>compilerSupports</param-name>
<param-value>true</param-value>
</jsp-param>
<jsp-param>
<param-name>encoding</param-name>
<param-value>GBK</param-value>
</jsp-param>
</jsp-descriptor>
(在Tomcat5X種也有類似的處理,在應用的web.xml文件中加上類似下面的配置項)
</jsp-config>
<jsp-property-group>
<url-pattern>*.jsp</url-pattern>
<el-ignored>true</el-ignored>
</jsp-property-group>
</jsp-config>
以上是對JSP頁面編碼的一些分析和處理方法,希望能對大家今后的學習和工作中有幫助!
posted on 2009-07-23 14:41
super_nini 閱讀(341)
評論(0) 編輯 收藏