1: 最基本的亂碼問題。
這個(gè)亂碼問題是最簡(jiǎn)單的亂碼問題。一般新會(huì)出現(xiàn)。就是頁面編碼不一致導(dǎo)致的亂碼。
<%@ page language="java" pageEncoding="UTF-8"%>
<%@ page contentType="text/html;charset=iso8859-1"%>
<html>
<head>
<title>中文問題</title>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
</head>
</head>
<body>
我是個(gè)好人
</body>
三個(gè)地方的編碼。
第一個(gè)地方的編碼格式為jsp文件的存儲(chǔ)格式。Eclipse會(huì)根據(jù)這個(gè)編碼格式保存文件。并編譯jsp文件,包括里面的漢字。
第
二處編碼為解碼格式。因?yàn)榇鏋閁TF-8的文件被解碼為iso8859-1,這樣
如有中文肯定出亂碼。也就是必須一致。而第二處所在的這一行,可以沒有。缺省也是使用iso8859-1的編碼格式。所以如果沒有這一行的話,“我是個(gè)好
人”也會(huì)出現(xiàn)亂碼。必須一致才可以。
第三處編碼為控制瀏覽器的解碼方式。如果前面的解碼都一致并且無誤的話,這個(gè)編碼格式?jīng)]有關(guān)系。有的網(wǎng)頁出現(xiàn)亂碼,就是因?yàn)闉g覽器不能確定使用哪種編碼格式。因?yàn)轫撁嬗袝r(shí)候會(huì)嵌入頁面,導(dǎo)致瀏覽器混淆了編碼格式。出現(xiàn)了亂碼。
2:表單使用Post方式提交后接收到的亂碼問題
這個(gè)問題也是一個(gè)常見的問題。這個(gè)亂碼也是tomcat的內(nèi)部編碼格式iso8859-1在搗亂,也就是說post提交時(shí),如果沒有設(shè)置提交的編碼格式,則會(huì)以iso8859-1方式進(jìn)行提交,(tomcat默認(rèn)編碼:ISO8859-1)接受的jsp卻以u(píng)tf-8的方式接受。導(dǎo)致亂碼。既然這樣的原因,下面有幾種解決方式,并比較。
A :接受參數(shù)時(shí)進(jìn)行編碼轉(zhuǎn)換
String str = new String(request.getParameter("something").getBytes("ISO-8859-1"),"utf-8") ;
這樣的話,每一個(gè)參數(shù)都必須這樣進(jìn)行轉(zhuǎn)碼。很麻煩。但確實(shí)可以拿到漢字。
B
:在請(qǐng)求頁面上開始處,執(zhí)行請(qǐng)求的編碼代碼,
request.setCharacterEncoding("UTF-8"),把提交內(nèi)容的字符集設(shè)為UTF-8。這樣的話,接受此參數(shù)的頁面就不必在
轉(zhuǎn)碼了。直接使用String str
request.getParamet("something");即可得到漢字參數(shù)。但每頁都需要執(zhí)行這句話。這個(gè)方法也就對(duì)post提交的有效果,對(duì)
于get提交和上傳文件時(shí)的enctype="multipart/form-data"是無效的。稍后下面單獨(dú)對(duì)這個(gè)兩個(gè)的亂碼情況再進(jìn)行說明。
C :為了避免每頁都要寫request.setCharacterEncoding("UTF-8"),建議使用過濾器對(duì)所有jsp進(jìn)行編碼處理。
3 :表單get提交方式的亂碼處理方式
如果使用get方式提交中文,接受參數(shù)的頁面也會(huì)出現(xiàn)亂碼,這個(gè)亂碼的原因也是tomcat的內(nèi)部編碼格式iso8859-1導(dǎo)致。Tomcat會(huì)以get的缺省編碼方式iso8859-1對(duì)漢字進(jìn)行編碼,編碼后追加到url,導(dǎo)致接受頁面得到的參數(shù)為亂碼。
解決辦法:
A 使用上例中的第一種方式,對(duì)接受到的字符進(jìn)行解碼,再轉(zhuǎn)碼。
B Get走的是url提交,而在進(jìn)入url之前已經(jīng)進(jìn)行了iso8859-1的編碼處理。要想影響這個(gè)編碼則需要在
server.xml
的Connector節(jié)點(diǎn)增加useBodyEncodingForURI="true"
屬性配置,即可控制tomcat對(duì)get方式的漢字編碼方式,上面這個(gè)屬性控制get提交也是用
request.setCharacterEncoding("UTF-8")所設(shè)置的編碼格式進(jìn)行編碼。所以自動(dòng)編碼為utf-8,接受頁面正常接受就
可以了。但我認(rèn)為真正的編碼過程是,tomcat又要根據(jù)
<Connector port="8080"
maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
enableLookups="false" redirectPort="8443" acceptCount="100"
debug="0" connectionTimeout="20000" useBodyEncodingForURI="true"
disableUploadTimeout="true"
URIEncoding=”UTF-8”/>里面所設(shè)置的URIEncoding=”UTF-8”再進(jìn)行一次編碼,
但是由于已經(jīng)編碼為utf-8,再編碼也不會(huì)有變化了。
如果是從url獲取編碼,接受頁面則是根據(jù)URIEncoding=”UTF-8”來進(jìn)行解碼的。