1.節(jié)unicode
java
內(nèi)核是unicode的,就
class文件也是,但是很多媒體,包括文件/流的保存方式是使用字節(jié)流的。因此java對這些字節(jié)經(jīng)轉(zhuǎn)化。charunicode的,而byte是字節(jié)javabyte/char轉(zhuǎn)的函數(shù)在sun.io的包中有。其中ByteToCharConverter是中調(diào)度,可以用來告你,你用的convertor。其中兩個(gè)很常用的靜態(tài)函數(shù)是 
public static ByteToCharConverter getDefault(); 
public static ByteToCharConverter getConverter(String encoding); 
如果你不指定converter統(tǒng)會(huì)自動(dòng)使用當(dāng)前的encoding,gb平臺(tái)上用gbk,en平臺(tái)上用8859_1

byte ——char
"
"gb
是:0xc4e3 ,unicode0x4f60
String encoding = "gb2312";
byte b[] = {(byte)'\u00c4',(byte)'\u00e3'};
ByteToCharConverter converter = ByteToCharConverter.getConverter(encoding);
char c[] = converter.convertAll(b);
for (int i = 0; i < c.length; i++) {
System.out.println(Integer.toHexString(c));
}
結(jié)果是什0x4f60
如果encoding ="8859_1"
結(jié)果又是什0x00c4,0x00e3
如果代

byte b[] = {(byte)'\u00c4',(byte)'\u00e3'};
ByteToCharConverter converter = ByteToCharConverter. getDefault();
char c[] = converter.convertAll(b);
for (int i = 0; i < c.length; i++) {
System.out.println(Integer.toHexString(c));
}
結(jié)果將又是什?根據(jù)平臺(tái)的編碼而定。

char ——
byte
String encoding = "gb2312";
char c[] = {'\u4f60'};
CharToByteConverter converter = CharToByteConverter.getConverter(encoding);
byte b[] = converter.convertAll(c);
for (int i = 0; i < b.length; i++) {
System.out.println(Integer.toHexString(b));
}
結(jié)果是什0x00c4,0x00e3
如果encoding ="8859_1"
結(jié)果又是什0x3f
如果代

String encoding = "gb2312";
char c[] = {'\u4f60'};
CharToByteConverter converter = CharToByteConverter.getDefault();
byte b[] = converter.convertAll(c);
for (int i = 0; i < b.length; i++) {
System.out.println(Integer.toHexString(b));
}
結(jié)果將又是什?根據(jù)平臺(tái)的編碼而定。
很多中文問題就是從兩個(gè)最簡單派生出來的。而卻有很多不直接支持把encoding入,這給們帶多不便。很多程序得用encoding了,直接用defaultencoding移植來了很多困

2.utf-8
utf-8
是和unicode一一
對應(yīng)的,其實(shí)現(xiàn)簡單
7
位的unicode: 0 _ _ _ _ _ _ _ 
11
位的
unicode: 1 1 0 _ _ _ _ _ 1 0 _ _ _ _ _ _ 
16
位的
unicode: 1 1 1 0 _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _ 
21
位的
unicode: 1 1 1 1 0 _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _ 
大多數(shù)情況是只使用到16位以下的
unicode: 
"
"gb
是:0xc4e3 ,unicode0x4f60
0xc4e3
的二
進(jìn)制:
1100 
0100 1110 0011
由于只有兩位我
按照兩位的編碼來排,但是我們發(fā)現(xiàn)這行不通,因第7位不是0因此,返回"?"
0x4f60
的二
進(jìn)制:
0100 
1111 0110 0000
utf-8補(bǔ)齊成:
1110 
0100 1011 1101 1010 0000
e4--bd-- a0
于是返回:0xe4,0xbd,0xa0


3.string
byte[]
string
實(shí)核心是char[],然而要把byte轉(zhuǎn)化成string,必須經(jīng)過編碼string.length()實(shí)就是char數(shù)度,如果使用不同的編碼,很可能會(huì)錯(cuò)分,造成散字和亂
例如:
String encoding = “”;
byte [] b={(byte)'\u00c4',(byte)'\u00e3'}; 
String str=new String(b,encoding);
  
如果encoding=8859_1,會(huì)有兩個(gè)字,但是encoding=gb2312只有一個(gè)字
個(gè)問題理分經(jīng)發(fā) 

4.Reader,Writer / InputStream,OutputStream
Reader
Writer核心是charInputStreamOutputStream核心是byte。但是ReaderWriter的主要目的是要把char
/InputStream/OutputStream
例如:
文件test.txt只有一個(gè)""字,0xc4,0xe3
String encoding = "gb2312";
InputStreamReader reader = new InputStreamReader(new FileInputStream(
"text.txt"), encoding);
char c[] = new char[10];
int length = reader.read(c);
for (int i = 0; i < length; i++) {
System.out.println(c);
}
結(jié)果是什?你
如果encoding ="8859_1"
結(jié)果是什??兩個(gè)字符,表示不認(rèn)識(shí)
來的例子自己做。

5.
java編譯器有所了解:
javac ?encoding
常常沒有用到encoding個(gè)參數(shù)。其實(shí)encoding個(gè)參數(shù)于跨平臺(tái)的操作是很重要的。如果沒有指定encoding按照系統(tǒng)的默認(rèn)encoding,gb平臺(tái)上是gb2312,英文平臺(tái)上是iso8859_1
java
編譯實(shí)際上是調(diào)sun.tools.javac.main文件進(jìn)編譯個(gè)compile函數(shù)中有一個(gè)encoding,-encoding的參數(shù)其實(shí)直接傳給encoding量。編譯器就是根據(jù)個(gè)量來java文件的,然后把用utf-8形式編譯class文件。
例子代

String str = "
";
FileWriter writer = new FileWriter("text.txt");
write.write(str);
writer.close();

如果用gb2312
編譯,你會(huì)找到e4 bd a0的字段 
如果用8859_1
編譯 00c4 00e3的二進(jìn)制: 
0000
0000 11000100 00000000 1110
0011
為每個(gè)字符都大于7位,因此用11編碼 
1100
000110000100110000111010
0011 
c1-- 84--
 c3-- 
 a3 
你會(huì)找到c1 84 c3 a3 


但是我
往往忽略掉個(gè)參數(shù),因此這樣往往會(huì)有跨平臺(tái)的問題
例代在中文平臺(tái)上編譯,生成zhclass
例代在英文平臺(tái)上編譯enclass
(1).
  zhclass在中文平臺(tái)上
執(zhí)ok,但是在英文平臺(tái)上不行 
(2). enclass
在英文平臺(tái)上
執(zhí)ok,但是在中文平臺(tái)上不行
原因:
(1). 
在中文平臺(tái)上
編譯后,其實(shí)str在運(yùn)行態(tài)char[]0x4f60, 在中文平臺(tái)上運(yùn)行,filewriter的缺省編碼gb2312,因此 chartobyteconverter會(huì)自動(dòng)調(diào)gb2312converter,str轉(zhuǎn)化成byte入到fileoutputstream中,于是0xc4,0xe3進(jìn)了文件。 
但是如果是在英文平臺(tái)下,chartobyteconverter的缺省
8859_1, filewriter會(huì)自動(dòng)調(diào)8859_1轉(zhuǎn)str,但是他無法解,因此他會(huì)"?"
(2). 
在英文平臺(tái)上
編譯后,其實(shí)str在運(yùn)行態(tài)char[]0x00c4 0x00e3, 在中文平臺(tái)上運(yùn)行,中文無法識(shí)別,因此會(huì)出現(xiàn)??
在英文平臺(tái)上,0x00c4-->0xc4,0x00e3->0xe3,因此0xc4,0xe3被放
進(jìn)了文件。

6. 
其它原因:<%@ page contentType="text/html; charset=GBK" %>
設(shè)瀏覽器的編碼,如果response的數(shù)據(jù)是utf8編碼示將是亂,但是亂和上述原因不一

7. 
發(fā)編碼的地方:
 
從數(shù)據(jù)
java程序 byte——charl
 
java程序到數(shù)據(jù) char——bytel
 
從文件到java程序 byte——charl
 
java程序到文件 char——bytel
 
java程序到 char——bytel
 
form提交數(shù)據(jù)到java程序byte——charl
 
從流到java程序byte——charl
 
java程序到流char——bytel

的解決方法:
我是使用配置
過濾器的方法解決中文亂的:

<web-app>
<filter>
<filter-name>RequestFilter</filter-name>
<filter-class>net.golden.uirs.util.RequestFilter</filter-class>
<init-param>
<param-name>charset</param-name>
<param-value>gb2312</param-value>
</init-param>
</filter>
<filter-mapping>
<filter-name>RequestFilter</filter-name>
<url-pattern>*.jsp</url-pattern>
</filter-mapping>
</web-app>


public void doFilter(ServletRequest req, ServletResponse res,
FilterChain fChain) throws IOException, ServletException {
HttpServletRequest request = (HttpServletRequest) req;
HttpServletResponse response = (HttpServletResponse) res;
HttpSession session = request.getSession();
String userId = (String) session.getAttribute("userid");
req.setCharacterEncoding(this.filterConfig.getInitParameter("charset")); // 
設(shè)置字符集?
實(shí)際上是設(shè)置了byte ——charencoding
try {
if (userId == null || userId.equals("")) {
if (!request.getRequestURL().toString().matches(
".*/uirs/logon/logon(Controller){0,1}\\x2Ejsp$")) {
session.invalidate();
response.sendRedirect(request.getContextPath() +
"/uirs/logon/logon.jsp");
}
}
else { // 
看看是否具有信息上
報(bào)統(tǒng)權(quán)
if (!net.golden.uirs.util.UirsChecker.check(userId, "
信息上
報(bào)統(tǒng)",
net.golden.uirs.util.UirsChecker.ACTION_DO)) {
if (!request.getRequestURL().toString().matches(
".*/uirs/logon/logon(Controller){0,1}\\x2Ejsp$")) {
response.sendRedirect(request.getContextPath() +
"/uirs/logon/logonController.jsp");
}
}
}
}
catch (Exception ex) {
response.sendRedirect(request.getContextPath() +
"/uirs/logon/logon.jsp");
}
fChain.doFilter(req, res);
}