1.unicode
java
內核是unicode的,就
class文件也是,但是很多媒體,包括文件/流的保存方式是使用字流的。因此java對這些字化。charunicode的,而byte是字javabyte/char的函數在sun.io的包中有。其中ByteToCharConverter是中調度,可以用來告你,你用的convertor。其中兩個很常用的靜函數是 
public static ByteToCharConverter getDefault(); 
public static ByteToCharConverter getConverter(String encoding); 
如果你不指定converter會自使用當前的encoding,gb平臺上用gbk,en平臺上用8859_1

byte ——char
"
"gb
是:0xc4e3 ,unicode0x4f60
String encoding = "gb2312";
byte b[] = {(byte)'\u00c4',(byte)'\u00e3'};
ByteToCharConverter converter = ByteToCharConverter.getConverter(encoding);
char c[] = converter.convertAll(b);
for (int i = 0; i < c.length; i++) {
System.out.println(Integer.toHexString(c));
}
果是什0x4f60
如果encoding ="8859_1"
果又是什0x00c4,0x00e3
如果代

byte b[] = {(byte)'\u00c4',(byte)'\u00e3'};
ByteToCharConverter converter = ByteToCharConverter. getDefault();
char c[] = converter.convertAll(b);
for (int i = 0; i < c.length; i++) {
System.out.println(Integer.toHexString(c));
}
果將又是什?根據平臺的編碼而定。

char ——
byte
String encoding = "gb2312";
char c[] = {'\u4f60'};
CharToByteConverter converter = CharToByteConverter.getConverter(encoding);
byte b[] = converter.convertAll(c);
for (int i = 0; i < b.length; i++) {
System.out.println(Integer.toHexString(b));
}
果是什0x00c4,0x00e3
如果encoding ="8859_1"
果又是什0x3f
如果代

String encoding = "gb2312";
char c[] = {'\u4f60'};
CharToByteConverter converter = CharToByteConverter.getDefault();
byte b[] = converter.convertAll(c);
for (int i = 0; i < b.length; i++) {
System.out.println(Integer.toHexString(b));
}
果將又是什?根據平臺的編碼而定。
很多中文問題就是從兩個最簡單派生出來的。而卻有很多不直接支持把encoding入,這給們帶多不便。很多程序得用encoding了,直接用defaultencoding移植來了很多困

2.utf-8
utf-8
是和unicode一一
對應的,其實現簡單
7
位的unicode: 0 _ _ _ _ _ _ _ 
11
位的
unicode: 1 1 0 _ _ _ _ _ 1 0 _ _ _ _ _ _ 
16
位的
unicode: 1 1 1 0 _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _ 
21
位的
unicode: 1 1 1 1 0 _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _ 
大多數情況是只使用到16位以下的
unicode: 
"
"gb
是:0xc4e3 ,unicode0x4f60
0xc4e3
的二
制:
1100 
0100 1110 0011
由于只有兩位我
按照兩位的編碼來排,但是我們發現這行不通,因第7位不是0因此,返回"?"
0x4f60
的二
制:
0100 
1111 0110 0000
utf-8補齊成:
1110 
0100 1011 1101 1010 0000
e4--bd-- a0
于是返回:0xe4,0xbd,0xa0


3.string
byte[]
string
核心是char[],然而要把byte化成string,必須經過編碼string.length()就是char度,如果使用不同的編碼,很可能會分,造成散字和亂
例如:
String encoding = “”;
byte [] b={(byte)'\u00c4',(byte)'\u00e3'}; 
String str=new String(b,encoding);
  
如果encoding=8859_1,會有兩個字,但是encoding=gb2312只有一個字
問題理分 

4.Reader,Writer / InputStream,OutputStream
Reader
Writer核心是charInputStreamOutputStream核心是byte。但是ReaderWriter的主要目的是要把char
/InputStream/OutputStream
例如:
文件test.txt只有一個""字,0xc4,0xe3
String encoding = "gb2312";
InputStreamReader reader = new InputStreamReader(new FileInputStream(
"text.txt"), encoding);
char c[] = new char[10];
int length = reader.read(c);
for (int i = 0; i < length; i++) {
System.out.println(c);
}
果是什?你
如果encoding ="8859_1"
果是什??兩個字符,表示不認識
來的例子自己做。

5.
java編譯器有所了解:
javac ?encoding
常常沒有用到encoding個參數。其encoding個參數于跨平臺的操作是很重要的。如果沒有指定encoding按照系的默encoding,gb平臺上是gb2312,英文平臺上是iso8859_1
java
編譯實際上是調sun.tools.javac.main文件編譯compile函數中有一個encoding,-encoding的參數其直接傳給encoding量。編譯器就是根據量來java文件的,然后把用utf-8形式編譯class文件。
例子代

String str = "
";
FileWriter writer = new FileWriter("text.txt");
write.write(str);
writer.close();

如果用gb2312
編譯,你會找到e4 bd a0的字段 
如果用8859_1
編譯 00c4 00e3的二制: 
0000
0000 11000100 00000000 1110
0011
為每個字符都大于7位,因此用11編碼 
1100
000110000100110000111010
0011 
c1-- 84--
 c3-- 
 a3 
你會找到c1 84 c3 a3 


但是我
往往忽略掉個參數,因此這樣往往會有跨平臺的問題
例代在中文平臺上編譯,生成zhclass
例代在英文平臺上編譯enclass
(1).
  zhclass在中文平臺上
ok,但是在英文平臺上不行 
(2). enclass
在英文平臺上
ok,但是在中文平臺上不行
原因:
(1). 
在中文平臺上
編譯后,其str在運行char[]0x4f60, 在中文平臺上運行,filewriter的缺省編碼gb2312,因此 chartobyteconverter會自調gb2312converter,str化成byte入到fileoutputstream中,于是0xc4,0xe3了文件。 
但是如果是在英文平臺下,chartobyteconverter的缺省
8859_1, filewriter會自動調8859_1str,但是他無法解,因此他會"?"
(2). 
在英文平臺上
編譯后,其str在運行char[]0x00c4 0x00e3, 在中文平臺上運行,中文無法識別,因此會出??
在英文平臺上,0x00c4-->0xc4,0x00e3->0xe3,因此0xc4,0xe3被放
了文件。

6. 
其它原因:<%@ page contentType="text/html; charset=GBK" %>
瀏覽器的編碼,如果response的數據是utf8編碼示將是亂,但是亂和上述原因不一

7. 
編碼的地方:
 
從數據
java程序 byte——charl
 
java程序到數據 char——bytel
 
從文件到java程序 byte——charl
 
java程序到文件 char——bytel
 
java程序到 char——bytel
 
form提交數據到java程序byte——charl
 
從流到java程序byte——charl
 
java程序到流char——bytel

的解決方法:
我是使用配置
過濾器的方法解決中文亂的:

<web-app>
<filter>
<filter-name>RequestFilter</filter-name>
<filter-class>net.golden.uirs.util.RequestFilter</filter-class>
<init-param>
<param-name>charset</param-name>
<param-value>gb2312</param-value>
</init-param>
</filter>
<filter-mapping>
<filter-name>RequestFilter</filter-name>
<url-pattern>*.jsp</url-pattern>
</filter-mapping>
</web-app>


public void doFilter(ServletRequest req, ServletResponse res,
FilterChain fChain) throws IOException, ServletException {
HttpServletRequest request = (HttpServletRequest) req;
HttpServletResponse response = (HttpServletResponse) res;
HttpSession session = request.getSession();
String userId = (String) session.getAttribute("userid");
req.setCharacterEncoding(this.filterConfig.getInitParameter("charset")); // 
置字符集?
實際上是置了byte ——charencoding
try {
if (userId == null || userId.equals("")) {
if (!request.getRequestURL().toString().matches(
".*/uirs/logon/logon(Controller){0,1}\\x2Ejsp$")) {
session.invalidate();
response.sendRedirect(request.getContextPath() +
"/uirs/logon/logon.jsp");
}
}
else { // 
看看是否具有信息上

if (!net.golden.uirs.util.UirsChecker.check(userId, "
信息上
",
net.golden.uirs.util.UirsChecker.ACTION_DO)) {
if (!request.getRequestURL().toString().matches(
".*/uirs/logon/logon(Controller){0,1}\\x2Ejsp$")) {
response.sendRedirect(request.getContextPath() +
"/uirs/logon/logonController.jsp");
}
}
}
}
catch (Exception ex) {
response.sendRedirect(request.getContextPath() +
"/uirs/logon/logon.jsp");
}
fChain.doFilter(req, res);
}