一 基本概念
這篇文章比較清楚地講述了字符集和編碼的基本概念
http://www.regexlab.com/zh/encoding.htm
摘抄:
各個國家和地區所制定的不同 ANSI 編碼標準中,都只規定了各自語言所需的“字符”。比如:漢字標準(GB2312)中沒有規定韓國語字符怎樣存儲。這些 ANSI 編碼標準所規定的內容包含兩層含義:
- 使用哪些字符。也就是說哪些漢字,字母和符號會被收入標準中。所包含“字符”的集合就叫做“字符集”。
- 規定每個“字符”分別用一個字節還是多個字節存儲,用哪些字節來存儲,這個規定就叫做“編碼”。
各個國家和地區在制定編碼標準的時候,“字符的集合”和“編碼”一般都是同時制定的。因此,平常我們所說的“字符集”,比如:GB2312, GBK, JIS 等,除了有“字符的集合”這層含義外,同時也包含了“編碼”的含義。
“UNICODE 字符集”包含了各種語言中使用到的所有“字符”。用來給 UNICODE 字符集編碼的標準有很多種,比如:UTF-8, UTF-7, UTF-16, UnicodeLittle, UnicodeBig 等。
二 eclipse 中對于編碼方式的設置
1 源文件的編碼設置
preference -> general -> Content Types
右邊選擇文件類型,右下更新 缺省編碼方式
2 控制臺的編碼設置
Run -> Run configuration( 或 Debug configuration)
右邊選項卡中 common, 一般為最后一項
在 console encoding 的 other 中選取需要的 編碼方式
三 java 中的 編碼轉換
byte[] bytes = oldStr.getBytes(); //默認編碼方式下的字節數組
String newStr = new String( bytes, "UTF-8" ); //轉換成 UTF-8 編碼下的字符串
posted on 2010-04-29 23:31
lincode 閱讀(260)
評論(0) 編輯 收藏 所屬分類:
Java