一 基本概念
這篇文章比較清楚地講述了字符集和編碼的基本概念
http://www.regexlab.com/zh/encoding.htm
摘抄:
各個(gè)國家和地區(qū)所制定的不同 ANSI 編碼標(biāo)準(zhǔn)中,都只規(guī)定了各自語言所需的“字符”。比如:漢字標(biāo)準(zhǔn)(GB2312)中沒有規(guī)定韓國語字符怎樣存儲(chǔ)。這些 ANSI 編碼標(biāo)準(zhǔn)所規(guī)定的內(nèi)容包含兩層含義:
- 使用哪些字符。也就是說哪些漢字,字母和符號(hào)會(huì)被收入標(biāo)準(zhǔn)中。所包含“字符”的集合就叫做“字符集”。
- 規(guī)定每個(gè)“字符”分別用一個(gè)字節(jié)還是多個(gè)字節(jié)存儲(chǔ),用哪些字節(jié)來存儲(chǔ),這個(gè)規(guī)定就叫做“編碼”。
各個(gè)國家和地區(qū)在制定編碼標(biāo)準(zhǔn)的時(shí)候,“字符的集合”和“編碼”一般都是同時(shí)制定的。因此,平常我們所說的“字符集”,比如:GB2312, GBK, JIS 等,除了有“字符的集合”這層含義外,同時(shí)也包含了“編碼”的含義。
“UNICODE 字符集”包含了各種語言中使用到的所有“字符”。用來給 UNICODE 字符集編碼的標(biāo)準(zhǔn)有很多種,比如:UTF-8, UTF-7, UTF-16, UnicodeLittle, UnicodeBig 等。
二 eclipse 中對(duì)于編碼方式的設(shè)置
1 源文件的編碼設(shè)置
preference -> general -> Content Types
右邊選擇文件類型,右下更新 缺省編碼方式
2 控制臺(tái)的編碼設(shè)置
Run -> Run configuration( 或 Debug configuration)
右邊選項(xiàng)卡中 common, 一般為最后一項(xiàng)
在 console encoding 的 other 中選取需要的 編碼方式
三 java 中的 編碼轉(zhuǎn)換
byte[] bytes = oldStr.getBytes(); //默認(rèn)編碼方式下的字節(jié)數(shù)組
String newStr = new String( bytes, "UTF-8" ); //轉(zhuǎn)換成 UTF-8 編碼下的字符串
posted on 2010-04-29 23:31
lincode 閱讀(262)
評(píng)論(0) 編輯 收藏 所屬分類:
Java