今天自己突然想起來整理一下標準的charset,感覺還算有必要。當然java也有很多方法來處理不同的格式。
US-ASCII 7位ASCII字符,也叫作 ISO646-US、Unicode 字符集的基本拉丁塊
ISO-8859-1 ISO拉丁字母表No.1,也叫作 ISO-LATIN-1
UTF-8 8位UCS轉換格式
UTF-16BE 16位 UCS 轉換格式,Big Endian(最低地址存放高位字節)字節順序
UTF-16LE 16位 UCS 轉換格式,Little-endian(最高地址存放低位字節)字節順序
UTF-16 16位 UCS 轉換格式,字節順序由可選的字節順序標記來標識
UTF-8 charset 在 RFC 2279 中指定;它所基于的轉換格式在 ISO 10646-1 的 Amendment 2 中指定,并在 Unicode Standard 中也有所描述。
UTF-16 charset 在 RFC 2781 中指定;它們基于的轉換格式在 ISO10646-1 的 Amendment 1 中指定,并在 Unicode Standard 中也有所描述。
UTF-16 charset 使用 16 位量,因此對字節順序敏感。在這些編碼中,流的字節順序可以由 Unicode 字符 'FF' 所表示的初始字節順序標記 來指示。按以下方式處理字節順序標記:
進行解碼時,UTF-16BE 和 UTF-16LE charset 忽略字節順序標記;進行編碼時,不寫入字節順序標記。
進行解碼時,UTF-16 charset 解釋字節順序標記,以指示流的字節順序,但是如果沒有字節順序標記,則默認使用 Big Endian;進行編碼時,使用 Big Endian 字節順序并寫入 Big Endian 字節順序標記。
在任何情況中,在解碼操作的開始讀取字節順序標記時,將在結果字符序列中忽略該標記。字節順序標記出現在輸入序列的第一個元素之后時,由于使用相同的代碼表示零寬度不間斷空格,所以不忽略該標記。
posted on 2007-05-06 19:50
wqwqwqwqwq 閱讀(617)
評論(0) 編輯 收藏 所屬分類:
Simple Java