posts - 97, comments - 93, trackbacks - 0

今天自己突然想起來整理一下標準的charset，感覺還算有必要。當然java也有很多方法來處理不同的格式。
US-ASCII 7位ASCII字符，也叫作 ISO646-US、Unicode 字符集的基本拉丁塊
ISO-8859-1 ISO拉丁字母表No.1，也叫作 ISO-LATIN-1
UTF-8 8位UCS轉換格式
UTF-16BE 16位 UCS 轉換格式，Big Endian（最低地址存放高位字節）字節順序
UTF-16LE 16位 UCS 轉換格式，Little-endian（最高地址存放低位字節）字節順序
UTF-16 16位 UCS 轉換格式，字節順序由可選的字節順序標記來標識

UTF-8 charset 在 RFC 2279 中指定；它所基于的轉換格式在 ISO 10646-1 的 Amendment 2 中指定，并在 Unicode Standard 中也有所描述。

UTF-16 charset 在 RFC 2781 中指定；它們基于的轉換格式在 ISO10646-1 的 Amendment 1 中指定，并在 Unicode Standard 中也有所描述。

UTF-16 charset 使用 16 位量，因此對字節順序敏感。在這些編碼中，流的字節順序可以由 Unicode 字符 'FF' 所表示的初始字節順序標記來指示。按以下方式處理字節順序標記：

進行解碼時，UTF-16BE 和 UTF-16LE charset 忽略字節順序標記；進行編碼時，不寫入字節順序標記。

進行解碼時，UTF-16 charset 解釋字節順序標記，以指示流的字節順序，但是如果沒有字節順序標記，則默認使用 Big Endian；進行編碼時，使用 Big Endian 字節順序并寫入 Big Endian 字節順序標記。

在任何情況中，在解碼操作的開始讀取字節順序標記時，將在結果字符序列中忽略該標記。字節順序標記出現在輸入序列的第一個元素之后時，由于使用相同的代碼表示零寬度不間斷空格，所以不忽略該標記。

posted on 2007-05-06 19:50 wqwqwqwqwq 閱讀(617) 評論(0) 編輯收藏所屬分類: Simple Java

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: Europa myeclipse matisse Struts Review JFx~~~~builder JNDI~基礎標準字符集~ ANT ANT十五大最佳實踐(轉載)--o'reilly 利用google api寫的小程序　 java與元數據 java.security