<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    posts - 262,  comments - 221,  trackbacks - 0

    Unicode中文“藝”字: 827A

    二進制的“藝”字編碼:1000 0010 0111 1010

    UTF-8的中文編碼規則: 1110xxxx 10xxxxxx 10xxxxxx

    UTF-8的“藝”字編碼: 1110【1000】 10【0010】【01】 10【11】【1010】

    UTF-8的轉碼過程解析: 8對應的1000被填入第一字節剩余的4位。2對應的0010被填入第2字節剩余的前4位。7對應的0111被拆開,前2位01被填入第2字節的后兩位,后2位1被填入第3字節的前2位。A對應的1010被填入第3字節的后4位。

    UTF-8的最終編碼結果:11101000---對應E8;10001001---對應89;10111010---對應BA。所以最終的UTF-8編碼就是%E8%89%BA

    Unicode到UTF-8的轉換:Unicode的16進制編碼<-->對應的2進制編碼<-->UTF-8規范的2進制編碼<-->UTF-8規范的16進制編碼

    也就是說假如在Java的底層JVM,由于采用的是Unicode編碼字符集,對“藝”字的編碼是827A。那么在網絡傳輸的過程中,我們當然不能直接傳輸827A這個字符過去代表藝”這個漢字,而必須要轉換成0,1這樣的字節流,才能在網絡中傳輸。

    所以說UTF-8是一種為了方便網路傳輸,節省傳輸數量,而對Unicode的字符集的字符編號進行轉換,從定長的2個字節(16進制)轉換成1~3個的變長字節(2進制)表示的轉換格式。

    由于Unicode采用的是2個字節的編碼方式,而UTF-8轉換后可能是1~3個字節,所以同一個漢字,在Unicode中的編碼和經UTF-8轉換后的編碼值肯定是不同的。就好像藝字的Unicode編碼是827A,經轉換后的3個字節是E889BA。

    所以說對于英文字符來說,采用UTF-8對Unicode編碼轉換后節省了一倍的傳輸成本(由定長的2個字節變長1個字節),但對于原本雙字節的東亞字符來說,反而增加了成本,是原來的1.5倍。

    小結:

    ①ASCII、GB2312、GBK、GB18030、Big5、Unicode都是字符集的名稱。它們定義了采用1~2個字節的編碼規范,為每個字符賦予了一個獨一無二的編號。這個編號就是我們所說的“字符編碼”。

    ②Unicode字符集定義的字符編碼并不適合直接通過網絡傳輸表達,因為它們必須轉換成像0101這樣的二進制字節流傳輸。所以就出現了不同的轉換規范實現方式:UTF-8,TF-16等。這些不同的轉換規范轉換后的編碼值和Unicode是不同的。

    對于UTF-8來說,它采用變長字節表示所有Unicode字符,對于英文來說和ASCII兼容,對于東亞字符來說,是原來傳輸成本的1.5倍。所以采用UTF-8編碼轉換方式雖然有利于統一,但增加了中文等雙字節字符的傳輸成本。

    UTF-8采用首字節的高位"1"的個數表示字符的編碼長度。例如在Unicode的編碼規范中:漢字的表示區間為U-00000800至U-0000FFFF對應的UTF-8的轉換規則為:1110xxxx 10xxxxxx 10xxxxxx 首字節3個1代表這個字符的編碼長度為3個字節。如果是2個1則表示2個字節

    ③在底層的平臺中如JVM,采用的是Unicode字符集,當要把這些字符通過網絡傳輸時,可以選擇通過UTF-8或其他(例如GB2312)編碼轉換方式對要傳輸的字符編碼進行轉換。如果目的端也是采用Unicode字符集,那么UTF-8轉換后的編碼可以被正常識別并解碼成最終對應的Unicode字符集編號。如果是非Unicode字符集平臺則可能出現亂碼(UTF-8中漢字的3個連續字節被解析成GB2312的2個連續字節,出現丟失)。所以推薦在傳輸的兩端采用Unicode字符集編碼,在傳輸方式上采用UTF-8轉換方式。

    javac命令是以系統默認編碼讀入源文件,然后按Unicode進行編碼的。(備注:每個文件都有自己的編碼,javac命令按照默認的文件編碼讀入,但是在將.java文件轉換成.class的過程中,javac會將所有的字符轉化成unicode的格式保存。)

    在運行時JVM也是采用unicode編碼的,并且默認輸入和輸出使用的都是操作系統的默認編碼。也就是說在new String(bytes[,encode])中,系統認為輸入的bytes是編碼為encode的字節流(如果不指定encode,那么就是默認使用系統的編碼方式),換句話說,如果按encode來翻譯bytes才能得到正確的原始字符,這個字符最后要在java中保存,它還是要從這個encode轉換成Unicode的。

    也就是說,假如我們需要從磁盤文件、數據庫記錄、網絡傳輸一些字符,保存到Java的變量中,要經歷由bytes-->encode字符-->Unicode字符的轉換(例如new String(bytes, encode));而要把Java變量保存到文件、數據庫或者通過網絡傳輸,系統要做一個Unicode字符-->encode字符-->bytes的轉換(例如String.getBytes([encode]))



    -------------------------------------------------------------
    生活就像打牌,不是要抓一手好牌,而是要盡力打好一手爛牌。
    posted on 2010-02-16 23:23 Paul Lin 閱讀(3681) 評論(3)  編輯  收藏 所屬分類: J2SE


    FeedBack:
    # re: 【Java基礎專題】編碼與亂碼(01)---編碼基礎
    2012-12-12 16:16 | 砂銀
    非常有用,謝謝  回復  更多評論
      
    # re: 【Java基礎專題】編碼與亂碼(01)---編碼基礎[未登錄]
    2014-04-22 11:08 | 小龍
    謝謝,幫了我大忙!  回復  更多評論
      
    # re: 【Java基礎專題】編碼與亂碼(01)---編碼基礎[未登錄]
    2016-04-04 14:16 |
    666666666666666666666這幾天正在做個類似工程編碼出現錯誤  回復  更多評論
      
    <2010年2月>
    31123456
    78910111213
    14151617181920
    21222324252627
    28123456
    78910111213

    常用鏈接

    留言簿(21)

    隨筆分類

    隨筆檔案

    BlogJava熱點博客

    好友博客

    搜索

    •  

    最新評論

    閱讀排行榜

    評論排行榜

    主站蜘蛛池模板: 亚洲精品GV天堂无码男同| 久久精品国产亚洲av麻豆蜜芽| 成人午夜影视全部免费看| 免费鲁丝片一级观看| 欧美亚洲精品一区二区| 四虎影视永久免费观看网址| 国产精品亚洲lv粉色| 四虎在线播放免费永久视频| 九一在线完整视频免费观看 | 九九综合VA免费看| 亚洲精品456播放| 国产在线精品一区免费香蕉| 中文字幕第一页亚洲| 久久精品国产影库免费看| 亚洲视频在线一区| 日本妇人成熟免费中文字幕 | 亚洲国产综合精品中文字幕| 久久不见久久见免费影院www日本| 亚洲日韩一页精品发布| 久别的草原电视剧免费观看| 亚洲人成网站18禁止久久影院| 成人免费无码大片A毛片抽搐| 国产AV日韩A∨亚洲AV电影| 自拍偷自拍亚洲精品第1页| 免费视频成人片在线观看| 亚洲中文字幕无码av| 亚洲乱码中文字幕手机在线| 无码免费一区二区三区免费播放| 亚洲国产片在线观看| jizzjizz亚洲| 免费人妻无码不卡中文字幕系| 亚洲中文字幕久久精品无码VA| 久久久青草青青国产亚洲免观 | 亚洲精品夜夜夜妓女网| 四虎免费影院ww4164h| 国产精品亚洲片在线花蝴蝶| 亚洲国产精品无码av| 毛片a级三毛片免费播放| 中文字幕免费在线播放| 国产成人精品亚洲2020| 亚洲无线观看国产精品|