隨筆分類(31)

文章分類(4)

收藏夾(21)

搜索

積分與排名

積分 - 30055
排名 - 1390

閱讀排行榜

字符集編碼和編碼字符集（轉摘）

    字符集，指的是被分配了整數編號的字符集合；
    但是，編碼字符集中字符被分配的整數編號，不一定就是該字符在計算機中存儲時所使用的值；
    計算機中存儲的字符到底使用什么二進制整數值來表示，是由字符集編碼決定的。

    字符集編碼決定了如何將一個字符的整數編號對應到一個二進制的整數值。
    有的編碼方案簡單的將該整數值直接作為其在計算機中的表示而存儲，例如英文字符。
    幾乎所有的字符集編碼方案中，英文字母的整數編號與其在計算機內部存儲的二進制形式都一致。
    但有的編碼方案，例如適用于Unicode字符集的UTF-8編碼形式，就將很大一部分字符的整數編號作了變換后存儲在計算機中。
    以“漢”字為例，“漢”的Unicode值為0x6C49，但其編碼為UTF-8格式后的值為0xE6B189（注意到變成了三個字節）。

    GB2312最初指的是一個編碼字符集，其中包含了ASCII所包含的英文字符，同時加入了6763個簡體漢字以及其他一些ASCII之外的符號。GB2312也有自己的編碼方案，但這個方案直接使用一個字符在GB2312中的編號作為存儲值（與UTF-32的做法類似）。
    我們日常說起GB2312的時候，常常即指這個字符集，也指這種編碼方案。

    GBK是GB2312的后續標準，添加了更多的漢字和特殊符號，類似的是，GBK也是同時指他的字符集和他的編碼。
    GBK還是現如今中文Windows操作系統的系統默認編碼（這正是幾乎所有網頁上的，文件里的亂碼問題的根源）。

    在Java中，字符只以一種編碼形式存在，那就是UTF-16。
    但“在Java中”到底是指在哪里呢？就是指在JVM中，在內存中，代碼里聲明的每一個char，String類型的變量中。

    Python中既可以按Ascii編碼，也可以按unicode編碼。

posted on 2009-02-20 21:58 Dest 閱讀(236) 評論(0) 編輯收藏所屬分類: Java


Copyright © Dest	Powered by: 博客園模板提供：滬江博客

導航

留言簿(1)

隨筆分類(31)

文章分類(4)

收藏夾(21)

搜索

積分與排名

最新隨筆

最新評論

閱讀排行榜