磨刀不誤砍柴工

合抱之木，生于毫末；九層之臺(tái)，起于累土；千里之行，始于足下。

:: :: :: :: 管理

字符編碼知識(shí)

1.計(jì)算機(jī)信息的存儲(chǔ)與處理

計(jì)算機(jī)信息（包括字母、各種符號、圖形符號）分為：

|--數(shù)據(jù)信息

|--數(shù)值

|--非數(shù)值

|--控制信息

計(jì)算機(jī)信息以二進(jìn)制編碼方式存入計(jì)算機(jī)并得以處理。

這種二進(jìn)制代碼就叫字符編碼。

2.西文字符集

使用最廣泛的西文字符集及編碼是：ASCII字符集和 ASCII碼

(American Standard Code for Information Interchange)美國標(biāo)準(zhǔn)信息交換碼

使用7個(gè)或8個(gè)二進(jìn)制進(jìn)行編碼的方案，最多可以給256個(gè)字符編碼。

基本的ASCII字符集共有128個(gè)字符，其中96個(gè)是可打印字符。

A為65，0為48

大小寫之間差32

3.MBCS

為擴(kuò)充ASCII編碼，不同國家地區(qū)制定了不同的標(biāo)準(zhǔn)。它些使用2個(gè)字節(jié)代表一個(gè)字符的各種漢字延伸編碼方式，稱為ANSI編碼 (American Nation Standards Institute-美國國家標(biāo)準(zhǔn)學(xué)會(huì)）又稱為：Muilti-Bytes Charecter Set 多字節(jié)字符集

簡體中文下,ANSI表示GB2312編碼

由于不同ANSI編碼互不兼容，因此將屬于兩種語言的文字存儲(chǔ)在同一段ANSI編碼的文本中。另外同一個(gè)編碼值在不同的編碼體系代表不同的字，這樣容易造成混亂。這就導(dǎo)致了UNICODE碼的誕生。

所有的編碼都有一個(gè)轉(zhuǎn)換器可以轉(zhuǎn)到unicode,而unicode也可以轉(zhuǎn)換到其它所有的編碼

3.GB2312

中國國家標(biāo)準(zhǔn)總局發(fā)布了一系列漢字字符集國家標(biāo)準(zhǔn)編碼，其中最有影響的是 1980年發(fā)布的GB 2312-1980,因其使用非常普遍，也被稱為國標(biāo)碼。

GB2312由6763個(gè)常用漢字和682個(gè)全角的非漢字字符組成。漢字根據(jù)使用頻率分兩級,一級3755個(gè)，二級3008個(gè)。采用二維矩陣編碼法對所有字條進(jìn)行編碼。94行94列的方陣，每一行稱為一個(gè)區(qū)，每一列稱為一個(gè)位。

4.UNICODE編碼

它是一個(gè)大而全的編碼，包含了世界上所有的符號，無論是英文，日文，還是中文。現(xiàn)在的規(guī)模可以容納100多萬個(gè)符號，每個(gè)符號的編碼都不一樣。

雖然統(tǒng)一了編碼方式，但它的效率不高。對存儲(chǔ)和傳輸來說都很耗資源

5.UTF-8

為提高 unicode的編碼效率，出現(xiàn)了UTF-8編碼。

它可根據(jù)不同的符號自動(dòng)選擇編碼的長短。

posted on 2014-03-08 12:57 liwei5891 閱讀(284) 評論(0) 編輯收藏所屬分類: 基礎(chǔ)知識(shí)

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問

磨刀不誤砍柴工

文章分類

文章檔案

相冊

常用鏈接

程序江湖

最新評論