1.計(jì)算機(jī)信息的存儲(chǔ)與處理
計(jì)算機(jī)信息(包括字母、各種符號、圖形符號)分為:
|--數(shù)據(jù)信息
|--數(shù)值
|--非數(shù)值
|--控制信息
計(jì)算機(jī)信息以二進(jìn)制編碼方式存入計(jì)算機(jī)并得以處理。
這種二進(jìn)制代碼就叫字符編碼。
2.西文字符集
使用最廣泛的西文字符集及編碼是:ASCII字符集 和 ASCII碼
(American Standard Code for Information Interchange)美國標(biāo)準(zhǔn)信息交換碼
使用7個(gè)或8個(gè)二進(jìn)制進(jìn)行編碼的方案,最多可以給256個(gè)字符編碼。
基本的ASCII字符集共有128個(gè)字符,其中96個(gè)是可打印字符。
A為65,0為48
大小寫之間差32
3.MBCS
為擴(kuò)充ASCII編碼,不同國家地區(qū)制定了不同的標(biāo)準(zhǔn)。它些使用2個(gè)字節(jié)代表一個(gè)字符的各種漢字延伸編碼方式,稱為ANSI編碼 (American Nation Standards Institute-美國國家標(biāo)準(zhǔn)學(xué)會(huì))又稱為:Muilti-Bytes Charecter Set 多字節(jié)字符集
簡體中文下,ANSI表示GB2312編碼
由于不同ANSI編碼互不兼容,因此將屬于兩種語言的文字存儲(chǔ)在同一段ANSI編碼的文本中。另外同一個(gè)編碼值在不同的編碼體系代表不同的字,這樣容易造成混亂。這就導(dǎo)致了UNICODE碼的誕生。
所有的編碼都有一個(gè)轉(zhuǎn)換器可以轉(zhuǎn)到unicode,而unicode也可以轉(zhuǎn)換到其它所有的編碼
3.GB2312
中國國家標(biāo)準(zhǔn)總局發(fā)布了一系列漢字字符集國家標(biāo)準(zhǔn)編碼,其中最有影響的是 1980年發(fā)布的GB 2312-1980,因其使用非常普遍,也被稱為國標(biāo)碼。
GB2312由6763個(gè)常用漢字和682個(gè)全角的非漢字字符組成。漢字根據(jù)使用頻率分兩級,一級3755個(gè),二級3008個(gè)。采用二維矩陣編碼法對所有字條進(jìn)行編碼。94行94列的方陣,每一行稱為一個(gè)區(qū),每一列稱為一個(gè)位。
4.UNICODE編碼
它是一個(gè)大而全的編碼,包含了世界上所有的符號,無論是英文,日文,還是中文。現(xiàn)在的規(guī)模可以容納100多萬個(gè)符號,每個(gè)符號的編碼都不一樣。
雖然統(tǒng)一了編碼方式,但它的效率不高。對存儲(chǔ)和傳輸來說都很耗資源
5.UTF-8
為提高 unicode的編碼效率,出現(xiàn)了UTF-8編碼。
它可根據(jù)不同的符號自動(dòng)選擇編碼的長短。