關(guān)于編碼
所謂編碼,是以固定的順序排列字符,并以此做為記錄、存貯、傳遞、交換的統(tǒng)一內(nèi)部特征,這個(gè)字符排列順序被稱(chēng)為“編碼”。
字庫(kù)的編碼是字庫(kù)組織的依據(jù),也是文字處理的基礎(chǔ)。不同國(guó)家和地區(qū)有不同的編碼標(biāo)準(zhǔn),和中文字庫(kù)有關(guān)的常見(jiàn)編碼有:單字節(jié)編碼、GB2312-80、GB12345-90、GBK、Unicode編碼、ISO10646 / Unicode字符集、GB18030-2000、BIG5編碼、方正748編碼,下面簡(jiǎn)要介紹一下:
■ 單字節(jié)編碼
- MS Windows:Windows Latin 1(ANSI)
- MS-DOS:MS-DOS Latin US
- Macintosh:Macintosh Roman
■ GB2312-80
全稱(chēng)是GB2312-80《信息交換用漢字編碼字符集 基本集》,1980年發(fā)布,是中文信息處理的國(guó)家標(biāo)準(zhǔn),在大陸及海外使用簡(jiǎn)體中文的地區(qū)(如新加坡等)是強(qiáng)制使用的唯一中文編碼。P-Windows3.2和蘋(píng)果OS就是以GB2312為基本漢字編碼, Windows 95/98則以GBK為基本漢字編碼、但兼容支持GB2312。
- 雙字節(jié)編碼
- 范圍:A1A1~FEFE
- A1-A9:符號(hào)區(qū),包含682個(gè)符號(hào)
- B0-F7:漢字區(qū),包含6763個(gè)漢字
GB碼共收錄6763個(gè)簡(jiǎn)體漢字、682個(gè)符號(hào),其中漢字部分:一級(jí)字3755,以拼音排序,二級(jí)字3008,以偏旁排序。該標(biāo)準(zhǔn)的制定和應(yīng)用為規(guī)范、推動(dòng)中文信息化進(jìn)程起了很大作用。
■ GB12345-90
1990年制定了繁體字的編碼標(biāo)準(zhǔn)GB12345-90《信息交換用漢字編碼字符集 第一輔助集》,目的在于規(guī)范必須使用繁體字的各種場(chǎng)合,以及古籍整理等。該標(biāo)準(zhǔn)共收錄6866個(gè)漢字(比GB2312多103個(gè)字,其它廠商的字庫(kù)大多不包括這些字),純繁體的字大概有2200余個(gè)。
- 雙字節(jié)編碼
- 范圍:A1A1~FEFE
- A1-A9:符號(hào)區(qū),增加豎排符號(hào)
- B0-F9:漢字區(qū),包含6866個(gè)漢字
■ Unicode編碼(Universal Multiple Octet Coded Character Set)
國(guó)際標(biāo)準(zhǔn)組織于1984年4月成立ISO/IEC JTC1/SC2/WG2工作組,針對(duì)各國(guó)文字、符號(hào)進(jìn)行統(tǒng)一性編碼。1991年美國(guó)跨國(guó)公司成立Unicode Consortium,并于1991年10月與WG2達(dá)成協(xié)議,采用同一編碼字集。目前Unicode是采用16位編碼體系,其字符集內(nèi)容與ISO10646的BMP(Basic Multilingual Plane)相同。Unicode于1992年6月通過(guò)DIS(Draf International Standard),目前版本V2.0于1996公布,內(nèi)容包含符號(hào)6811個(gè),漢字20902個(gè),韓文拼音11172個(gè),造字區(qū)6400個(gè),保留20249個(gè),共計(jì)65534個(gè)。
■ ISO10646 / Unicode字符集
全球可以共享的編碼字符集。
- UCS-4:組八位 平面八位 行八位 字位八位
- UCS-2:00組中的00平面是基本多文種平面(BMP),4E00~9FFF 中日韓文字
- Ext A(CJK):3400~4DB7,共6584字
- Ext B(CJK):42,807個(gè)漢字,在第2平面的0100~A836
■ GBK編碼(Chinese Internal Code Specification)
GBK編碼是中國(guó)大陸制訂的、等同于UCS的新的中文編碼擴(kuò)展國(guó)家標(biāo)準(zhǔn)。GBK工作小組于1995年10月,同年12月完成GBK規(guī)范。該編碼標(biāo)準(zhǔn)兼容GB2312,共收錄漢字21003個(gè)、符號(hào)883個(gè),并提供1894個(gè)造字碼位,簡(jiǎn)、繁體字融于一庫(kù)。
Windows95/98簡(jiǎn)體中文版的字庫(kù)表層編碼就采用的是GBK,通過(guò)GBK與UCS之間一一對(duì)應(yīng)的碼表與底層字庫(kù)聯(lián)系。
- 英文名:Chinese Internal Code Specification
- 中文名:漢字內(nèi)碼擴(kuò)展規(guī)范1.0版
- 雙字節(jié)編碼,GB2312-80的擴(kuò)充,在碼位上和GB2312-80兼容
- 范圍:8140~FEFE(剔除xx7F)共23940個(gè)碼位
- 包含21003個(gè)漢字,包含了ISO/IEC 10646-1中的全部中日韓漢字
■ GB18030-2000
- 英文名:Chinese Internal Code Specification
- 中文名:信息技術(shù) 信息交換用漢字編碼字符集
- 基本集的擴(kuò)充( 2000-03-17發(fā)布和實(shí)施)
- 單字節(jié)、雙字節(jié)、四字節(jié)編碼
- 向下與國(guó)家標(biāo)準(zhǔn)GB 2312信息處理交換碼所對(duì)應(yīng)的事實(shí)上的內(nèi)碼標(biāo)準(zhǔn)兼容。
- 在字匯上支持GB 13000.1的全部中、日、韓(CJK)統(tǒng)一漢字字符和全部CJK統(tǒng)一漢字?jǐn)U充A的字符。
■ BIG5編碼
是目前臺(tái)灣、香港地區(qū)普遍使用的一種繁體漢字的編碼標(biāo)準(zhǔn),包括440個(gè)符號(hào),一級(jí)漢字5401個(gè)、二級(jí)漢字7652個(gè),共計(jì)13060個(gè)漢字。
■ 方正748編碼
所謂748編碼,是指方正系統(tǒng)在長(zhǎng)期應(yīng)用過(guò)程中實(shí)施、制定的簡(jiǎn)、繁體字庫(kù)編碼方式,簡(jiǎn)體兼容GB2312且有所擴(kuò)展,共7156字;繁體兼容GB12345并擴(kuò)展全部BIG-5漢字,計(jì)14943字。此外,方正748編碼還含有豐富的符號(hào)庫(kù)。748編碼僅用于方正軟件和系統(tǒng)。