轉(zhuǎn)載:
http://www.bullog.cn/blogs/cathayan/archives/33231.aspx
在Linux下面全面用UTF-8后就曾發(fā)現(xiàn)過(guò)中文排序有點(diǎn)不理解了,昨天才看到別人討論,原來(lái)
Unicode里面的漢字順序居然是《康熙字典》的偏旁部首順序。查了一下,康熙字典中的部首共有214個(gè):
一丨丶丿乙亅二亠人兒入八冂冖冫幾凵刀力勹匕匚匸十卜卩廠厶又口囗土士夂夊夕大女子宀寸小尢尸屮山巛工己巾干幺廣廴廾弋弓彐彡彳心戈戶手支攴文斗斤方無(wú)日曰月木欠止歹殳毋比毛氏氣水火爪父爻爿片牙牛犬玄玉瓜瓦甘生用田疋疒癶白皮皿目矛矢石示禸禾穴立竹米糸缶網(wǎng)羊羽老而耒耳聿肉臣自至臼舌舛舟艮色艸虍蟲(chóng)血行衣襾見(jiàn)角言谷豆豕豸貝赤走足身車辛辰辵邑酉釆里金長(zhǎng)門阜隸隹雨靑非面革韋韭音頁(yè)風(fēng)飛食首香馬骨高髟鬥鬯鬲鬼魚(yú)鳥(niǎo)鹵鹿麥麻黃黍黑黹黽鼎鼓鼠鼻齊齒龍龜龠
像在Google Docs里面,如果對(duì)Spreadsheet表格排序,中文就依據(jù)上面的部首順序進(jìn)行,部首在前的字就排在前面,如果部首相同,則算筆劃數(shù),筆劃數(shù)相同的就不知道怎么排了。比如有這樣的結(jié)果:
劉孫康張李王趙錢齊
它們的部首分別是:刀子廣弓木王走金齊。
又有:刈劉則剎劑剔,文和貝同為4劃,殺和齊同為6劃,而點(diǎn)在豎前,撇在橫前,按傳統(tǒng)應(yīng)該是“江山千古”(丶丨丿一乛)的順序。另外還有“寒來(lái)暑往”(丶一丨丿乛),“天上人間”(一丨丿丶乛),札字(一丨丿丶乛)法,禮(丶一丨丿乛)字法等。
這樣用Unicode的話,就是不加任何處理,排序出來(lái)的漢字也是很有道理的。但如果想排出拼音順序就還得再想辦法。
查Unicode和康熙的時(shí)候,還查到了這個(gè)
海峰五筆超大字符集輸入法,一個(gè)用于Win系統(tǒng)的五筆輸入法,有86和98標(biāo)準(zhǔn),最厲害的是:收錄
UNICODE超大字集全部七萬(wàn)多中日韓漢字,同時(shí)他們還提供一個(gè)exe來(lái)安裝
這個(gè)字體:
CJK基本 [4E00-9FFF] 20992碼位 實(shí)際20924字
CJK擴(kuò)展A [3400-4DBF] 6592碼位 實(shí)際6582字
CJK擴(kuò)展B [20000-2A6DF] 42720碼位 實(shí)際42711字
CJK擴(kuò)展C [2A700-2BA7F] 4224碼位 實(shí)際4219字
CJK兼容擴(kuò)展 [2F800-2FA1F] 544碼位 實(shí)際542字
CJK部首擴(kuò)展 [2E80-2EFF] 128碼位 實(shí)際116字
CJK康熙部首 [2F00-2FDF] 224碼位 實(shí)際214字
CJK筆畫(huà) [31C0-31EF] 48碼位 實(shí)際36字
CJK兼容 [F900-FAFF] 512個(gè)碼位 實(shí)際474字
posted on 2008-04-21 17:23
流浪汗 閱讀(1389)
評(píng)論(0) 編輯 收藏 所屬分類:
Other