<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    vulcan

    低頭做事,抬頭看路

       :: 首頁 :: 聯(lián)系 :: 聚合  :: 管理
      41 Posts :: 7 Stories :: 28 Comments :: 0 Trackbacks
    由于項目中需要把漢字轉(zhuǎn)成拼音,并且是涉及到姓名的轉(zhuǎn)換,因此不能排除有生僻字的可能.我先是查了一下漢字編碼的知識,漢字編碼知識如下:
    http://www.knowsky.com/resource/gb2312tbm.htm;這里說的是區(qū)位碼,實際上區(qū)位碼和漢字GBK碼就是同一個東西,在區(qū)位碼的區(qū)號和位號上分別加上0xA0就得到了GB2312編碼了,但是一看編碼規(guī)律,只有第一次漢字和讀音掛鉤,第二級漢字是按照部首進行編排的,所以應(yīng)該是沒有什么絕對的關(guān)系的。于是又在網(wǎng)上找其他的資料,用java實現(xiàn)的,網(wǎng)上流傳廣泛的有兩種方法:但是就我來看都不怎么的,第一種是把漢字讀音和相應(yīng)區(qū)的漢字對照;但是只是涉及了常用的漢字,遇到生僻字是不能轉(zhuǎn)換的;第二種號稱完整版的方法,居然把漢字碼表的基本對應(yīng)關(guān)系放到了java類中,并且還說什么為了防止函數(shù)字符超過65535長度的限制,用了100多個init函數(shù).我實在是不能理解.其實我想得很簡單:找一個漢字拼音對照表,然后初始化時讀入到HashMap中,用漢字為Key,用拼音作為value,然后就可以獲取了.不過也考慮過,GBK碼表的長度有27954個漢字,從來沒有用HashMap處理過如此長度得東西,不知道會不會有什么限制,不過隨便想了一下應(yīng)該不可能:第一java HashMap的長度不受此限制;第而,查找漢字時,在HashMap中肯定時用二分法或者更好得算法來取Value,那么最壞的情況也不過時lg2(27954),這是很快的.很快實現(xiàn)了,試了一下性能還不錯,在我的機器上:init的時間200ms,查找一個漢字的平均時間為8ms.其實之前我還想過加快速度的更好的方法:把這個漢字編碼表自己先處理一遍,先利用冒泡排序法,把編碼對應(yīng)在數(shù)據(jù)文件里排好,給每個讀音漢字對照分配固定的足夠長的字符寬度,對于編碼中沒有漢字的區(qū)域,用空白代替;這樣漢字的拼音編碼關(guān)系就和漢字本身的編碼建立了聯(lián)系,減去第一個漢字的編碼值,就可以得到漢字拼音在數(shù)據(jù)文件中絕對位置了,然后就可以根據(jù)漢字本身的編碼然后用文件隨機讀取的方法,取到拼音值,不知道這樣是不是會比用hashMap的方法要快一點?不過既然HashMap的方案可行了.那么就暫時不取測試了.
    相關(guān)的資料:
    (1) GBK漢字全拼音單字源碼表
    (2) 單字多音碼表

    posted on 2008-01-24 10:50 vulcan 閱讀(2205) 評論(6)  編輯  收藏

    Feedback

    # re: 也說漢字轉(zhuǎn)拼音 2008-05-16 10:49 yizhyi@163.com
    那對 多音字 你怎么處理的來?
    代碼可否發(fā)一份給我: yizhyi@163.com
    謝謝  回復(fù)  更多評論
      

    # re: 也說漢字轉(zhuǎn)拼音 2008-05-23 18:49 vulcan
    多音字的處理:
    我寫了一個Python腳本,把這個單字碼表轉(zhuǎn)換了一下,換成了這樣的形式:
    漢字:讀音1,讀音2//換行
    讀入到j(luò)ava Hash中,是以漢字為Key,字符串?dāng)?shù)組為Value的Hash表。我的應(yīng)用情況比較特殊,是用于人名的轉(zhuǎn)換;而用于人名的漢字讀音一般是固定的,所以就很好處理了。另外,處理后的單字多音碼表我傳到上文中了。  回復(fù)  更多評論
      

    # re: 也說漢字轉(zhuǎn)拼音 2008-06-19 16:10
    像麒麟這樣的生僻字用java
    怎么轉(zhuǎn)換啊  回復(fù)  更多評論
      

    # re: 也說漢字轉(zhuǎn)拼音 2009-02-22 14:32 湘江一角
    大哥,能不能發(fā)一份源代碼給我,現(xiàn)在也是多音字上面犯愁。郵箱:luoguanghua@hotmail.com  回復(fù)  更多評論
      

    # re: 也說漢字轉(zhuǎn)拼音 2010-12-09 19:22 liuboram
    同樣的問題,能否把代碼共享一下呢?liuborama@gmail.com
    多謝了  回復(fù)  更多評論
      

    # re: 也說漢字轉(zhuǎn)拼音 2012-11-14 19:22 hikaruxx
    你好,能不能發(fā)一份源代碼?ziven000@163.com
    謝謝  回復(fù)  更多評論
      


    只有注冊用戶登錄后才能發(fā)表評論。


    網(wǎng)站導(dǎo)航:
     
    主站蜘蛛池模板: 亚洲无码一区二区三区| 成全视频在线观看免费| 91麻豆精品国产自产在线观看亚洲| 一本岛v免费不卡一二三区| 亚洲成A人片在线观看WWW| 69式国产真人免费视频| 深夜a级毛片免费无码| 午夜亚洲www湿好大| 免费看大美女大黄大色| 羞羞视频免费网站在线看| 亚洲xxxxxx| 亚洲日产无码中文字幕| 无码日韩人妻av一区免费| 国产视频精品免费视频| 亚洲偷偷自拍高清| 夜夜春亚洲嫩草影院| 成人激情免费视频| 国产精品免费一区二区三区四区| 亚洲欧洲无码AV不卡在线| 久久久久亚洲AV无码专区首| 四虎影视永久免费观看| 精品免费人成视频app| 七次郎成人免费线路视频| 亚洲w码欧洲s码免费| 亚洲av日韩av高潮潮喷无码| 免费少妇a级毛片| 免费国产成人高清在线观看网站| a毛片免费播放全部完整| 国产成人精品久久亚洲高清不卡 | 亚洲欧洲精品一区二区三区| 免费在线不卡视频| 亚洲人成网站免费播放| 少妇太爽了在线观看免费视频| 免费观看四虎精品成人| 国产亚洲福利在线视频| 久久久亚洲欧洲日产国码是AV| 亚洲国产婷婷综合在线精品| 国内自产拍自a免费毛片| 国产a视频精品免费观看| 久久精品中文字幕免费| 精品97国产免费人成视频 |