中文分詞 mmseg4j 1.7.2 版發布,其實兩天前就發布了,只是沒有寫博客而已。與引版本發布的還有 1.6.2,兩者基本一樣,只是詞庫的數據結構不同,1.7的是鍵樹,1.6的是數組與二分查找。 mmseg4j 1.7.2 版的主要更新:
- 修復由 1.7-beta 升級到 1.7 版的 bug:添加 lowerCaseFilter 后的一個 bug: NullPointerException。
- 核發程序與 lucene 和 solr 擴展分開打包, 同時給出低版本的 lucene 擴展(lucene 1.9 到 2.2; lucene 2.3)
如何從源碼編譯:下載源碼:
mmseg4j-1.7.2-src 或
mmseg4j-1.6.2-src。解壓到如:e:/mmseg4j-1.7.2-src。然后到這個目錄,運行:
或
上面編譯是在 solr 1.3 和 lucene 2.4 環境下的。如果您要在 低版本的 lucene 中使用,到 e:/mmseg4j-1.7.2-src/contrib/lucene_1_9 或 e:/mmseg4j-1.7.2-src/contrib/lucene_2_3 運行:
說明:到 contrib 下的子項目中編譯的話,先要編譯 mmseg4j,contrib/lucene_1_9 可以支持到 2.2。
如果有任何疑問、建議,歡迎到論壇
http://groups.google.com/group/mmseg4j/topics?hl=zh_CN 討論。或與我聯系 chenlb2008#gmail.com。
還要感謝網友“苦澀可樂”提示 NullPointerException 的bug。
官方博客:
mmseg4j,項目:
google code mmseg4j
posted on 2009-04-27 20:00
流浪汗 閱讀(2917)
評論(0) 編輯 收藏 所屬分類:
mmseg4j