摘要: 這款發(fā)布的淑珍分詞器版本是1.1.9,完全是基于字典分詞,在提供下載的壓縮包中含有編譯好的jar包和所有的源代碼,可以應(yīng)用于Lucene3.0版本及以上中。
為了方便根據(jù)自己需要對分詞器進(jìn)行修改,我這里介紹一下淑珍分詞器的核心數(shù)據(jù)結(jié)構(gòu),這個數(shù)據(jù)結(jié)構(gòu)也是當(dāng)初我在寫分詞器的時候,為了解決詞庫條目多和索引速度之間的相互制約而想出來的。
這個數(shù)據(jù)結(jié)構(gòu)就是將詞庫中的每一個條目以一種特定的結(jié)構(gòu)存儲在JDBM或內(nèi)存中,比如,對一個很常見的條目例子:“男女搭配干活不累”來舉例子,在這種數(shù)據(jù)結(jié)構(gòu)中,將被存儲為如下key-value鍵值對:
閱讀全文