摘要: 這款發布的淑珍分詞器版本是1.1.9,完全是基于字典分詞,在提供下載的壓縮包中含有編譯好的jar包和所有的源代碼,可以應用于Lucene3.0版本及以上中。
為了方便根據自己需要對分詞器進行修改,我這里介紹一下淑珍分詞器的核心數據結構,這個數據結構也是當初我在寫分詞器的時候,為了解決詞庫條目多和索引速度之間的相互制約而想出來的。
這個數據結構就是將詞庫中的每一個條目以一種特定的結構存儲在JDBM或內存中,比如,對一個很常見的條目例子:“男女搭配干活不累”來舉例子,在這種數據結構中,將被存儲為如下key-value鍵值對:
閱讀全文