re: 對搜索引擎同義詞支持的實驗, 分析模擬 bbmonkey62笨笨猴 2010-08-16 10:02
目前所有的搜索引擎都只是按關(guān)鍵詞查找內(nèi)容,最多也只是做了一些很簡單的處理,比如搜索:武大,可能會把武漢大學(xué)也搜索出來,但像你這篇文章中提到的,現(xiàn)在還沒有搜索引擎能做到。
以后的搜索引擎可能會在智能程度提高,但難度也是非常大的。
請在2009-04-17下午5點35分以前下過1.1.6版本的朋友們再重新下一遍,由于我之前測試得不夠嚴(yán)密,5點35分以前的1.1.6版本在對搜索詞進(jìn)行處理(segmentKeyExact(key)和segmentKeyFuzzy(key))時,當(dāng)搜索詞是某種組合的時候會導(dǎo)致比較嚴(yán)重的錯誤,其他功能沒有發(fā)現(xiàn)問題,非常抱歉,敬請諒解
@mrzhu
在建立索引時,lucene是支持索引非文本數(shù)據(jù)的,我不知道你在索引的時候是怎么用的,但我建議你去看如下內(nèi)容:
在org.apache.lucene.document.Field里的構(gòu)造方法:
public Field(String name, byte[] value, Store store)
請留意第二個參數(shù),在建立索引的時候允許非文本的字符,比如大文件類型轉(zhuǎn)換為byte[]型索引起來,然后你取的時候再做相應(yīng)的轉(zhuǎn)換
我沒做測試,你可以去測試下是否可行,我覺得是可以的。。。