Posted on 2007-01-30 14:10
王睿 閱讀(456)
評論(0) 編輯 收藏 所屬分類:
搜索技術
建立索引的三大步

1.??????
數據轉換
Lucene
只支持text格式,所以要想對其他非text格式的文檔建立索引,首先的進行轉換。轉換后生成Document對象。
2.??????
Document
分析
Document
分析的過程是一個規范化,去糟粕取精華的過程。比如:全部轉為小寫(Wang到wang),轉為原型(running到run),去除連接詞(a、an、的)等等。
3.??????
寫索引文件
以反向索引的數據結構存儲。