文本檢索技術摘要
信息檢索模型
|
內容模型
|
Boolean
|
集合論(Fuzzy,
extends boolean)
|
|
Vector
|
代數論(VSM,
GVSM,LSI, Neural networks)
|
|
Probabilistic
|
概率論(推理網絡,置信網,語言模型,查詢擴展)
|
|
結構模型
|
|
|
|
瀏覽模型
|
|
|
|
檢索質量評價
|
查全率
|
|
|
|
|
查準率
|
|
|
|
|
F-measure
|
|
|
|
|
其他評價(前10結果等)
|
|
|
|
全文檢索的索引技術
|
倒排(哈希,B-tree…)
|
|
|
|
|
倒排索引創建(兩趟算法)
|
|
|
|
潛在語義索引(LSI)
|
原理
|
|
|
|
SVD
|
|
|
|
適用環境(靜態,動態)
|
|
|
|
SVD分解降維
|
|
|
|
SVD變換空間(相似度等)
|
|
|
|
實例
|
|
|
|
http://www.tkk7.com/Files/fullfocus/TextMining03.pdf
該文對LSI的分析十分到位,還有詳細的實例。
對索引的創建,很多思想可以借鑒:1. 大數據時,分批排序,再多路合并 2. 分塊寫入內存。 3.編碼壓縮(HUFFMAN等)
posted on 2008-06-12 23:12
fullfocus 閱讀(2579)
評論(4) 編輯 收藏 所屬分類:
聚類算法研究