文本檢索技術(shù)摘要
信息檢索模型
|
內(nèi)容模型
|
Boolean
|
集合論(Fuzzy,
extends boolean)
|
|
Vector
|
代數(shù)論(VSM,
GVSM,LSI, Neural networks)
|
|
Probabilistic
|
概率論(推理網(wǎng)絡(luò),置信網(wǎng),語言模型,查詢擴(kuò)展)
|
|
結(jié)構(gòu)模型
|
|
|
|
瀏覽模型
|
|
|
|
檢索質(zhì)量評(píng)價(jià)
|
查全率
|
|
|
|
|
查準(zhǔn)率
|
|
|
|
|
F-measure
|
|
|
|
|
其他評(píng)價(jià)(前10結(jié)果等)
|
|
|
|
全文檢索的索引技術(shù)
|
倒排(哈希,B-tree…)
|
|
|
|
|
倒排索引創(chuàng)建(兩趟算法)
|
|
|
|
潛在語義索引(LSI)
|
原理
|
|
|
|
SVD
|
|
|
|
適用環(huán)境(靜態(tài),動(dòng)態(tài))
|
|
|
|
SVD分解降維
|
|
|
|
SVD變換空間(相似度等)
|
|
|
|
實(shí)例
|
|
|
|
http://www.tkk7.com/Files/fullfocus/TextMining03.pdf
該文對(duì)LSI的分析十分到位,還有詳細(xì)的實(shí)例。
對(duì)索引的創(chuàng)建,很多思想可以借鑒:1. 大數(shù)據(jù)時(shí),分批排序,再多路合并 2. 分塊寫入內(nèi)存。 3.編碼壓縮(HUFFMAN等)
posted on 2008-06-12 23:12
fullfocus 閱讀(2579)
評(píng)論(4) 編輯 收藏 所屬分類:
聚類算法研究