倒排文件(Inverted file)描述了一個詞項集合(TERMS)元素和一個文檔集合(DOCS)元素對應(yīng)關(guān)系的數(shù)據(jù)結(jié)構(gòu)。在倒排文件中,可以直接給出一個Term出現(xiàn)在哪些Document中,和在某個Document中出現(xiàn)的位置和頻率。在Lucene 2.1中InvertDoucment會對文檔進(jìn)行倒排處理。
下面是信息檢索研究中常用的幾個相關(guān)量:
N:文檔集合的大小
M:詞項集合的大小
Sj=|PL(tj)|:詞項tj所涉及文檔的個數(shù)
DF(tj)=sj/N:詞項tj的文檔頻率
IDF(tj)=-logDF(tj):倒置文檔頻率;其值越小表示出現(xiàn)的頻率越高
fi,j:第j個詞項tj在第i個文檔di中出現(xiàn)的次數(shù)
TN=
fi,j:系統(tǒng)所有文檔分解后包含詞項的總量(包括重復(fù),即一個多重集(multi-set))
TF(tj)=(
fi,j)/TN:詞項tj在文檔中出現(xiàn)的頻度(詞頻)
ITF(tj)=logTF(tj):倒置詞頻;越小表示出現(xiàn)的頻率越高
倒排文件分為兩部分:第一部分是由不同詞項組成的索引,稱為詞表(Vocabulary),第二部分由每個詞項出現(xiàn)過的文檔集合構(gòu)成,稱為記錄文件(Posting File),每個詞項的對應(yīng)部分稱為倒排表(Posting Lists),可以通過詞表訪問。
posted on 2007-06-11 08:14
Terry Liang 閱讀(2706)
評論(0) 編輯 收藏 所屬分類:
Lucene 2.1研究