一直搞不清搜索引擎的查全率和查準(zhǔn)率是什么意思,只知道這兩個是衡量一個搜索引擎性能的. 今個 看一篇 南大的學(xué)士論文的時候, 又碰到這個問題. 所以決定把他搞清楚, 上百度搜了一下, 所獲很多.
查全率[召回率]與精度[查準(zhǔn)率] 之辨析:
召回率(recall rate)和精度(precision)定義:
從一個大規(guī)模數(shù)據(jù)集合中檢索文檔的時,可把文檔分成四組
-系統(tǒng)檢索到的相關(guān)文檔(A)
- 系統(tǒng)檢索到的不相關(guān)文檔(B)
- 相關(guān)但是系統(tǒng)沒有檢索到的文檔(C)
- 相關(guān)但是被系統(tǒng)檢索到的文檔(D)
|
相關(guān)
|
不相關(guān)
|
檢索到
|
A
|
B
|
未檢索到
|
C
|
D
|
直觀的說,一個好的檢索系統(tǒng)檢索到的相關(guān)文檔越多越好,不相關(guān)文檔越少越好.
召回率和精度是衡量信息檢索系統(tǒng)性能最重要的參數(shù).
召回率R:用檢索到相關(guān)文檔數(shù)作為分子,所有相關(guān)文檔總數(shù)作為分母,即 R=A/(A+C)
精度P: 用檢索到相關(guān)文檔數(shù)作為分子,所有檢索到的文檔總數(shù)作為分母.即 P=A/(A+B).
下面舉例說明召回率和精度之間的關(guān)系:
一個數(shù)據(jù)庫有500個文檔, 其中有50個文檔符合定義的問題.系統(tǒng)檢索到75個文檔,但是只有45個符合定義的問題.
召回率 R=45/50=90%
精度 P=45/75=60%
本例中, 系統(tǒng)檢索是比較有效的,召回率為90%. 但是結(jié)果有很大的噪音, 有近一半的檢索結(jié)果是不相關(guān). 研究表明: 在不犧牲精度的情況下,獲得一個高召回率是很困難的.召回率越高,精度下降的很快,而且這種趨勢不是線性的.
posted on 2008-05-07 14:35
fullfocus 閱讀(2376)
評論(4) 編輯 收藏 所屬分類:
聚類算法研究