OHSUMED
數據集 1. OHSUMED
數據集介紹#此前在首頁部分顯示#
本實驗中采用OHSUMED測試數據集合(其也被用于第9 屆國際文本檢索競賽TREC9 的文檔過濾子競賽)。OHSUMED 數據集合由William Hersh和他的同事們一起建立,其文檔來源于醫(yī)藥信息數據庫MEDLINE10,它包含了從1987 年到1991 年五年間270 個醫(yī)藥類雜志的標題和/或摘要,包含了348566個文檔。一個OHSUMED 文檔由8 個域組成,含義如下:
z .I 文章的OHSUMED 序列號,從1 到348566
z .U MEDLINE 標識
z .S 文章來源
z .M MeSH 索引詞
z .T 文章標題
z .P 文章類型
z .W 文章摘要
z .A 文章作者
OHSUMED 的作者還為文檔集合構造了106 個查詢,這些查詢來源于醫(yī)生在給病人看病的過程中所提交的查詢字符串,每一個查詢由兩部分組成:病人情況的簡單描述和所需信息的描述。一個OHSUMED 查詢由如下3 不同域組成:
z .I 文章的OHSUMED 序列號,從1 到106
z .B 患者信息
z .W 信息需求
基于以上的文檔集合和查詢集合,OHSUMED 一共標注了16140 個查詢-文
檔對,每一個查詢-文檔對都被標注成相關(definitely relevant)、部分相關(partially relevant)或者不相關(not relevant),最終的標注結果中一共包含了2557個相關、2932 個部分相關以及12498 個不相關的查詢-文檔對(一個文檔可能被標記成多個級別,在本節(jié)的實驗中,取其級別最高的標號作為其最終標號)。
2.實驗特征選擇
沒有辦法傳圖片郁悶拉。
其中l(wèi)ow-level的10個特征取自標題+摘要(如有需要可以分別來計算),|C|是所有文檔的個數,c(qi,d)是qi在文檔d中出現(xiàn)的次數,df(qi)是qi的文檔頻率。BM25可以用lemur或者Lucene計算。highlevel的是5個特征。
3. 實驗數據分割及評價標準
本節(jié)的實驗索引了文檔中的標題域(.T)和摘要域(.W),標題+摘要被建立索引進行查詢,查詢中的查詢信息需求(.W)被直接用作查詢字符串,.I 被用于標識文檔或查詢,文檔和查詢的其他域都暫時都沒有被利用。
將106個query分為5份,4份用于訓練,1份用于測試,剩下的1份用于檢驗(已整理好可以直接用于訓練)。在計算評價指標平均查準率的均值(MAP)時,由于其要求文檔被標注成兩個等級:相關和不相關,因此把標注為相關的文檔(definitely relevant)看成相關的文檔,其他兩個級別的文檔(部分相關(partially relevant)和不相關(not relevant))都看成不相關文檔;對于NDCG 的計算,我們把相關映射為數值3、部分相關為1、不相關映射為0。
20 newsgroup
1.特征選擇同OHSUMED。 2. 實驗數據分割及評價標準
20 newsgroup包含20個類,每個類包含將近1000篇文章,我們在20newsgroup中隨機選取6個類,分別為comp.graphics, comp.os.ms-windows.misc, rec.motorcycles ,rec.sport.baseball,sci.space和 talk.politics.mideast,在每個類中選取前60篇document共組成360篇文檔,選擇前15個文檔作為query組成90個query,分為6份,5份做訓練,1份測試。關于查詢-文檔對的相關性我們有如下的判定方法:如果屬于同一個子類則標注為相關,映射為數值3,屬于一個同一個大類的標注為半相關,映射為數值1,其他的標注為不相關,映射為數值為0.評價標準同OHSUMED。
ps:實驗數據格式見OHSUMED文件,其中第一個為label(相關性3,1或0),然后為query的id號qid,剩下的25個為特征向量,最后是對應的document id號docid。
posted on 2012-03-15 14:46
憤怒的考拉 閱讀(978)
評論(0) 編輯 收藏