<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    posts - 1,  comments - 0,  trackbacks - 0
    OHSUMED數據集
    1. OHSUMED數據集介紹#此前在首頁部分顯示#

    本實驗中采用OHSUMED測試數據集合(其也被用于第9 屆國際文本檢索競賽TREC9 的文檔過濾子競賽)OHSUMED 數據集合由William Hersh和他的同事們一起建立,其文檔來源于醫藥信息數據庫MEDLINE10,它包含了從1987 年到1991 年五年間270 個醫藥類雜志的標題和/或摘要,包含了348566個文檔。一個OHSUMED 文檔由8 個域組成,含義如下:

    z .I 文章的OHSUMED 序列號,從1 348566

    z .U MEDLINE 標識

    z .S 文章來源

    z .M MeSH 索引詞

    z .T 文章標題

    z .P 文章類型

    z .W 文章摘要

    z .A 文章作者

    OHSUMED 的作者還為文檔集合構造了106 個查詢,這些查詢來源于醫生在給病人看病的過程中所提交的查詢字符串,每一個查詢由兩部分組成:病人情況的簡單描述和所需信息的描述。一個OHSUMED 查詢由如下3 不同域組成:

    z .I 文章的OHSUMED 序列號,從1 106

    z .B 患者信息

    z .W 信息需求

    基于以上的文檔集合和查詢集合,OHSUMED 一共標注了16140 個查詢-文

    檔對,每一個查詢-文檔對都被標注成相關(definitely relevant)、部分相關(partially relevant)或者不相關(not relevant),最終的標注結果中一共包含了2557個相關、2932 個部分相關以及12498 個不相關的查詢-文檔對(一個文檔可能被標記成多個級別,在本節的實驗中,取其級別最高的標號作為其最終標號)。

    2.實驗特征選擇

     沒有辦法傳圖片郁悶拉。

    其中low-level的10個特征取自標題+摘要(如有需要可以分別來計算),|C|是所有文檔的個數,c(qi,d)是qi在文檔d中出現的次數,df(qi)是qi的文檔頻率。BM25可以用lemur或者Lucene計算。highlevel的是5個特征。

    3. 實驗數據分割及評價標準

    本節的實驗索引了文檔中的標題域(.T)和摘要域(.W),標題+摘要被建立索引進行查詢,查詢中的查詢信息需求(.W)被直接用作查詢字符串,.I 被用于標識文檔或查詢,文檔和查詢的其他域都暫時都沒有被利用。

    將106個query分為5份,4份用于訓練,1份用于測試,剩下的1份用于檢驗(已整理好可以直接用于訓練)。在計算評價指標平均查準率的均值(MAP)時,由于其要求文檔被標注成兩個等級:相關和不相關,因此把標注為相關的文檔(definitely relevant)看成相關的文檔,其他兩個級別的文檔(部分相關(partially relevant)和不相關(not relevant))都看成不相關文檔;對于NDCG 的計算,我們把相關映射為數值3、部分相關為1、不相關映射為0。

    20 newsgroup
    1.特征選擇同OHSUMED。 2. 實驗數據分割及評價標準

    20 newsgroup包含20個類,每個類包含將近1000篇文章,我們在20newsgroup中隨機選取6個類,分別為comp.graphics, comp.os.ms-windows.misc, rec.motorcycles ,rec.sport.baseball,sci.space和 talk.politics.mideast,在每個類中選取前60篇document共組成360篇文檔,選擇前15個文檔作為query組成90個query,分為6份,5份做訓練,1份測試。關于查詢-文檔對的相關性我們有如下的判定方法:如果屬于同一個子類則標注為相關,映射為數值3,屬于一個同一個大類的標注為半相關,映射為數值1,其他的標注為不相關,映射為數值為0.評價標準同OHSUMED。

    ps:實驗數據格式見OHSUMED文件,其中第一個為label(相關性3,1或0),然后為query的id號qid,剩下的25個為特征向量,最后是對應的document id號docid。

    posted on 2012-03-15 14:46 憤怒的考拉 閱讀(978) 評論(0)  編輯  收藏

    只有注冊用戶登錄后才能發表評論。


    網站導航:
     
    <2025年5月>
    27282930123
    45678910
    11121314151617
    18192021222324
    25262728293031
    1234567

    常用鏈接

    留言簿

    隨筆檔案

    文章檔案

    搜索

    •  

    最新評論

    主站蜘蛛池模板: 亚洲三级高清免费| 亚洲精品偷拍无码不卡av| 国产精品亚洲专一区二区三区| 美女视频黄a视频全免费| 亚洲av午夜精品无码专区| xxxx日本免费| 亚洲Av无码一区二区二三区| 黄页网站在线看免费| 亚洲日本天堂在线| 国产精品四虎在线观看免费| 特级毛片免费播放| 亚洲精品中文字幕无码蜜桃| 秋霞人成在线观看免费视频 | 亚洲AV成人潮喷综合网| 女人18毛片水真多免费看| 亚洲中文字幕一二三四区苍井空| 91免费精品国自产拍在线不卡| 国产AV旡码专区亚洲AV苍井空| 免费观看一级毛片| 国产乱子伦精品免费视频| 亚洲成A人片777777| 国产又大又粗又长免费视频 | 69av免费视频| 看Aⅴ免费毛片手机播放| 国产偷国产偷亚洲高清日韩| 久久青草91免费观看| 亚洲三级在线播放| 免费人成网站在线播放| 国产精品内射视频免费| 亚洲性一级理论片在线观看| 成人黄网站片免费视频| 亚洲精品在线播放| 亚洲VA综合VA国产产VA中| 国产免费拔擦拔擦8X高清在线人 | 久久综合日韩亚洲精品色| 久久久久久精品免费看SSS| 亚洲a∨国产av综合av下载| 亚洲区小说区激情区图片区| a级毛片免费观看网站| 亚洲国产精品yw在线观看| www.亚洲精品|