<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    posts - 1,  comments - 0,  trackbacks - 0
    OHSUMED數據集
    1. OHSUMED數據集介紹#此前在首頁部分顯示#

    本實驗中采用OHSUMED測試數據集合(其也被用于第9 屆國際文本檢索競賽TREC9 的文檔過濾子競賽)。OHSUMED 數據集合由William Hersh和他的同事們一起建立,其文檔來源于醫(yī)藥信息數據庫MEDLINE10,它包含了從1987 年到1991 年五年間270 個醫(yī)藥類雜志的標題和/或摘要,包含了348566個文檔。一個OHSUMED 文檔由8 個域組成,含義如下:

    z .I 文章的OHSUMED 序列號,從1 348566

    z .U MEDLINE 標識

    z .S 文章來源

    z .M MeSH 索引詞

    z .T 文章標題

    z .P 文章類型

    z .W 文章摘要

    z .A 文章作者

    OHSUMED 的作者還為文檔集合構造了106 個查詢,這些查詢來源于醫(yī)生在給病人看病的過程中所提交的查詢字符串,每一個查詢由兩部分組成:病人情況的簡單描述和所需信息的描述。一個OHSUMED 查詢由如下3 不同域組成:

    z .I 文章的OHSUMED 序列號,從1 106

    z .B 患者信息

    z .W 信息需求

    基于以上的文檔集合和查詢集合,OHSUMED 一共標注了16140 個查詢-文

    檔對,每一個查詢-文檔對都被標注成相關(definitely relevant)、部分相關(partially relevant)或者不相關(not relevant),最終的標注結果中一共包含了2557個相關、2932 個部分相關以及12498 個不相關的查詢-文檔對(一個文檔可能被標記成多個級別,在本節(jié)的實驗中,取其級別最高的標號作為其最終標號)。

    2.實驗特征選擇

     沒有辦法傳圖片郁悶拉。

    其中l(wèi)ow-level的10個特征取自標題+摘要(如有需要可以分別來計算),|C|是所有文檔的個數,c(qi,d)是qi在文檔d中出現(xiàn)的次數,df(qi)是qi的文檔頻率。BM25可以用lemur或者Lucene計算。highlevel的是5個特征。

    3. 實驗數據分割及評價標準

    本節(jié)的實驗索引了文檔中的標題域(.T)和摘要域(.W),標題+摘要被建立索引進行查詢,查詢中的查詢信息需求(.W)被直接用作查詢字符串,.I 被用于標識文檔或查詢,文檔和查詢的其他域都暫時都沒有被利用。

    將106個query分為5份,4份用于訓練,1份用于測試,剩下的1份用于檢驗(已整理好可以直接用于訓練)。在計算評價指標平均查準率的均值(MAP)時,由于其要求文檔被標注成兩個等級:相關和不相關,因此把標注為相關的文檔(definitely relevant)看成相關的文檔,其他兩個級別的文檔(部分相關(partially relevant)和不相關(not relevant))都看成不相關文檔;對于NDCG 的計算,我們把相關映射為數值3、部分相關為1、不相關映射為0。

    20 newsgroup
    1.特征選擇同OHSUMED。 2. 實驗數據分割及評價標準

    20 newsgroup包含20個類,每個類包含將近1000篇文章,我們在20newsgroup中隨機選取6個類,分別為comp.graphics, comp.os.ms-windows.misc, rec.motorcycles ,rec.sport.baseball,sci.space和 talk.politics.mideast,在每個類中選取前60篇document共組成360篇文檔,選擇前15個文檔作為query組成90個query,分為6份,5份做訓練,1份測試。關于查詢-文檔對的相關性我們有如下的判定方法:如果屬于同一個子類則標注為相關,映射為數值3,屬于一個同一個大類的標注為半相關,映射為數值1,其他的標注為不相關,映射為數值為0.評價標準同OHSUMED。

    ps:實驗數據格式見OHSUMED文件,其中第一個為label(相關性3,1或0),然后為query的id號qid,剩下的25個為特征向量,最后是對應的document id號docid。

    posted on 2012-03-15 14:46 憤怒的考拉 閱讀(978) 評論(0)  編輯  收藏

    只有注冊用戶登錄后才能發(fā)表評論。


    網站導航:
     
    <2025年5月>
    27282930123
    45678910
    11121314151617
    18192021222324
    25262728293031
    1234567

    常用鏈接

    留言簿

    隨筆檔案

    文章檔案

    搜索

    •  

    最新評論

    主站蜘蛛池模板: 亚洲国产精品一区二区久久| 亚洲国产黄在线观看| 亚洲日本一区二区三区| 鲁丝片一区二区三区免费| 亚洲欧洲成人精品香蕉网| 三上悠亚电影全集免费| 久久青青草原亚洲av无码| 久久久久免费视频| 亚洲AV日韩AV天堂一区二区三区| 国产精品免费大片一区二区| 亚洲一区无码中文字幕| 好久久免费视频高清| 久久亚洲高清观看| 2020因为爱你带字幕免费观看全集 | 国产精品免费久久久久影院 | 久久精品蜜芽亚洲国产AV| 久久狠狠躁免费观看| 久久精品国产亚洲av麻豆蜜芽| 免费无码AV片在线观看软件| 性色av极品无码专区亚洲| 亚洲国产精品尤物yw在线 | 波多野结衣在线免费观看| 亚洲精品国产综合久久久久紧| 国产精品视频免费一区二区三区 | 青青草免费在线视频| 国产精品亚洲专区在线播放| 国产亚洲人成网站在线观看| 16女性下面无遮挡免费| 亚洲精品无码aⅴ中文字幕蜜桃| 免费v片在线观看无遮挡| 七色永久性tv网站免费看| 亚洲国产精品线观看不卡| 日本大片在线看黄a∨免费| 国产一区二区三区免费观在线| 亚洲成人免费在线观看| 又爽又高潮的BB视频免费看| 人人玩人人添人人澡免费| 亚洲色少妇熟女11p| 亚洲色婷婷六月亚洲婷婷6月| 在线看片韩国免费人成视频| 美女免费视频一区二区|