<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    隨筆 - 17  文章 - 84  trackbacks - 0
    <2007年6月>
    272829303112
    3456789
    10111213141516
    17181920212223
    24252627282930
    1234567

    如非特別說明,所有文章均為原創(chuàng)。如需引用,請注明出處
    Email:liangtianyu@gmail.com
    MSN:terry.liangtianyu@hotmail.com

    常用鏈接

    留言簿(4)

    隨筆分類(12)

    隨筆檔案(17)

    最新隨筆

    搜索

    •  

    積分與排名

    • 積分 - 51837
    • 排名 - 960

    最新評論

    閱讀排行榜

    評論排行榜

    倒排文件(Inverted file)描述了一個詞項集合(TERMS)元素和一個文檔集合(DOCS)元素對應(yīng)關(guān)系的數(shù)據(jù)結(jié)構(gòu)。在倒排文件中,可以直接給出一個Term出現(xiàn)在哪些Document中,和在某個Document中出現(xiàn)的位置和頻率。在Lucene 2.1中InvertDoucment會對文檔進(jìn)行倒排處理。
    下面是信息檢索研究中常用的幾個相關(guān)量:
     

    N:文檔集合的大小

    M:詞項集合的大小

    Sj=|PLtj|:詞項tj所涉及文檔的個數(shù)

    DFtj=sj/N:詞項tj的文檔頻率

    IDFtj=-logDFtj):倒置文檔頻率;其值越小表示出現(xiàn)的頻率越高

    fi,j:第j個詞項tj在第i個文檔di中出現(xiàn)的次數(shù)

    TN= fi,j:系統(tǒng)所有文檔分解后包含詞項的總量(包括重復(fù),即一個多重集(multi-set))

    TFtj= fij/TN:詞項tj在文檔中出現(xiàn)的頻度(詞頻)

    ITFtj=logTFtj):倒置詞頻;越小表示出現(xiàn)的頻率越高

    倒排文件分為兩部分:第一部分是由不同詞項組成的索引,稱為詞表(Vocabulary),第二部分由每個詞項出現(xiàn)過的文檔集合構(gòu)成,稱為記錄文件(Posting File),每個詞項的對應(yīng)部分稱為倒排表(Posting Lists),可以通過詞表訪問。
    posted on 2007-06-11 08:14 Terry Liang 閱讀(2706) 評論(0)  編輯  收藏 所屬分類: Lucene 2.1研究
    主站蜘蛛池模板: 最近高清国语中文在线观看免费| 亚洲一区精彩视频| 国产99视频精品免费视频7| 亚洲一级毛片免费在线观看| 成av免费大片黄在线观看| 亚洲av无码一区二区三区四区 | 无码毛片一区二区三区视频免费播放 | 久久亚洲AV成人无码软件| 久久亚洲国产成人精品无码区| 日韩毛片无码永久免费看| 18国产精品白浆在线观看免费| 嫩草在线视频www免费观看| 91av免费在线视频| 一级做a爰片性色毛片免费网站| 亚洲码欧美码一区二区三区| 国产成人精品日本亚洲专区6| 久久亚洲精品人成综合网| 国产∨亚洲V天堂无码久久久| 精品国产亚洲男女在线线电影| 亚洲av中文无码| 免费国产真实迷j在线观看| 成人免费视频国产| 日本高清免费不卡在线| 女人与禽交视频免费看| 在线观看成人免费| 日韩免费无码一区二区视频| 日本免费一区二区三区最新vr| 在线观看视频免费国语| 国产精品色午夜视频免费看| 国产美女无遮挡免费视频| 日本无吗免费一二区| 国产又黄又爽又刺激的免费网址 | 亚洲人配人种jizz| 在线亚洲高清揄拍自拍一品区| 亚洲一区精彩视频| 亚洲成AV人影片在线观看| 美国毛片亚洲社区在线观看| 阿v视频免费在线观看| 国产精品成人免费观看| 精品国产污污免费网站| 午夜影院免费观看|