<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    隨筆 - 17  文章 - 84  trackbacks - 0
    <2007年6月>
    272829303112
    3456789
    10111213141516
    17181920212223
    24252627282930
    1234567

    如非特別說明,所有文章均為原創。如需引用,請注明出處
    Email:liangtianyu@gmail.com
    MSN:terry.liangtianyu@hotmail.com

    常用鏈接

    留言簿(4)

    隨筆分類(12)

    隨筆檔案(17)

    最新隨筆

    搜索

    •  

    積分與排名

    • 積分 - 51838
    • 排名 - 961

    最新評論

    閱讀排行榜

    評論排行榜

    倒排文件(Inverted file)描述了一個詞項集合(TERMS)元素和一個文檔集合(DOCS)元素對應關系的數據結構。在倒排文件中,可以直接給出一個Term出現在哪些Document中,和在某個Document中出現的位置和頻率。在Lucene 2.1中InvertDoucment會對文檔進行倒排處理。
    下面是信息檢索研究中常用的幾個相關量:
     

    N:文檔集合的大小

    M:詞項集合的大小

    Sj=|PLtj|:詞項tj所涉及文檔的個數

    DFtj=sj/N:詞項tj的文檔頻率

    IDFtj=-logDFtj):倒置文檔頻率;其值越小表示出現的頻率越高

    fi,j:第j個詞項tj在第i個文檔di中出現的次數

    TN= fi,j:系統所有文檔分解后包含詞項的總量(包括重復,即一個多重集(multi-set))

    TFtj= fij/TN:詞項tj在文檔中出現的頻度(詞頻)

    ITFtj=logTFtj):倒置詞頻;越小表示出現的頻率越高

    倒排文件分為兩部分:第一部分是由不同詞項組成的索引,稱為詞表(Vocabulary),第二部分由每個詞項出現過的文檔集合構成,稱為記錄文件(Posting File),每個詞項的對應部分稱為倒排表(Posting Lists),可以通過詞表訪問。
    posted on 2007-06-11 08:14 Terry Liang 閱讀(2706) 評論(0)  編輯  收藏 所屬分類: Lucene 2.1研究
    主站蜘蛛池模板: 国产一区二区三区在线免费| 成人在线免费观看| 亚洲中文字幕无码爆乳av中文| 亚洲欧美日韩综合俺去了| 日韩av无码成人无码免费| 亚洲AV综合色区无码二区偷拍| 成人福利免费视频| 亚洲午夜国产精品无卡| 亚洲精品免费在线| 亚洲一区二区三区国产精品无码| 每天更新的免费av片在线观看 | 国产精品亚洲w码日韩中文| 国产成人亚洲精品蜜芽影院| 国产成人免费a在线视频色戒| 亚洲AV一区二区三区四区| 国产成人青青热久免费精品| 狼色精品人妻在线视频免费| 亚洲av再在线观看| 免费看黄的成人APP| 亚洲一区二区成人| AA免费观看的1000部电影| 99亚偷拍自图区亚洲| 国产乱色精品成人免费视频| 一级毛片在播放免费| 亚洲av伊人久久综合密臀性色 | jizz18免费视频| 亚洲AV无码精品色午夜在线观看| 精品一区二区三区无码免费视频| ASS亚洲熟妇毛茸茸PICS| 永久免费AV无码网站在线观看| 特级aa**毛片免费观看| 亚洲成a人片77777kkkk| av无码久久久久不卡免费网站| 亚洲国产AV一区二区三区四区| 亚洲精品色婷婷在线影院| 未满十八18禁止免费无码网站| 亚洲avav天堂av在线网爱情| 亚洲真人日本在线| 免费H网站在线观看的| 男人扒开添女人下部免费视频| 亚洲欧洲一区二区|