<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    JAVA—咖啡館

    ——歡迎訪問rogerfan的博客,常來《JAVA——咖啡館》坐坐,喝杯濃香的咖啡,彼此探討一下JAVA技術(shù),交流工作經(jīng)驗,分享JAVA帶來的快樂!本網(wǎng)站部分轉(zhuǎn)載文章,如果有版權(quán)問題請與我聯(lián)系。

    BlogJava 首頁 新隨筆 聯(lián)系 聚合 管理
      447 Posts :: 145 Stories :: 368 Comments :: 0 Trackbacks

    1           什么是索引

    為了使用Lucene來索引數(shù)據(jù),首先你得把它轉(zhuǎn)換成一個純文本(plain-texttokens的數(shù)據(jù)流(stream),并通過它創(chuàng)建出Document對象,其包含的Fields成員容納這些文本數(shù)據(jù)。一旦你準(zhǔn)備好些Document對象,你就可以調(diào)用IndexWriter類的addDocument(Document)方法來傳遞這些對象到Lucene并寫入索引中。當(dāng)你做這些的時候,Lucene首先分析(analyzer)這些數(shù)據(jù)來使得它們更適合索引。詳見《Lucene In Action

    下面先了解一下索引結(jié)構(gòu)的一些術(shù)語。

    1.1       索引數(shù)據(jù)結(jié)構(gòu)介紹

    1.1.1    術(shù)語定義

    Lucene中基本的概念(fundamental concepts)是indexDocumentFieldterm

    ú            一條索引(index)包含(contains)了一連串(a sequence of)文檔(documents)。

    ú            一個文檔(document)是由一連串fields組成。

    ú            一個field是由一連串命名了(a named sequence of)的terms組成。

    ú            一個term是一個string(字符串)。

    相同的字符串(same string)但是在兩個不同的fields中被認(rèn)為(considered)是不同的term。因此(thusterm被描述為(represent as)一對字符串(a pair of strings),第一個string取名(naming)為該field的名字,第二個string取名為包含在該field中的文本(text within the field)。

    1.1.2    倒排索引(inverted indexing)

    索引(index)存儲terms的統(tǒng)計數(shù)據(jù)(statistics about terms),為了使得基于term的檢索(term-based search)效率更高(more efficient)。Lucene的索引分成(fall into)被廣為熟悉的(known as)索引種類(family of indexex)叫做倒排索引(inverted index)。這是因為它可以列舉(list),對一個term來說,所有包含它的文檔(documents that contain it)。這與自然關(guān)聯(lián)規(guī)則(natural relationship)是相反,即由documents列舉它所包含的terms

    1.1.3    Fields的種類

    Lucene中,fields可以被存儲(stored),在這種情況(in which case)下它們的文本被逐字地(literally)以一種非倒排的方式(in non-inverted manner)存儲進index中。那些被倒排的fieldsthat are inverted)稱為(called)被索引(indexed)。一個field可以都被存儲(stored)并且被索引(indexed)。

    一個field的文本可以被分解為(be tokenized intoterms以便被索引(indexed),或者field的文本可以被逐字地使用為(used literally as)一個term來被索引(be indexed)。大多數(shù)fields被分解(be tokenized),但是有時候?qū)δ撤N唯一性(certain identifier)的field來逐字地索引(be indexed literally)又是非常有用的,如url

    1.1.4    片斷(segments)

    Lucene的索引可以由多個復(fù)合的子索引(multiple sub-indexes)或者片斷(segments)組成(be composed of)。每一個segment都是一個完全獨立的索引(fully independent index),它能夠被分離地進行檢索(be searched seperately)。索引按如下方式進行演化(evolve):

    1.          為新添加的文檔(newly added documents)創(chuàng)建新的片斷(segments)。

    2.          合并已存在的片斷(merging existing segments)。

    檢索可以涉及(involve)多個復(fù)合(multiple)的segments,并且/或者多個復(fù)合(multiple)的indexes。每一個index潛在地(potentially)包含(composed of)一套(a set ofsegments

    1.1.5    文檔編號(document numbers)

    在內(nèi)部(internally),Lucene通過一個整數(shù)的(interger)文檔編號(document number)來表示文檔。第一篇被添加到索引中的文檔編號為0be numbered zero),每一篇隨后(subsequent)被添加的document獲得一個比前一篇更大的數(shù)字(a number one greater than the previous)。

    需要注意的是一篇文檔的編號(document’s number)可以更改,所以在Lucene之外(outside of)存儲這些編號時需要特別小心(caution should be taken)。詳細地說(in particular),編號在如下的情況(following situations)可以更改:

    ú            存儲在每個segment中的編號僅僅是在所在的segment中是唯一的(unique),在它能夠被使用在(be used in)一個更大的上下文(a larger context)中前必須被轉(zhuǎn)變(converted)。標(biāo)準(zhǔn)的技術(shù)(standard technique)是給每一個segment分配(allocate)一個范圍的值(a range of values),基于該segment所使用的編號的范圍(the range of numbers)。為了將一篇文檔的編號從一個segment轉(zhuǎn)變?yōu)橐粋€擴展的值(an external value),該片斷的基礎(chǔ)的文檔編號(base document number)被添加(is added)。為了將一個擴展的值(external value)轉(zhuǎn)變回一個segment的特定的值(specific value),該segment將該擴展的值所在的范圍標(biāo)識出來(be indentified),并且該segment的基礎(chǔ)值(base value)將被減少(substracted)。例如,兩個包含5篇文檔的segments可能會被合并(combined),所以第一個segment有一個基礎(chǔ)的值(base value)為0,第二個segment則為5。在第二個segment中的第3篇文檔(document three from the second segment)將有一個擴展的值為8

    ú            當(dāng)文檔被刪除的時候,在編號序列中(in the numbering)將產(chǎn)生(created)間隔段(gaps)。這些最后(eventually)在索引通過合并演進時(index evolves through merging)將會被清除(removed)。當(dāng)segments被合并后(merged),已刪除的文檔將會被丟棄(dropped),一個剛被合并的(freshly-mergedsegment因此在它的編號序列中(in its numbering)不再有間隔段(gaps)。

    1.1.6    索引結(jié)構(gòu)概述

    每一個片斷的索引(segment index)管理(maintains)如下的數(shù)據(jù):

    ú            Fields名稱:這包含了(contains)在索引中使用的一系列fields的名稱(the set of field names)。

    ú            已存儲的field的值:它包含了,對每篇文檔來說,一個屬性-值數(shù)據(jù)對(attribute-value pairs)的清單(a list of),其中屬性即為field的名字。這些被用來存儲關(guān)于文檔的備用信息(auxiliary information),比如它的標(biāo)題(title)、url、或者一個訪問一個數(shù)據(jù)庫(database)的唯一標(biāo)識(identifier)。這套存儲的fields就是那些在檢索時對每一個命中的(hits)文檔所返回的(returned)信息。這些是通過文檔編號(document number)來做為key得到的。

    ú            Term字典(dictionary):一個包含(contains)所有terms的字典,被使用在所有文檔中所有被索引的fields中。它還包含了該term所在的文檔的數(shù)目(the number of documents which contains the term),并且指向了(pointer toterm的頻率(frequency)和接近度(proximity)的數(shù)據(jù)(data)。

    ú            Term頻率數(shù)據(jù)(frequency data):對字典中的每一個term來說,所有包含該termcontains the term)的文檔的編號(numbers of all documents),以及該term出現(xiàn)在該文檔中的頻率(frequency)。

    ú            Term接近度數(shù)據(jù)(proximity data):對字典中的每一個term來說,該term出現(xiàn)在(occur)每一篇文檔中的位置(positions)。

    ú            調(diào)整因子(normalization factors):對每一篇文檔的每一個field來說,為一個存儲的值(a value is stored)用來加入到(multiply into)命中該field的分?jǐn)?shù)(score for hits on that field)中。

    ú            Term向量(vectors):對每一篇文檔的每一個field來說,term向量(有時候被稱做文檔向量)可以被存儲。一個term向量由term文本和term的頻率(frequency)組成(consists of)。怎么添加term向量到你的索引中請參考Field類的構(gòu)造方法(constructors)。

    ú            刪除的文檔(deleted documents):一個可選的(optional)文件標(biāo)示(indicating)哪一篇文檔被刪除。

    關(guān)于這些項的詳細信息在隨后的章節(jié)(subsequent sections)中逐一介紹。

    posted on 2010-06-21 09:58 rogerfan 閱讀(282) 評論(0)  編輯  收藏 所屬分類: 【開源技術(shù)】
    主站蜘蛛池模板: 人人公开免费超级碰碰碰视频| 好先生在线观看免费播放 | 97超高清在线观看免费视频| 亚洲日韩乱码中文字幕| 亚洲日本中文字幕区| 国产成人高清亚洲| 国产免费直播在线观看视频| 无码国产精品一区二区免费式直播 | 一级做α爱过程免费视频| 亚洲中文字幕无码mv| 亚洲视频在线观看不卡| 亚洲AV无码专区在线播放中文| 亚洲精品乱码久久久久久不卡| 成人毛片免费播放| 免费精品国产日韩热久久| 免费无码又爽又刺激高潮视频| 波霸在线精品视频免费观看| 亚洲日韩在线中文字幕综合| 亚洲国产区男人本色在线观看| 亚洲最大在线视频| 色拍自拍亚洲综合图区| 亚洲av中文无码乱人伦在线咪咕| 国产日产亚洲系列最新| ZZIJZZIJ亚洲日本少妇JIZJIZ| 四虎永久免费地址在线观看| 在线观看免费亚洲| 国产免费变态视频网址网站| 国产精品国产免费无码专区不卡| 天天摸天天操免费播放小视频| 成年男女男精品免费视频网站| 一区二区无码免费视频网站| 国产曰批免费视频播放免费s | 亚洲欧美中文日韩视频| 亚洲色一区二区三区四区| 亚洲色大18成人网站WWW在线播放| 中文字幕精品三区无码亚洲| 亚洲熟妇无码AV不卡在线播放 | 免费无码一区二区三区蜜桃大| 四虎影视www四虎免费| 成年女人毛片免费播放视频m| 成年轻人网站色免费看|