1 什么是索引

為了使用Lucene來索引數據，首先你得把它轉換成一個純文本（plain-text）tokens的數據流（stream），并通過它創建出Document對象，其包含的Fields成員容納這些文本數據。一旦你準備好些Document對象，你就可以調用IndexWriter類的addDocument(Document)方法來傳遞這些對象到Lucene并寫入索引中。當你做這些的時候，Lucene首先分析（analyzer）這些數據來使得它們更適合索引。詳見《Lucene In Action》

下面先了解一下索引結構的一些術語。

1.1 索引數據結構介紹

1.1.1 術語定義

Lucene中基本的概念（fundamental concepts）是index、Document、Field和term。

ú 一條索引（index）包含（contains）了一連串（a sequence of）文檔（documents）。

ú 一個文檔（document）是由一連串fields組成。

ú 一個field是由一連串命名了（a named sequence of）的terms組成。

ú 一個term是一個string（字符串）。

相同的字符串（same string）但是在兩個不同的fields中被認為（considered）是不同的term。因此（thus）term被描述為（represent as）一對字符串（a pair of strings），第一個string取名（naming）為該field的名字，第二個string取名為包含在該field中的文本（text within the field）。

1.1.2 倒排索引（inverted indexing）

索引（index）存儲terms的統計數據（statistics about terms），為了使得基于term的檢索（term-based search）效率更高（more efficient）。Lucene的索引分成（fall into）被廣為熟悉的（known as）索引種類（family of indexex）叫做倒排索引（inverted index）。這是因為它可以列舉（list），對一個term來說，所有包含它的文檔（documents that contain it）。這與自然關聯規則（natural relationship）是相反，即由documents列舉它所包含的terms。

1.1.3 Fields的種類

在Lucene中，fields可以被存儲（stored），在這種情況（in which case）下它們的文本被逐字地（literally）以一種非倒排的方式（in non-inverted manner）存儲進index中。那些被倒排的fields（that are inverted）稱為（called）被索引（indexed）。一個field可以都被存儲（stored）并且被索引（indexed）。

一個field的文本可以被分解為（be tokenized into）terms以便被索引（indexed），或者field的文本可以被逐字地使用為（used literally as）一個term來被索引（be indexed）。大多數fields被分解（be tokenized），但是有時候對某種唯一性（certain identifier）的field來逐字地索引（be indexed literally）又是非常有用的，如url。

1.1.4 片斷（segments）

Lucene的索引可以由多個復合的子索引（multiple sub-indexes）或者片斷（segments）組成（be composed of）。每一個segment都是一個完全獨立的索引（fully independent index），它能夠被分離地進行檢索（be searched seperately）。索引按如下方式進行演化（evolve）：

1. 為新添加的文檔（newly added documents）創建新的片斷（segments）。

2. 合并已存在的片斷（merging existing segments）。

檢索可以涉及（involve）多個復合（multiple）的segments，并且/或者多個復合（multiple）的indexes。每一個index潛在地（potentially）包含（composed of）一套（a set of）segments。

1.1.5 文檔編號（document numbers）

在內部（internally），Lucene通過一個整數的（interger）文檔編號（document number）來表示文檔。第一篇被添加到索引中的文檔編號為0（be numbered zero），每一篇隨后（subsequent）被添加的document獲得一個比前一篇更大的數字（a number one greater than the previous）。

需要注意的是一篇文檔的編號（document’s number）可以更改，所以在Lucene之外（outside of）存儲這些編號時需要特別小心（caution should be taken）。詳細地說（in particular），編號在如下的情況（following situations）可以更改：

ú 存儲在每個segment中的編號僅僅是在所在的segment中是唯一的（unique），在它能夠被使用在（be used in）一個更大的上下文（a larger context）中前必須被轉變（converted）。標準的技術（standard technique）是給每一個segment分配（allocate）一個范圍的值（a range of values），基于該segment所使用的編號的范圍（the range of numbers）。為了將一篇文檔的編號從一個segment轉變為一個擴展的值（an external value），該片斷的基礎的文檔編號（base document number）被添加（is added）。為了將一個擴展的值（external value）轉變回一個segment的特定的值（specific value），該segment將該擴展的值所在的范圍標識出來（be indentified），并且該segment的基礎值（base value）將被減少（substracted）。例如，兩個包含5篇文檔的segments可能會被合并（combined），所以第一個segment有一個基礎的值（base value）為0，第二個segment則為5。在第二個segment中的第3篇文檔（document three from the second segment）將有一個擴展的值為8。

ú 當文檔被刪除的時候，在編號序列中（in the numbering）將產生（created）間隔段（gaps）。這些最后（eventually）在索引通過合并演進時（index evolves through merging）將會被清除（removed）。當segments被合并后（merged），已刪除的文檔將會被丟棄（dropped），一個剛被合并的（freshly-merged）segment因此在它的編號序列中（in its numbering）不再有間隔段（gaps）。

1.1.6 索引結構概述

每一個片斷的索引（segment index）管理（maintains）如下的數據：

ú Fields名稱：這包含了（contains）在索引中使用的一系列fields的名稱（the set of field names）。

ú 已存儲的field的值：它包含了，對每篇文檔來說，一個屬性-值數據對（attribute-value pairs）的清單（a list of），其中屬性即為field的名字。這些被用來存儲關于文檔的備用信息（auxiliary information），比如它的標題（title）、url、或者一個訪問一個數據庫（database）的唯一標識（identifier）。這套存儲的fields就是那些在檢索時對每一個命中的（hits）文檔所返回的（returned）信息。這些是通過文檔編號（document number）來做為key得到的。

ú Term字典（dictionary）：一個包含（contains）所有terms的字典，被使用在所有文檔中所有被索引的fields中。它還包含了該term所在的文檔的數目（the number of documents which contains the term），并且指向了（pointer to）term的頻率（frequency）和接近度（proximity）的數據（data）。

ú Term頻率數據（frequency data）：對字典中的每一個term來說，所有包含該term（contains the term）的文檔的編號（numbers of all documents），以及該term出現在該文檔中的頻率（frequency）。

ú Term接近度數據（proximity data）：對字典中的每一個term來說，該term出現在（occur）每一篇文檔中的位置（positions）。

ú 調整因子（normalization factors）：對每一篇文檔的每一個field來說，為一個存儲的值（a value is stored）用來加入到（multiply into）命中該field的分數（score for hits on that field）中。

ú Term向量（vectors）：對每一篇文檔的每一個field來說，term向量（有時候被稱做文檔向量）可以被存儲。一個term向量由term文本和term的頻率（frequency）組成（consists of）。怎么添加term向量到你的索引中請參考Field類的構造方法（constructors）。

ú 刪除的文檔（deleted documents）：一個可選的（optional）文件標示（indicating）哪一篇文檔被刪除。

關于這些項的詳細信息在隨后的章節（subsequent sections）中逐一介紹。

posted on 2010-06-21 09:58 rogerfan 閱讀(282) 評論(0) 編輯收藏所屬分類: 【開源技術】

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: 【轉】微信公眾號開發之微信模板消息【轉】微信公眾平臺開發之模板消息(Java) 【轉】Memcached-1.4.4-14 For Win32 or Win64 安裝【轉】windows+nginx+memcached+tomcat做負載均衡【轉】windows任務定時重啟tomcat 【轉】CDN緩存那些事【轉】CAS實現SSO單點登錄原理【轉】CAS框架配置詳解【轉】nginx1.8.1(穩定版本) nginx.conf 配置文件詳解二【轉】nginx1.8.1(穩定版本) ngixn.conf 配置文件詳解一

JAVA—咖啡館

公告

常用鏈接

留言簿(17)

隨筆分類(542)

隨筆檔案(438)

文章分類(182)

文章檔案(142)

新聞分類

※→ 【JAVA文檔】

※→ 【親人博客】

※→ 【休閑娛樂】

※→ 【友情鏈接】

※→ 【學習網站】

※→ 【服務網站】

※→ 【著名網站】

※→ 【阿里博客】

最新隨筆

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜