想做一個搜索引擎,最近瀏覽了許多社區(qū),發(fā)現(xiàn)Lucene和Nutch用的很多,而這兩個我總感覺難以區(qū)分概念,于是在查了些資料。下面是Lucene和Nutch創(chuàng)始人Doug Cutting 的訪談?wù)洠?/p>
Lucene其實是一個提供全文文本搜索的函數(shù)庫,它不是一個應(yīng)用軟件。它提供很多API函數(shù)讓你可以運用到各種實際應(yīng)用程序中。現(xiàn)在,它已經(jīng)成為Apache的一個項目并被廣泛應(yīng)用著。這里列出一些已經(jīng)使用Lucene的系統(tǒng)。
Nutch是一個建立在Lucene核心之上的Web搜索的實現(xiàn),它是一個真正的應(yīng)用程序。也就是說,你可以直接下載下來拿過來用。它在Lucene的基礎(chǔ)上加了網(wǎng)絡(luò)爬蟲和一些和Web相關(guān)的東東。其目的就是想從一個簡單的站內(nèi)索引和搜索推廣到全球網(wǎng)絡(luò)的搜索上,就像Google和Yahoo一樣。當(dāng)然,和那些巨人競爭,你得動一些腦筋,想一些辦法。我們已經(jīng)測試過100M的網(wǎng)頁,并且它的設(shè)計用在超過1B的網(wǎng)頁上應(yīng)該沒有問題。當(dāng)然,讓它運行在一臺機器上,搜索一些服務(wù)器,也運行的很好。
總的來說,我認為LUCENE會應(yīng)用在本地服務(wù)器的網(wǎng)站內(nèi)部搜索,而Nutch則擴展到整個網(wǎng)絡(luò)、Internet的檢索。當(dāng)然LUCENE加上爬蟲程序等就會成為Nutch,這樣理解應(yīng)該沒錯吧
本文來自CSDN博客,轉(zhuǎn)載請標(biāo)明出處:http://blog.csdn.net/rokii/archive/2008/03/01/2137450.aspx