想做一個搜索引擎,最近瀏覽了許多社區,發現Lucene和Nutch用的很多,而這兩個我總感覺難以區分概念,于是在查了些資料。下面是Lucene和Nutch創始人Doug Cutting 的訪談摘錄:
Lucene其實是一個提供全文文本搜索的函數庫,它不是一個應用軟件。它提供很多API函數讓你可以運用到各種實際應用程序中。現在,它已經成為Apache的一個項目并被廣泛應用著。這里列出一些已經使用Lucene的系統。
Nutch是一個建立在Lucene核心之上的Web搜索的實現,它是一個真正的應用程序。也就是說,你可以直接下載下來拿過來用。它在Lucene的基礎上加了網絡爬蟲和一些和Web相關的東東。其目的就是想從一個簡單的站內索引和搜索推廣到全球網絡的搜索上,就像Google和Yahoo一樣。當然,和那些巨人競爭,你得動一些腦筋,想一些辦法。我們已經測試過100M的網頁,并且它的設計用在超過1B的網頁上應該沒有問題。當然,讓它運行在一臺機器上,搜索一些服務器,也運行的很好。
總的來說,我認為LUCENE會應用在本地服務器的網站內部搜索,而Nutch則擴展到整個網絡、Internet的檢索。當然LUCENE加上爬蟲程序等就會成為Nutch,這樣理解應該沒錯吧
本文來自CSDN博客,轉載請標明出處:http://blog.csdn.net/rokii/archive/2008/03/01/2137450.aspx