簡述Java技術開源搜索引擎

  Egothor Egothor是一個用Java編寫的開源而高效的全文本搜索引擎。借助Java的跨平臺特性,Egothor能應用于任何環境的應用,既可配置為單獨的搜索引擎,又能用于你的應用作為全文檢索之用。

  Nutch Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。

  Lucene

  Apache Lucene是一個基于Java全文搜索引擎,利用它可以輕易地為Java軟件加入全文搜尋功能。Lucene的最主要工作是替文件的每一個字作索引,索引讓搜尋的效率比傳統的逐字比較大大提高,Lucen提供一組解讀,過濾,分析文件,編排和使用索引的API,它的強大之處除了高效和簡單外,是最重要的是使使用者可以隨時應自已需要自訂其功能。

  Oxyus

  是一個純java寫的web搜索引擎。

  BDDBot

  BDDBot是一個簡單的易于理解和使用的搜索引擎。它目前在一個文本文件(urls.txt)列出的URL中爬行,將結果保存在一個數據庫中。它也支持一個簡單的Web服務器,這個服務器接受來自瀏覽器的查詢并返回響應結果。它可以方便地集成到你的Web站點中。

  Zilverline

  Zilverline是一個搜索引擎,它通過web方式搜索本地硬盤或intranet上的內容。Zilverline可以從PDF, Word, Excel, Powerpoint, RTF, txt, java, CHM,zip, rar等文檔中抓取它們的內容來建立摘要和索引。從本地硬盤或intranet中查找到的結果可重新再進行檢索。Zilverline支持多種語言其中包括中文。

  XQEngine

  XQEngine用于XML文檔的全文本搜索引擎。利用XQuery做為它的前端查詢語言。它能夠讓你查詢XML文檔集合通過使用關鍵字的邏輯組合。有點類似于Google與其它搜索引擎搜索HTML文檔一樣。XQEngine只是一個用Java開發的很緊湊的可嵌入的組件。

  MG4J

  MG4J可以讓你為大量的文檔集合構建一個被壓縮的全文本索引,通過使內插編碼(interpolative coding)技術。

  JXTA Search

  JXTA Search是一個分布式的搜索系統。設計用在點對點的網絡與網站上。

  YaCy

  YaCy基于p2p的分布式Web搜索引擎。同時也是一個Http緩存代理服務器。這個項目是構建基于p2p Web索引網絡的一個新方法。它可以搜索你自己的或全局的索引,也可以Crawl自己的網頁或啟動分布式Crawling等。

  Red-Piranha

  Red-Piranha是一個開源搜索系統,它能夠真正“學習”你所要查找的是什么。Red-Piranha可作為你桌面系統(Windows,Linux與Mac)的個人搜索引擎,或企業內部網搜索引擎,或為你的網站提供搜索功能,或作為一個P2P搜索引擎,或與wiki結合作為一個知識/文檔管理解決方案,或搜索你要的RSS聚合信息,或搜索你公司的系統(包括SAP,Oracle或其它任何Database/Data source),或用于管理PDF,Word和其它文檔,或作為一個提供搜索信息的WebService或為你的應用程序(Web,Swing,SWT,Flash,Mozilla-XUL,PHP, Perl或c#/.Net)提供搜索后臺等等。

  LIUS

  LIUS是一個基于Jakarta Lucene項目的索引框架。LIUS為Lucene添加了對許多文件格式的進行索引功能如:Ms Word,Ms Excel,Ms PowerPoint,RTF,PDF,XML,HTML,TXT,Open Office序列和JavaBeans.針對JavaBeans的索引特別有用當我們要對數據庫進行索引或剛好用戶使用持久層ORM技術如:Hibernate,JDO,Torque,TopLink進行開發時。

  Aperture

  Aperture這個Java框架能夠從各種各樣的資料系統(如:文件系統、Web站點、IMAP和Outlook郵箱)或存在這些系統中的文件(如:文檔、圖片)爬取和搜索其中的全文本內容與元數據。它當前支持的文件格式如下:Plain text HTML, XHTML XML PDF (Portable Document Format) RTF (Rich Text Format) Microsoft Office: Word, Excel, Powerpoint, Visio, Publisher Microsoft Works OpenOffice 1.x: Writer, Calc, Impress, Draw StarOffice 6.x - 7.x+: Writer, Calc, Impress, Draw OpenDocument (OpenOffice 2.x, StarOffice 8.x) Corel WordPerfect, Quattro, Presentations Emails (。eml files)

  Apache Solr

  Solr是一個高性能,采用Java5開發,基于Lucene的全文搜索服務器。文檔通過Http利用XML加到一個搜索集合中。查詢該集合也是通過http收到一個XML/JSON響應來實現。它的主要特性包括:高效、靈活的緩存功能,垂直搜索功能,高亮顯示搜索結果,通過索引復制來提高可用性,提供一套強大Data Schema來定義字段,類型和設置文本分析,提供基于Web的管理界面等。

  Paoding

  Paoding中文分詞是一個使用Java開發的,可結合到Lucene應用中的,為互聯網、企業內部網使用的中文搜索引擎分詞組件。Paoding填補了國內中文分詞方面開源組件的空白,致力于此并希翼成為互聯網網站首選的中文分詞開源組件。 Paoding中文分詞追求分詞的高效率和用戶良好體驗。

  Carrot2

  Carrot2是一個開源搜索結果分類引擎。它能夠自動把搜索結果組織成一些專題分類。Carrot2提供的一個架構能夠從各種搜索引擎(YahooAPI、GoogleAPI、MSN Search API、eTools Meta Search、Alexa Web Search、PubMed、OpenSearch、Lucene index、SOLR)獲取搜索結果。

  考試大溫馨提示:本內容來源于網絡,僅代表作者個人觀點,與本站立場無關,僅供您學習交流使用。其中可能有部分文章經過多次轉載而造成文章內容缺失、錯誤或文章作者不詳等問題,請您諒解。如有侵犯您的權利,請聯系我們,本站會立即予以處理。