簡述Java技術(shù)開源搜索引擎
Egothor Egothor是一個(gè)用Java編寫的開源而高效的全文本搜索引擎。借助Java的跨平臺(tái)特性,Egothor能應(yīng)用于任何環(huán)境的應(yīng)用,既可配置為單獨(dú)的搜索引擎,又能用于你的應(yīng)用作為全文檢索之用。
Nutch Nutch 是一個(gè)開源Java 實(shí)現(xiàn)的搜索引擎。它提供了我們運(yùn)行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。
Lucene
Apache Lucene是一個(gè)基于Java全文搜索引擎,利用它可以輕易地為Java軟件加入全文搜尋功能。Lucene的最主要工作是替文件的每一個(gè)字作索引,索引讓搜尋的效率比傳統(tǒng)的逐字比較大大提高,Lucen提供一組解讀,過濾,分析文件,編排和使用索引的API,它的強(qiáng)大之處除了高效和簡單外,是最重要的是使使用者可以隨時(shí)應(yīng)自已需要自訂其功能。
Oxyus
是一個(gè)純java寫的web搜索引擎。
BDDBot
BDDBot是一個(gè)簡單的易于理解和使用的搜索引擎。它目前在一個(gè)文本文件(urls.txt)列出的URL中爬行,將結(jié)果保存在一個(gè)數(shù)據(jù)庫中。它也支持一個(gè)簡單的Web服務(wù)器,這個(gè)服務(wù)器接受來自瀏覽器的查詢并返回響應(yīng)結(jié)果。它可以方便地集成到你的Web站點(diǎn)中。
Zilverline
Zilverline是一個(gè)搜索引擎,它通過web方式搜索本地硬盤或intranet上的內(nèi)容。Zilverline可以從PDF, Word, Excel, Powerpoint, RTF, txt, java, CHM,zip, rar等文檔中抓取它們的內(nèi)容來建立摘要和索引。從本地硬盤或intranet中查找到的結(jié)果可重新再進(jìn)行檢索。Zilverline支持多種語言其中包括中文。
XQEngine
XQEngine用于XML文檔的全文本搜索引擎。利用XQuery做為它的前端查詢語言。它能夠讓你查詢XML文檔集合通過使用關(guān)鍵字的邏輯組合。有點(diǎn)類似于Google與其它搜索引擎搜索HTML文檔一樣。XQEngine只是一個(gè)用Java開發(fā)的很緊湊的可嵌入的組件。
MG4J
MG4J可以讓你為大量的文檔集合構(gòu)建一個(gè)被壓縮的全文本索引,通過使內(nèi)插編碼(interpolative coding)技術(shù)。
JXTA Search
JXTA Search是一個(gè)分布式的搜索系統(tǒng)。設(shè)計(jì)用在點(diǎn)對(duì)點(diǎn)的網(wǎng)絡(luò)與網(wǎng)站上。
YaCy
YaCy基于p2p的分布式Web搜索引擎。同時(shí)也是一個(gè)Http緩存代理服務(wù)器。這個(gè)項(xiàng)目是構(gòu)建基于p2p Web索引網(wǎng)絡(luò)的一個(gè)新方法。它可以搜索你自己的或全局的索引,也可以Crawl自己的網(wǎng)頁或啟動(dòng)分布式Crawling等。
Red-Piranha
Red-Piranha是一個(gè)開源搜索系統(tǒng),它能夠真正“學(xué)習(xí)”你所要查找的是什么。Red-Piranha可作為你桌面系統(tǒng)(Windows,Linux與Mac)的個(gè)人搜索引擎,或企業(yè)內(nèi)部網(wǎng)搜索引擎,或?yàn)槟愕木W(wǎng)站提供搜索功能,或作為一個(gè)P2P搜索引擎,或與wiki結(jié)合作為一個(gè)知識(shí)/文檔管理解決方案,或搜索你要的RSS聚合信息,或搜索你公司的系統(tǒng)(包括SAP,Oracle或其它任何Database/Data source),或用于管理PDF,Word和其它文檔,或作為一個(gè)提供搜索信息的WebService或?yàn)槟愕膽?yīng)用程序(Web,Swing,SWT,F(xiàn)lash,Mozilla-XUL,PHP, Perl或c#/.Net)提供搜索后臺(tái)等等。
LIUS
LIUS是一個(gè)基于Jakarta Lucene項(xiàng)目的索引框架。LIUS為Lucene添加了對(duì)許多文件格式的進(jìn)行索引功能如:Ms Word,Ms Excel,Ms PowerPoint,RTF,PDF,XML,HTML,TXT,Open Office序列和JavaBeans.針對(duì)JavaBeans的索引特別有用當(dāng)我們要對(duì)數(shù)據(jù)庫進(jìn)行索引或剛好用戶使用持久層ORM技術(shù)如:Hibernate,JDO,Torque,TopLink進(jìn)行開發(fā)時(shí)。
Aperture
Aperture這個(gè)Java框架能夠從各種各樣的資料系統(tǒng)(如:文件系統(tǒng)、Web站點(diǎn)、IMAP和Outlook郵箱)或存在這些系統(tǒng)中的文件(如:文檔、圖片)爬取和搜索其中的全文本內(nèi)容與元數(shù)據(jù)。它當(dāng)前支持的文件格式如下:Plain text HTML, XHTML XML PDF (Portable Document Format) RTF (Rich Text Format) Microsoft Office: Word, Excel, Powerpoint, Visio, Publisher Microsoft Works OpenOffice 1.x: Writer, Calc, Impress, Draw StarOffice 6.x - 7.x+: Writer, Calc, Impress, Draw OpenDocument (OpenOffice 2.x, StarOffice 8.x) Corel WordPerfect, Quattro, Presentations Emails (。eml files)
Apache Solr
Solr是一個(gè)高性能,采用Java5開發(fā),基于Lucene的全文搜索服務(wù)器。文檔通過Http利用XML加到一個(gè)搜索集合中。查詢?cè)摷弦彩峭ㄟ^http收到一個(gè)XML/JSON響應(yīng)來實(shí)現(xiàn)。它的主要特性包括:高效、靈活的緩存功能,垂直搜索功能,高亮顯示搜索結(jié)果,通過索引復(fù)制來提高可用性,提供一套強(qiáng)大Data Schema來定義字段,類型和設(shè)置文本分析,提供基于Web的管理界面等。
Paoding
Paoding中文分詞是一個(gè)使用Java開發(fā)的,可結(jié)合到Lucene應(yīng)用中的,為互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)使用的中文搜索引擎分詞組件。Paoding填補(bǔ)了國內(nèi)中文分詞方面開源組件的空白,致力于此并希翼成為互聯(lián)網(wǎng)網(wǎng)站首選的中文分詞開源組件。 Paoding中文分詞追求分詞的高效率和用戶良好體驗(yàn)。
Carrot2
Carrot2是一個(gè)開源搜索結(jié)果分類引擎。它能夠自動(dòng)把搜索結(jié)果組織成一些專題分類。Carrot2提供的一個(gè)架構(gòu)能夠從各種搜索引擎(YahooAPI、GoogleAPI、MSN Search API、eTools Meta Search、Alexa Web Search、PubMed、OpenSearch、Lucene index、SOLR)獲取搜索結(jié)果。
考試大溫馨提示:本內(nèi)容來源于網(wǎng)絡(luò),僅代表作者個(gè)人觀點(diǎn),與本站立場(chǎng)無關(guān),僅供您學(xué)習(xí)交流使用。其中可能有部分文章經(jīng)過多次轉(zhuǎn)載而造成文章內(nèi)容缺失、錯(cuò)誤或文章作者不詳?shù)葐栴},請(qǐng)您諒解。如有侵犯您的權(quán)利,請(qǐng)聯(lián)系我們,本站會(huì)立即予以處理。