Posted on 2007-06-26 21:47
tanzek 閱讀(540)
評論(1) 編輯 收藏
開發(fā)自己的搜索引擎---Lucene 2.0 + Heritrix
【內(nèi)容簡介】
本書詳細介紹了如何應用Lucene進行搜索引擎開發(fā),通過學習本書,讀者可以完成構(gòu)建一個企業(yè)級的搜索引擎網(wǎng)站。.
全書共分為14章,內(nèi)容包括搜索引擎與信息檢索基礎(chǔ),Lucene入門實例,Lucene索引的建立,使用Lucene構(gòu)建搜索,Lucene的排序,Lucene的分析器,對Word、Excel和PDF格式文檔的解析,Compass搜索引擎框架,Lucene分布式和Google Search API,爬蟲Heritrix,綜合實例之準備篇,綜合實例之HTMLParser篇,綜合實例之DWR篇,綜合實例之Web編。..
本書是國內(nèi)第一本使用Lucene和Heritrix來講解搜索引擎構(gòu)建的書,通過詳細的對API和源代碼的分析,力求使讀者在應用的基礎(chǔ)上,能夠深入其核心,自行擴展和開發(fā)相應組件,發(fā)揮想象力,開發(fā)出更具有創(chuàng)意的搜索引擎產(chǎn)品。本書適合Java程序員和從事計算機軟件開發(fā)的其他編程人員閱讀,同時也可以作為搜索引擎愛好者的入門書籍。
由于目前市面上從技術(shù)層面介紹搜索引擎的書并不多,即使有,也大多停留在理論階段,而非搜索引擎的開發(fā)過程。因此,可以說本書是國內(nèi)第一本詳細介紹搜索引擎開發(fā)過程的圖書。
(1)采用最新的Lucene 2.0。以前大家用的1.4.3版本,而最新的Lucene 2.0重寫了很多API,內(nèi)部的實現(xiàn)方法也有了很大優(yōu)化。本書的代碼都是在2.0版本下調(diào)試通過的,這樣可以幫助讀者了解Lucene的更多新功能。
(2)配有一個完整的搜索引擎案例。這個案例有很強的實用價值,只需稍加修改,就能應用于實際項目,市場價值在30000元以上!
(3)著重解決開發(fā)人員頭痛的問題。本書的目的是指導項目實踐,因此沒有羅列各個API的用法,而是對常見的開發(fā)問題進行深入探討,比如本書的第7章,是專門為解決“Word,Excel和PDF文件如何解析”這個問題而設(shè)置的。
(4)內(nèi)容新穎,前衛(wèi)實用。本書介紹了Compass、Heritrix、DWR和HTMLParser等內(nèi)容。在搜索引擎開發(fā)的過程中,這些均為相當重要且實用的技術(shù),筆者經(jīng)過自身實踐將它們展現(xiàn)給讀者,希望能讓讀者在學習Lucene的同時開拓視野。
光盤特色:
配有一個完整的搜索引擎案例。這個案例有很強的實用價值,只需稍加修改,就能應用于實際項目,市場價值在30000元以上!...
[后注]:
???一直以來都對搜索引擎很有興趣的,最近在學習JAVA,看到了Lucene,所以就找了一下,覺得這本書應該還可以的。只是苦于一直沒有可靠的經(jīng)濟來源,所以再等一會,看能不能等到電子版哦。唉,這樣子偷偷摸摸地好苦啊!