說起搜索引擎或許大家都并不陌生。
google 百度大家都用過的。
但是你是否對(duì)其實(shí)現(xiàn)有個(gè)概念呢?
昨天開始自己慢慢弄lucene,對(duì)其也有一點(diǎn)的了解了。
至少不再是剛?cè)腴T什么也不懂的那種了。
一下是自己的理解:
搜索引擎實(shí)現(xiàn)功能應(yīng)該大體分為2部分。
一、建立索引。雖然自己現(xiàn)在做的很有限,只是在文本文件下或是內(nèi)存中建立的,而其信息的采集可以是自己的數(shù)據(jù)庫(kù)中的,這個(gè)大家可以結(jié)合自己的數(shù)據(jù)庫(kù)jdbc編程。完全可以實(shí)現(xiàn)的,還有一個(gè)就高深一點(diǎn)的。來自網(wǎng)絡(luò)中的網(wǎng)頁,Google baidu的信息采集都是用爬蟲工具的。它如何實(shí)現(xiàn)的自己還不是很知道,以后這個(gè)在研究。反正就是把采集到的信息進(jìn)行處理,使其在電腦中存在一個(gè)檢索。
二、通過檢索電腦檢索信息,而達(dá)到搜索的用法。這中檢索機(jī)制自己還沒有深入研究,畢竟只學(xué)習(xí)了2天。
ps:網(wǎng)絡(luò)爬蟲占用帶寬的,網(wǎng)上說Google爬蟲做的很好,似乎強(qiáng)大過百度的,Google的爬蟲不會(huì)再同一個(gè)IP中存在2個(gè)以上的爬蟲。