本文主要闡述了Web搜索引擎的基本原理、核心技術(shù)和處理流程。對(duì)于搜索引擎的內(nèi)部軟件組織和數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)存儲(chǔ)方法進(jìn)行了深入的研究和分析。同時(shí),對(duì)如何提高搜索引擎的精度和性能等,進(jìn)行了深入細(xì)致的研究,對(duì)其中的核心算法進(jìn)行了討論和評(píng)估。
本文還介紹了基于Java的全文索引引擎Lucene軟件包,并應(yīng)用該軟件包,搭建了華電Web網(wǎng)站站內(nèi)信息搜索系統(tǒng)。并利用搜索引擎頁(yè)面優(yōu)先度算
法改進(jìn)了其基礎(chǔ)排序算法,使得信息檢索系統(tǒng)的搜索性能得到進(jìn)一步的提高。
搜索引擎的軟件設(shè)計(jì)必須考慮到兩個(gè)重要因素的影響:海量的文檔存儲(chǔ)和及時(shí)的響應(yīng)速度。雖然CPU運(yùn)算速度和海量存儲(chǔ)設(shè)備的硬件存取速度在不斷的提高,但是硬盤(pán)搜索時(shí)間仍然至少需要 loms以上。因此,搜索引擎軟件設(shè)計(jì)的關(guān)鍵是盡量避免硬盤(pán)搜索,這也是搜索引擎數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)的關(guān)鍵所在,由于搜索引擎對(duì)海量文件的存儲(chǔ)要求,而操作系統(tǒng)對(duì)大型文件的支持局限性。
本文完整的文檔開(kāi)發(fā)資料,視頻資料下載地址: 點(diǎn)擊下載