本文主要闡述了Web搜索引擎的基本原理、核心技術和處理流程。對于搜索引擎的內部軟件組織和數據結構、數據存儲方法進行了深入的研究和分析。同時,對如何提高搜索引擎的精度和性能等,進行了深入細致的研究,對其中的核心算法進行了討論和評估。
本文還介紹了基于Java的全文索引引擎Lucene軟件包,并應用該軟件包,搭建了華電Web網站站內信息搜索系統。并利用搜索引擎頁面優先度算
法改進了其基礎排序算法,使得信息檢索系統的搜索性能得到進一步的提高。
搜索引擎的軟件設計必須考慮到兩個重要因素的影響:海量的文檔存儲和及時的響應速度。雖然CPU運算速度和海量存儲設備的硬件存取速度在不斷的提高,但是硬盤搜索時間仍然至少需要 loms以上。因此,搜索引擎軟件設計的關鍵是盡量避免硬盤搜索,這也是搜索引擎數據結構設計的關鍵所在,由于搜索引擎對海量文件的存儲要求,而操作系統對大型文件的支持局限性。
本文完整的文檔開發資料,視頻資料下載地址: 點擊下載