實現方法:
本系統擬采用無監督的自動聚類算法,并根據系統的整個運作流程,劃分為三個主要模塊:輸入模塊,過濾模塊,輸出模塊。下面針對各個模塊的實現方法進行詳細的講解。
圖1-1 web網頁自動分類系統的基本框架
一.輸入模塊
自動分類系統首先需要從各大搜索引擎中獲得原始數據源。這里我們根據用戶輸入的關鍵詞,通過Google提供的搜索API獲得查詢結果的一個列表。這個便是我們最初的數據源。其中的每一條結果至少包含一個URL鏈接,一個標題,以及一些關于此文檔的摘要。根據(Oren Zamir and Oren Etzioni,2001)的研究,源輸入數據為文檔摘要和整個文檔的對比過程中,采用文檔摘要的方法不僅大大提高處理速度,而且摘要提供的信息足以滿足聚類分析的要求。所以在本系統中,我們采用文檔摘要方法。
對中文內容采用中科院研制的ICTCLAS進行分詞,英文使用SNOWBALL進行詞干化。分詞并消除噪聲后,建立VSM(向量空間模型)為下面各種工作的進行打下基礎。然后,進行特征提取以達到進一步降維的目的。
二.過濾模塊
根據建立的VSM模型和實際的情況,我們采用STC(Suffix Tree Clustering,OrenZamir,OrenEtzioni)后綴樹算法對文檔進行聚類。為了在最后的聚類結果中,分類目錄標簽更有易知性,濃縮性,并更好的反映該分類的所有內容,我們采用描述符優先方法DCFC(Description comes first clustering),與傳統的聚類方式不同,DCFC先提取一個有意義的,多樣的分類標簽(cluster labels)集合,然后把文檔聚類到合適的標簽底下—這就完成了web文檔的聚類。
三.輸出模塊
聚類完成后,采用什么方式展現給用戶也是個十分重要的問題。主要要求是:易懂,便捷。我們采用分類目錄的結構形式提交給用戶。搜索引擎返回的結果已經按照相關度的高低進行排序,所以考慮到速度,性能,效率因素,我們選取并返回一定量的搜索結果(比如默認為100條)。在界面中,為了更好的增強用戶體驗,我們將會加入Ajax異步通訊功能,使界面更加友好。示例如下:
(查詢詞:“引擎”, 括號內的數字表示該類中包含的文檔個數)
+網絡服務(6)
+汽車(10)
+計算機圖像(7)
+工業(2)
+軍事(9)
+經濟時代(3)
+查看更多(…)
四.系統流程全圖
圖1-2 系統流程全圖
五.開發平臺和相關資源
1.開發工具:Eclipse + Struts + Tomcat
2.版本管理工具: CVS
3.測試工具: JUnit(單元測試) + JMeter(壓力測試)
4.基于平臺: Windows
5.相關資源:Google API包
|