實現(xiàn)方法:
本系統(tǒng)擬采用無監(jiān)督的自動聚類算法,并根據(jù)系統(tǒng)的整個運作流程,劃分為三個主要模塊:輸入模塊,過濾模塊,輸出模塊。下面針對各個模塊的實現(xiàn)方法進(jìn)行詳細(xì)的講解。
圖1-1 web網(wǎng)頁自動分類系統(tǒng)的基本框架
一.輸入模塊
自動分類系統(tǒng)首先需要從各大搜索引擎中獲得原始數(shù)據(jù)源。這里我們根據(jù)用戶輸入的關(guān)鍵詞,通過Google提供的搜索API獲得查詢結(jié)果的一個列表。這個便是我們最初的數(shù)據(jù)源。其中的每一條結(jié)果至少包含一個URL鏈接,一個標(biāo)題,以及一些關(guān)于此文檔的摘要。根據(jù)(Oren Zamir and Oren Etzioni,2001)的研究,源輸入數(shù)據(jù)為文檔摘要和整個文檔的對比過程中,采用文檔摘要的方法不僅大大提高處理速度,而且摘要提供的信息足以滿足聚類分析的要求。所以在本系統(tǒng)中,我們采用文檔摘要方法。
對中文內(nèi)容采用中科院研制的ICTCLAS進(jìn)行分詞,英文使用SNOWBALL進(jìn)行詞干化。分詞并消除噪聲后,建立VSM(向量空間模型)為下面各種工作的進(jìn)行打下基礎(chǔ)。然后,進(jìn)行特征提取以達(dá)到進(jìn)一步降維的目的。
二.過濾模塊
根據(jù)建立的VSM模型和實際的情況,我們采用STC(Suffix Tree Clustering,OrenZamir,OrenEtzioni)后綴樹算法對文檔進(jìn)行聚類。為了在最后的聚類結(jié)果中,分類目錄標(biāo)簽更有易知性,濃縮性,并更好的反映該分類的所有內(nèi)容,我們采用描述符優(yōu)先方法DCFC(Description comes first clustering),與傳統(tǒng)的聚類方式不同,DCFC先提取一個有意義的,多樣的分類標(biāo)簽(cluster labels)集合,然后把文檔聚類到合適的標(biāo)簽底下—這就完成了web文檔的聚類。
三.輸出模塊
聚類完成后,采用什么方式展現(xiàn)給用戶也是個十分重要的問題。主要要求是:易懂,便捷。我們采用分類目錄的結(jié)構(gòu)形式提交給用戶。搜索引擎返回的結(jié)果已經(jīng)按照相關(guān)度的高低進(jìn)行排序,所以考慮到速度,性能,效率因素,我們選取并返回一定量的搜索結(jié)果(比如默認(rèn)為100條)。在界面中,為了更好的增強用戶體驗,我們將會加入Ajax異步通訊功能,使界面更加友好。示例如下:
(查詢詞:“引擎”, 括號內(nèi)的數(shù)字表示該類中包含的文檔個數(shù))
+網(wǎng)絡(luò)服務(wù)(6)
+汽車(10)
+計算機圖像(7)
+工業(yè)(2)
+軍事(9)
+經(jīng)濟時代(3)
+查看更多(…)
四.系統(tǒng)流程全圖
圖1-2 系統(tǒng)流程全圖
五.開發(fā)平臺和相關(guān)資源
1.開發(fā)工具:Eclipse + Struts + Tomcat
2.版本管理工具: CVS
3.測試工具: JUnit(單元測試) + JMeter(壓力測試)
4.基于平臺: Windows
5.相關(guān)資源:Google API包
|