亚洲精品一二三区,亚洲最大无码中文字幕,亚洲精品国产综合久久一线

[導(dǎo)入]畢業(yè)設(shè)計6－－－web網(wǎng)頁自動分類(開題報告)3.27

網(wǎng)站：JavaEye 作者：fullfocus 發(fā)表時間: 2007-03-27 19:11 此文章來自于 http://www.JavaEye.com
聲明：本文系JavaEye網(wǎng)站原創(chuàng)文章，未經(jīng)JavaEye網(wǎng)站或者作者本人書面許可，任何其他網(wǎng)站嚴(yán)禁擅自發(fā)表本文，否則必將追究法律責(zé)任！
原文鏈接： http://fullfocus.javaeye.com/blog/65867

（本科）畢業(yè)設(shè)計（論文）的目標(biāo)：

目標(biāo)：

對Web搜索引擎返回的頁面進(jìn)行自動的分類。

要點：

1. Web搜索引擎返回的頁面是動態(tài)的，其文檔類別是未知的、不固定的。

2. 根據(jù)頁面內(nèi)容自身的差異，使用文檔聚類的方法對頁面進(jìn)行自動歸類。

3. 分類顯示搜索結(jié)果。

4. 滿足中文查詢需求。

5. 針對兩類文件：a. 純文本文件（無超鏈接，無格式）

                               b. 網(wǎng)頁（html,xml..）

   注：①暫不考慮各種顏色信息，以及各種格式對文本分析的影響

       ②暫不考慮doc, pdf等有格式文件

6. 系統(tǒng)能夠做到快速的反應(yīng)

7. 分類結(jié)果的顯示具備人性化，使用戶可以輕松的根據(jù)分類目錄標(biāo)題找到自己需要的信息。

子功能：

1.從搜索引擎獲得Web頁面

2.Web網(wǎng)頁文檔的預(yù)處理

3.文檔聚類算法

4.Web文檔聚類結(jié)果的可視化展現(xiàn)

實現(xiàn)方法：

本系統(tǒng)擬采用無監(jiān)督的自動聚類算法，并根據(jù)系統(tǒng)的整個運作流程，劃分為三個主要模塊：輸入模塊，過濾模塊，輸出模塊。下面針對各個模塊的實現(xiàn)方法進(jìn)行詳細(xì)的講解。

圖1-1 web網(wǎng)頁自動分類系統(tǒng)的基本框架

一．輸入模塊

自動分類系統(tǒng)首先需要從各大搜索引擎中獲得原始數(shù)據(jù)源。這里我們根據(jù)用戶輸入的關(guān)鍵詞，通過Google提供的搜索API獲得查詢結(jié)果的一個列表。這個便是我們最初的數(shù)據(jù)源。其中的每一條結(jié)果至少包含一個URL鏈接，一個標(biāo)題，以及一些關(guān)于此文檔的摘要。根據(jù)（Oren Zamir and Oren Etzioni，2001）的研究，源輸入數(shù)據(jù)為文檔摘要和整個文檔的對比過程中，采用文檔摘要的方法不僅大大提高處理速度，而且摘要提供的信息足以滿足聚類分析的要求。所以在本系統(tǒng)中，我們采用文檔摘要方法。

對中文內(nèi)容采用中科院研制的ICTCLAS進(jìn)行分詞，英文使用SNOWBALL進(jìn)行詞干化。分詞并消除噪聲后，建立VSM(向量空間模型)為下面各種工作的進(jìn)行打下基礎(chǔ)。然后，進(jìn)行特征提取以達(dá)到進(jìn)一步降維的目的。

二．過濾模塊

根據(jù)建立的VSM模型和實際的情況，我們采用STC(Suffix Tree Clustering，OrenZamir,OrenEtzioni)后綴樹算法對文檔進(jìn)行聚類。為了在最后的聚類結(jié)果中，分類目錄標(biāo)簽更有易知性，濃縮性，并更好的反映該分類的所有內(nèi)容，我們采用描述符優(yōu)先方法DCFC（Description comes first clustering），與傳統(tǒng)的聚類方式不同，DCFC先提取一個有意義的，多樣的分類標(biāo)簽(cluster labels)集合，然后把文檔聚類到合適的標(biāo)簽底下—這就完成了web文檔的聚類。

三．輸出模塊

聚類完成后，采用什么方式展現(xiàn)給用戶也是個十分重要的問題。主要要求是：易懂，便捷。我們采用分類目錄的結(jié)構(gòu)形式提交給用戶。搜索引擎返回的結(jié)果已經(jīng)按照相關(guān)度的高低進(jìn)行排序，所以考慮到速度，性能，效率因素，我們選取并返回一定量的搜索結(jié)果（比如默認(rèn)為100條）。在界面中，為了更好的增強用戶體驗，我們將會加入Ajax異步通訊功能，使界面更加友好。示例如下：

(查詢詞：“引擎”，括號內(nèi)的數(shù)字表示該類中包含的文檔個數(shù))

+網(wǎng)絡(luò)服務(wù)（6）

+汽車（10）

+計算機圖像（7）

+工業(yè)（2）

+軍事（9）

+經(jīng)濟時代（3）

+查看更多(…)

四．系統(tǒng)流程全圖

圖1-2 系統(tǒng)流程全圖

五．開發(fā)平臺和相關(guān)資源

1．開發(fā)工具：Eclipse + Struts + Tomcat

2．版本管理工具： CVS

3．測試工具： JUnit(單元測試) + JMeter（壓力測試）

4．基于平臺： Windows

5．相關(guān)資源：Google API包

時間進(jìn)度安排：

2007年2月26日-2007年3月31日學(xué)習(xí)各種相關(guān)知識。熟悉系統(tǒng)的開發(fā)平和相應(yīng)的開發(fā)工具。架構(gòu)好整個開發(fā)框架。

2007年4月 1日-2006年4月 7 日完成系統(tǒng)的數(shù)據(jù)獲取模塊

2007年4月 8日-2006年4月22日完成系統(tǒng)的過濾模塊。

2007年4月23日-2006年4月31日完成系統(tǒng)的輸出模塊。

2007年5月04日-2006年5月25日完成系統(tǒng)的集成測試和壓力測試。

2007年5月26日-2006年6月初     完成畢業(yè)論文并裝訂。

-----------------------------------------------抓魚社區(qū) www.zhuayu.net------------------------------------------------------------

《畢業(yè)設(shè)計6－－－web網(wǎng)頁自動分類(開題報告)3.27 》的評論也很精彩，歡迎您也添加評論。查看詳細(xì) >>

推薦相關(guān)文章：
Struts2 入門實例代碼
配置struts2.0.6+spring2.0.3+hibernane3備忘

JavaEye推薦
上海樂福狗信息技術(shù)有限公司:誠聘技術(shù)經(jīng)理和開發(fā)工程師
免費下載IBM社區(qū)版軟件--它基于開放的標(biāo)準(zhǔn)，支持廣泛的開發(fā)類型，讓您的開發(fā)高效自主！
京滬穗蓉四地免費注冊，SOA技術(shù)高手匯聚交鋒.
上海：優(yōu)秀公司德比：高薪誠聘資深Java工程師
廣州：優(yōu)易公司：誠聘Java工程師，開發(fā)經(jīng)理
上海：尤恩斯國際集團：誠聘開發(fā)工程師
北京：優(yōu)秀公司NHNChina招聘:WEB開發(fā),系統(tǒng)管理,JAVA開發(fā), DBA

文章來源: http://fullfocus.javaeye.com/blog/65867

posted on 2007-03-27 19:11 fullfocus 閱讀(499) 評論(0) 編輯收藏

常用鏈接

留言簿(2)

隨筆分類

隨筆檔案

文章檔案

他山之石

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理