亚洲永久无码3D动漫一区,亚洲jizzjizz少妇,亚洲精品无码成人AAA片

[導入]畢業設計6－－－web網頁自動分類(開題報告)3.27

網站：JavaEye 作者：fullfocus 發表時間: 2007-03-27 19:11 此文章來自于 http://www.JavaEye.com
聲明：本文系JavaEye網站原創文章，未經JavaEye網站或者作者本人書面許可，任何其他網站嚴禁擅自發表本文，否則必將追究法律責任！
原文鏈接： http://fullfocus.javaeye.com/blog/65867

（本科）畢業設計（論文）的目標：

目標：

對Web搜索引擎返回的頁面進行自動的分類。

要點：

1. Web搜索引擎返回的頁面是動態的，其文檔類別是未知的、不固定的。

2. 根據頁面內容自身的差異，使用文檔聚類的方法對頁面進行自動歸類。

3. 分類顯示搜索結果。

4. 滿足中文查詢需求。

5. 針對兩類文件：a. 純文本文件（無超鏈接，無格式）

                               b. 網頁（html,xml..）

   注：①暫不考慮各種顏色信息，以及各種格式對文本分析的影響

       ②暫不考慮doc, pdf等有格式文件

6. 系統能夠做到快速的反應

7. 分類結果的顯示具備人性化，使用戶可以輕松的根據分類目錄標題找到自己需要的信息。

子功能：

1.從搜索引擎獲得Web頁面

2.Web網頁文檔的預處理

3.文檔聚類算法

4.Web文檔聚類結果的可視化展現

實現方法：

本系統擬采用無監督的自動聚類算法，并根據系統的整個運作流程，劃分為三個主要模塊：輸入模塊，過濾模塊，輸出模塊。下面針對各個模塊的實現方法進行詳細的講解。

圖1-1 web網頁自動分類系統的基本框架

一．輸入模塊

自動分類系統首先需要從各大搜索引擎中獲得原始數據源。這里我們根據用戶輸入的關鍵詞，通過Google提供的搜索API獲得查詢結果的一個列表。這個便是我們最初的數據源。其中的每一條結果至少包含一個URL鏈接，一個標題，以及一些關于此文檔的摘要。根據（Oren Zamir and Oren Etzioni，2001）的研究，源輸入數據為文檔摘要和整個文檔的對比過程中，采用文檔摘要的方法不僅大大提高處理速度，而且摘要提供的信息足以滿足聚類分析的要求。所以在本系統中，我們采用文檔摘要方法。

對中文內容采用中科院研制的ICTCLAS進行分詞，英文使用SNOWBALL進行詞干化。分詞并消除噪聲后，建立VSM(向量空間模型)為下面各種工作的進行打下基礎。然后，進行特征提取以達到進一步降維的目的。

二．過濾模塊

根據建立的VSM模型和實際的情況，我們采用STC(Suffix Tree Clustering，OrenZamir,OrenEtzioni)后綴樹算法對文檔進行聚類。為了在最后的聚類結果中，分類目錄標簽更有易知性，濃縮性，并更好的反映該分類的所有內容，我們采用描述符優先方法DCFC（Description comes first clustering），與傳統的聚類方式不同，DCFC先提取一個有意義的，多樣的分類標簽(cluster labels)集合，然后把文檔聚類到合適的標簽底下—這就完成了web文檔的聚類。

三．輸出模塊

聚類完成后，采用什么方式展現給用戶也是個十分重要的問題。主要要求是：易懂，便捷。我們采用分類目錄的結構形式提交給用戶。搜索引擎返回的結果已經按照相關度的高低進行排序，所以考慮到速度，性能，效率因素，我們選取并返回一定量的搜索結果（比如默認為100條）。在界面中，為了更好的增強用戶體驗，我們將會加入Ajax異步通訊功能，使界面更加友好。示例如下：

(查詢詞：“引擎”，括號內的數字表示該類中包含的文檔個數)

+網絡服務（6）

+汽車（10）

+計算機圖像（7）

+工業（2）

+軍事（9）

+經濟時代（3）

+查看更多(…)

四．系統流程全圖

圖1-2 系統流程全圖

五．開發平臺和相關資源

1．開發工具：Eclipse + Struts + Tomcat

2．版本管理工具： CVS

3．測試工具： JUnit(單元測試) + JMeter（壓力測試）

4．基于平臺： Windows

5．相關資源：Google API包

時間進度安排：

2007年2月26日-2007年3月31日學習各種相關知識。熟悉系統的開發平和相應的開發工具。架構好整個開發框架。

2007年4月 1日-2006年4月 7 日完成系統的數據獲取模塊

2007年4月 8日-2006年4月22日完成系統的過濾模塊。

2007年4月23日-2006年4月31日完成系統的輸出模塊。

2007年5月04日-2006年5月25日完成系統的集成測試和壓力測試。

2007年5月26日-2006年6月初     完成畢業論文并裝訂。

-----------------------------------------------抓魚社區 www.zhuayu.net------------------------------------------------------------

《畢業設計6－－－web網頁自動分類(開題報告)3.27 》的評論也很精彩，歡迎您也添加評論。查看詳細 >>

推薦相關文章：
Struts2 入門實例代碼
配置struts2.0.6+spring2.0.3+hibernane3備忘

JavaEye推薦
上海樂福狗信息技術有限公司:誠聘技術經理和開發工程師
免費下載IBM社區版軟件--它基于開放的標準，支持廣泛的開發類型，讓您的開發高效自主！
京滬穗蓉四地免費注冊，SOA技術高手匯聚交鋒.
上海：優秀公司德比：高薪誠聘資深Java工程師
廣州：優易公司：誠聘Java工程師，開發經理
上海：尤恩斯國際集團：誠聘開發工程師
北京：優秀公司NHNChina招聘:WEB開發,系統管理,JAVA開發, DBA

文章來源: http://fullfocus.javaeye.com/blog/65867

posted on 2007-03-27 19:11 fullfocus 閱讀(498) 評論(0) 編輯收藏

常用鏈接

留言簿(2)

隨筆分類

隨筆檔案

文章檔案

他山之石

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理