<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    隨筆-28  評論-51  文章-10  trackbacks-0

    網站:JavaEye 作者:fullfocus 發表時間: 2007-03-27 19:11 此文章來自于 http://www.JavaEye.com
    聲明:本文系JavaEye網站原創文章,未經JavaEye網站或者作者本人書面許可,任何其他網站嚴禁擅自發表本文,否則必將追究法律責任!
    原文鏈接: http://fullfocus.javaeye.com/blog/65867

















    (本科)畢業設計(論文)的目標:

     

    目標:

    Web搜索引擎返回的頁面進行自動的分類。

    要點:

    1. Web搜索引擎返回的頁面是動態的,其文檔類別是未知的、不固定的。

    2. 根據頁面內容自身的差異,使用文檔聚類的方法對頁面進行自動歸類。

    3. 分類顯示搜索結果。

    4. 滿足中文查詢需求。

    5. 針對兩類文件:a. 純文本文件(無超鏈接,無格式)

                                    b. 網頁(html,xml..

       注:暫不考慮各種顏色信息,以及各種格式對文本分析的影響

           暫不考慮doc, pdf等有格式文件

    6. 系統能夠做到快速的反應

    7. 分類結果的顯示具備人性化,使用戶可以輕松的根據分類目錄標題找到自己需要的信息。

    子功能:

    1.從搜索引擎獲得Web頁面

    2.Web網頁文檔的預處理

    3.文檔聚類算法

    4.Web文檔聚類結果的可視化展現

     

     

     

     

     

     

     

     

     

     

     

     

     

     


    實現方法:

    本系統擬采用無監督的自動聚類算法,并根據系統的整個運作流程,劃分為三個主要模塊:輸入模塊,過濾模塊,輸出模塊。下面針對各個模塊的實現方法進行詳細的講解。


    圖1-1 web網頁自動分類系統的基本框架

    一.輸入模塊

    自動分類系統首先需要從各大搜索引擎中獲得原始數據源。這里我們根據用戶輸入的關鍵詞,通過Google提供的搜索API獲得查詢結果的一個列表。這個便是我們最初的數據源。其中的每一條結果至少包含一個URL鏈接,一個標題,以及一些關于此文檔的摘要。根據(Oren Zamir and Oren Etzioni,2001)的研究,源輸入數據為文檔摘要和整個文檔的對比過程中,采用文檔摘要的方法不僅大大提高處理速度,而且摘要提供的信息足以滿足聚類分析的要求。所以在本系統中,我們采用文檔摘要方法。

    對中文內容采用中科院研制的ICTCLAS進行分詞,英文使用SNOWBALL進行詞干化。分詞并消除噪聲后,建立VSM(向量空間模型)為下面各種工作的進行打下基礎。然后,進行特征提取以達到進一步降維的目的。

     

    二.過濾模塊

    根據建立的VSM模型和實際的情況,我們采用STC(Suffix Tree Clustering,OrenZamir,OrenEtzioni)后綴樹算法對文檔進行聚類。為了在最后的聚類結果中,分類目錄標簽更有易知性,濃縮性,并更好的反映該分類的所有內容,我們采用描述符優先方法DCFC(Description comes first clustering),與傳統的聚類方式不同,DCFC先提取一個有意義的,多樣的分類標簽(cluster labels)集合,然后把文檔聚類到合適的標簽底下—這就完成了web文檔的聚類。

     

    三.輸出模塊

    聚類完成后,采用什么方式展現給用戶也是個十分重要的問題。主要要求是:易懂,便捷。我們采用分類目錄的結構形式提交給用戶。搜索引擎返回的結果已經按照相關度的高低進行排序,所以考慮到速度,性能,效率因素,我們選取并返回一定量的搜索結果(比如默認為100條)。在界面中,為了更好的增強用戶體驗,我們將會加入Ajax異步通訊功能,使界面更加友好。示例如下:

    (查詢詞:“引擎”, 括號內的數字表示該類中包含的文檔個數)

    +網絡服務(6)

    +汽車(10)

    +計算機圖像(7)

    +工業(2)

    +軍事(9)

    +經濟時代(3)

    +查看更多(…)

     

    四.系統流程全圖


    圖1-2 系統流程全圖

     

    五.開發平臺和相關資源

    1.開發工具:Eclipse + Struts + Tomcat

    2.版本管理工具: CVS

    3.測試工具: JUnit(單元測試) + JMeter(壓力測試)

    4.基于平臺: Windows

    5.相關資源:Google API包

     


    時間進度安排:

    2007年2月26日-2007年3月31 學習各種相關知識。熟悉系統的開發平和相應的開發工具。架構好整個開發框架。

    2007年4月 1日-2006年4月 7 日 完成系統的數據獲取模塊

    2007年4月 8日-2006年4月22 完成系統的過濾模塊。

    2007年4月23日-2006年4月31日 完成系統的輸出模塊。

    2007年5月04日-2006年5月25 完成系統的集成測試和壓力測試。

    2007年5月26日-2006年6月初     完成畢業論文并裝訂。

     




    -----------------------------------------------抓魚社區 www.zhuayu.net------------------------------------------------------------




    《 畢業設計6---web網頁自動分類(開題報告)3.27 》 的評論也很精彩,歡迎您也添加評論。查看詳細 >>

    推薦相關文章:
      Struts2 入門實例代碼
      配置struts2.0.6+spring2.0.3+hibernane3備忘




    JavaEye推薦
    上海樂福狗信息技術有限公司:誠聘技術經理和開發工程師
    免費下載IBM社區版軟件--它基于開放的標準,支持廣泛的開發類型,讓您的開發高效自主!
    京滬穗蓉四地免費注冊,SOA技術高手匯聚交鋒.
    上海:優秀公司德比:高薪誠聘 資深Java工程師
    廣州:優易公司:誠聘Java工程師,開發經理
    上海:尤恩斯國際集團:誠聘開發工程師
    北京:優秀公司NHNChina招聘:WEB開發,系統管理,JAVA開發, DBA



    文章來源: http://fullfocus.javaeye.com/blog/65867
    posted on 2007-03-27 19:11 fullfocus 閱讀(498) 評論(0)  編輯  收藏

    只有注冊用戶登錄后才能發表評論。


    網站導航:
     
    主站蜘蛛池模板: 亚洲线精品一区二区三区 | 国产亚洲自拍一区| 亚洲精品自偷自拍无码| 亚洲精品免费在线观看| 亚洲成AV人片在| 在线观看特色大片免费网站| 亚洲国产成人精品无码区在线观看| 久久精品国产亚洲Aⅴ蜜臀色欲| 亚洲人成色7777在线观看不卡| 亚洲精品狼友在线播放| 一区二区三区视频免费观看| 久久久久亚洲AV综合波多野结衣 | 亚洲AV日韩精品久久久久久| 曰韩无码AV片免费播放不卡| 最新国产乱人伦偷精品免费网站| 波多野结衣免费在线观看| 亚洲国产精品白丝在线观看| 免费不卡在线观看AV| 亚洲视频一区在线观看| 国产福利在线免费| 亚洲精品色在线网站| 亚洲 无码 在线 专区| 中文字幕av免费专区| 久久精品视频亚洲| 99国产精品免费观看视频| 亚洲自国产拍揄拍| 国产大片线上免费看| 成人精品一区二区三区不卡免费看| 三年片在线观看免费大全| 亚洲Av永久无码精品黑人| 亚洲中文字幕无码专区| 最新国产乱人伦偷精品免费网站 | 亚洲精品免费网站| 夜色阁亚洲一区二区三区| 91成人免费福利网站在线| 亚洲资源在线观看| 高清国语自产拍免费视频国产 | 羞羞网站在线免费观看| 亚洲精品无码鲁网中文电影| 四虎影视免费在线| 全部免费国产潢色一级|