<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    隨筆-28  評論-51  文章-10  trackbacks-0

    網(wǎng)站:JavaEye 作者:fullfocus 發(fā)表時間: 2007-03-27 19:11 此文章來自于 http://www.JavaEye.com
    聲明:本文系JavaEye網(wǎng)站原創(chuàng)文章,未經(jīng)JavaEye網(wǎng)站或者作者本人書面許可,任何其他網(wǎng)站嚴(yán)禁擅自發(fā)表本文,否則必將追究法律責(zé)任!
    原文鏈接: http://fullfocus.javaeye.com/blog/65867

















    (本科)畢業(yè)設(shè)計(論文)的目標(biāo):

     

    目標(biāo):

    Web搜索引擎返回的頁面進(jìn)行自動的分類。

    要點:

    1. Web搜索引擎返回的頁面是動態(tài)的,其文檔類別是未知的、不固定的。

    2. 根據(jù)頁面內(nèi)容自身的差異,使用文檔聚類的方法對頁面進(jìn)行自動歸類。

    3. 分類顯示搜索結(jié)果。

    4. 滿足中文查詢需求。

    5. 針對兩類文件:a. 純文本文件(無超鏈接,無格式)

                                    b. 網(wǎng)頁(html,xml..

       注:暫不考慮各種顏色信息,以及各種格式對文本分析的影響

           暫不考慮doc, pdf等有格式文件

    6. 系統(tǒng)能夠做到快速的反應(yīng)

    7. 分類結(jié)果的顯示具備人性化,使用戶可以輕松的根據(jù)分類目錄標(biāo)題找到自己需要的信息。

    子功能:

    1.從搜索引擎獲得Web頁面

    2.Web網(wǎng)頁文檔的預(yù)處理

    3.文檔聚類算法

    4.Web文檔聚類結(jié)果的可視化展現(xiàn)

     

     

     

     

     

     

     

     

     

     

     

     

     

     


    實現(xiàn)方法:

    本系統(tǒng)擬采用無監(jiān)督的自動聚類算法,并根據(jù)系統(tǒng)的整個運作流程,劃分為三個主要模塊:輸入模塊,過濾模塊,輸出模塊。下面針對各個模塊的實現(xiàn)方法進(jìn)行詳細(xì)的講解。


    圖1-1 web網(wǎng)頁自動分類系統(tǒng)的基本框架

    一.輸入模塊

    自動分類系統(tǒng)首先需要從各大搜索引擎中獲得原始數(shù)據(jù)源。這里我們根據(jù)用戶輸入的關(guān)鍵詞,通過Google提供的搜索API獲得查詢結(jié)果的一個列表。這個便是我們最初的數(shù)據(jù)源。其中的每一條結(jié)果至少包含一個URL鏈接,一個標(biāo)題,以及一些關(guān)于此文檔的摘要。根據(jù)(Oren Zamir and Oren Etzioni,2001)的研究,源輸入數(shù)據(jù)為文檔摘要和整個文檔的對比過程中,采用文檔摘要的方法不僅大大提高處理速度,而且摘要提供的信息足以滿足聚類分析的要求。所以在本系統(tǒng)中,我們采用文檔摘要方法。

    對中文內(nèi)容采用中科院研制的ICTCLAS進(jìn)行分詞,英文使用SNOWBALL進(jìn)行詞干化。分詞并消除噪聲后,建立VSM(向量空間模型)為下面各種工作的進(jìn)行打下基礎(chǔ)。然后,進(jìn)行特征提取以達(dá)到進(jìn)一步降維的目的。

     

    二.過濾模塊

    根據(jù)建立的VSM模型和實際的情況,我們采用STC(Suffix Tree Clustering,OrenZamir,OrenEtzioni)后綴樹算法對文檔進(jìn)行聚類。為了在最后的聚類結(jié)果中,分類目錄標(biāo)簽更有易知性,濃縮性,并更好的反映該分類的所有內(nèi)容,我們采用描述符優(yōu)先方法DCFC(Description comes first clustering),與傳統(tǒng)的聚類方式不同,DCFC先提取一個有意義的,多樣的分類標(biāo)簽(cluster labels)集合,然后把文檔聚類到合適的標(biāo)簽底下—這就完成了web文檔的聚類。

     

    三.輸出模塊

    聚類完成后,采用什么方式展現(xiàn)給用戶也是個十分重要的問題。主要要求是:易懂,便捷。我們采用分類目錄的結(jié)構(gòu)形式提交給用戶。搜索引擎返回的結(jié)果已經(jīng)按照相關(guān)度的高低進(jìn)行排序,所以考慮到速度,性能,效率因素,我們選取并返回一定量的搜索結(jié)果(比如默認(rèn)為100條)。在界面中,為了更好的增強用戶體驗,我們將會加入Ajax異步通訊功能,使界面更加友好。示例如下:

    (查詢詞:“引擎”, 括號內(nèi)的數(shù)字表示該類中包含的文檔個數(shù))

    +網(wǎng)絡(luò)服務(wù)(6)

    +汽車(10)

    +計算機圖像(7)

    +工業(yè)(2)

    +軍事(9)

    +經(jīng)濟時代(3)

    +查看更多(…)

     

    四.系統(tǒng)流程全圖


    圖1-2 系統(tǒng)流程全圖

     

    五.開發(fā)平臺和相關(guān)資源

    1.開發(fā)工具:Eclipse + Struts + Tomcat

    2.版本管理工具: CVS

    3.測試工具: JUnit(單元測試) + JMeter(壓力測試)

    4.基于平臺: Windows

    5.相關(guān)資源:Google API包

     


    時間進(jìn)度安排:

    2007年2月26日-2007年3月31 學(xué)習(xí)各種相關(guān)知識。熟悉系統(tǒng)的開發(fā)平和相應(yīng)的開發(fā)工具。架構(gòu)好整個開發(fā)框架。

    2007年4月 1日-2006年4月 7 日 完成系統(tǒng)的數(shù)據(jù)獲取模塊

    2007年4月 8日-2006年4月22 完成系統(tǒng)的過濾模塊。

    2007年4月23日-2006年4月31日 完成系統(tǒng)的輸出模塊。

    2007年5月04日-2006年5月25 完成系統(tǒng)的集成測試和壓力測試。

    2007年5月26日-2006年6月初     完成畢業(yè)論文并裝訂。

     




    -----------------------------------------------抓魚社區(qū) www.zhuayu.net------------------------------------------------------------




    《 畢業(yè)設(shè)計6---web網(wǎng)頁自動分類(開題報告)3.27 》 的評論也很精彩,歡迎您也添加評論。查看詳細(xì) >>

    推薦相關(guān)文章:
      Struts2 入門實例代碼
      配置struts2.0.6+spring2.0.3+hibernane3備忘




    JavaEye推薦
    上海樂福狗信息技術(shù)有限公司:誠聘技術(shù)經(jīng)理和開發(fā)工程師
    免費下載IBM社區(qū)版軟件--它基于開放的標(biāo)準(zhǔn),支持廣泛的開發(fā)類型,讓您的開發(fā)高效自主!
    京滬穗蓉四地免費注冊,SOA技術(shù)高手匯聚交鋒.
    上海:優(yōu)秀公司德比:高薪誠聘 資深Java工程師
    廣州:優(yōu)易公司:誠聘Java工程師,開發(fā)經(jīng)理
    上海:尤恩斯國際集團:誠聘開發(fā)工程師
    北京:優(yōu)秀公司NHNChina招聘:WEB開發(fā),系統(tǒng)管理,JAVA開發(fā), DBA



    文章來源: http://fullfocus.javaeye.com/blog/65867
    posted on 2007-03-27 19:11 fullfocus 閱讀(499) 評論(0)  編輯  收藏

    只有注冊用戶登錄后才能發(fā)表評論。


    網(wǎng)站導(dǎo)航:
     
    主站蜘蛛池模板: 久久精品国产亚洲麻豆| 免费视频成人片在线观看| 久久精品国产亚洲AV嫖农村妇女| 日本特黄特色免费大片| 30岁的女人韩剧免费观看| 久久不见久久见免费影院www日本| 亚洲精品永久在线观看| 亚洲天堂电影在线观看| 久久精品国产亚洲AV麻豆王友容 | 99亚洲精品高清一二区| 国产亚洲精品a在线观看| 人人狠狠综合久久亚洲高清| 我要看免费的毛片| 四虎在线免费视频| 无码国产精品一区二区免费模式| caoporn国产精品免费| 国产大陆亚洲精品国产| 在线观看亚洲专区| 久久久久亚洲国产AV麻豆| 亚洲啪AV永久无码精品放毛片| 亚洲国产成人超福利久久精品 | 日韩免费电影网站| a在线免费观看视频| 中文永久免费观看网站| 国产精品玖玖美女张开腿让男人桶爽免费看 | 精品一区二区三区免费毛片| 亚洲av午夜国产精品无码中文字| 国产亚洲国产bv网站在线| 中文字幕亚洲综合久久2| 亚洲短视频男人的影院| 久久亚洲精品中文字幕无码| 亚洲日本一区二区三区| 亚洲av综合avav中文| 久久亚洲免费视频| 久久青青草原亚洲av无码app| 久久99亚洲网美利坚合众国| 亚洲综合无码一区二区三区| 亚洲导航深夜福利| 国产亚洲sss在线播放| 亚洲爆乳少妇无码激情| 在线观看亚洲免费|