<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    posts - 110,  comments - 152,  trackbacks - 0

    再來1號問題:爬蟲的工作過程

    來個圖:

    workflow

    動作分解:
    <傳言看源代碼理解的更細致,不過偶沒看,偶是根據文檔和下午的操作總結的,錯了請指正。>

    1.創建空數據庫Webdb:

    2.向Webdb中注入入口攫取地址:

    3.根據Webdb中數據生成fetchlist,并生成相應的segment。

    4.根據fetchlist攫取內容(fetched content)。

    5.根據獲取內容更新Webdb

    6.重復執行3-5.這個過程52se稱為“產生/抓取/更新”循環。

    7.完成上面的循環后,根據Webdb中信息,如網頁評分和鏈接信息等,再次更新segment.

    8.索引被攫取的頁面,生成鏈接。

    9.去除indexes中重復的內容和鏈接。

    10.依靠indexes合成單一的index文件。大功告成。

    上面這些步驟都可以對應到Nutch給我們提供的CrawlTool中的命令上。

    爬蟲忙完了,有了數據,我們就可以利用Nutch的search部分功能來查找內容了。

     

    參考:Nutch爬蟲工作流程及文件格式詳細分析

    Introduction to Nutch, Part 1: Crawling



    平凡而簡單的人一個,無權無勢也無牽無掛。一路廝殺,只進不退,死而后已,豈不爽哉!
    收起對“車”日行千里的羨慕;收起對“馬”左右逢緣的感嘆;目標記在心里面,向前進。一次一步,一步一腳印,跬步千里。
    這個角色很適合現在的


    posted on 2008-04-02 20:53 過河卒 閱讀(569) 評論(0)  編輯  收藏 所屬分類: Java/Java框架
    文章來自: http://www.blogjava.com/ponzmd/ (彭俊-過河卒) 轉貼請聲明!
    訪問統計:
    主站蜘蛛池模板: 亚洲国产综合人成综合网站| 亚洲欧洲日产国码av系列天堂| 日韩色日韩视频亚洲网站 | 中文字幕精品亚洲无线码一区| 最近免费中文字幕中文高清| 亚洲乱码卡一卡二卡三| 免费观看午夜在线欧差毛片| 中文在线免费看视频| 亚洲国产成人精品无码区在线秒播| 国产在线观看免费不卡 | 国产91在线免费| 久久精品国产影库免费看| 亚洲色图激情文学| 国产成人精品日本亚洲专区61 | 成人免费无码H在线观看不卡| 亚洲日韩乱码久久久久久| 免费人妻无码不卡中文字幕18禁| 久久精品一区二区免费看| 在线91精品亚洲网站精品成人| 国产成人精品日本亚洲| 特级淫片国产免费高清视频| 在线观看免费无码专区| WWW国产亚洲精品久久麻豆| 亚洲bt加勒比一区二区| 亚洲AV无码乱码精品国产| 91麻豆最新在线人成免费观看| 国产99久久久国产精免费| 在线观看亚洲AV每日更新无码| 亚洲国产成人精品无码区在线观看| 在线观看免费精品国产| 四虎成年永久免费网站| 三年片在线观看免费| 精品一区二区三区无码免费直播| 亚洲美女视频网址| 久久亚洲国产精品一区二区| 免费h成人黄漫画嘿咻破解版| 国产v精品成人免费视频400条| 久久久久国产精品免费网站| 精品一区二区三区免费观看 | 99热在线免费播放| 免费看成人AA片无码视频吃奶|