<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    泰仔在線

    java學習,心情日記,繽紛時刻
    posts - 100, comments - 34, trackbacks - 0, articles - 0

    nutch抓取動態網頁

    Posted on 2010-04-24 19:06 泰仔在線 閱讀(2207) 評論(1)  編輯  收藏 所屬分類: 云計算相關
    解決搜索動態內容的問題:
    需要注意在conf下面的2個文件:regex-urlfilter.txt,crawl-urlfilter.txt
    # skip URLs containing certain characters as probable queries, etc.
    -[?*!@=] (-改+)
    這段意思是跳過在連接中存在? * ! @ = 的頁面,因為默認是跳過所以,在動態頁中存在?一般按照默認的是不能抓取到的。可以在上面2個文件中都修改成:
    # skip URLs containing certain characters as probable queries, etc.
    # -[?*!@=]
    另外增加允許的一行
    # accept URLs containing certain characters as probable queries, etc.
    +[?=&]
    意思是抓取時候允許抓取連接中帶 ? = & 這三個符號的連接
    注意:兩個文件都需要修改,因為NUTCH加載規則的順序是crawl-urlfilter.txt-> regex-urlfilter.txt

    轉自:nutch抓取動態網頁

    Feedback

    # re: nutch抓取動態網頁  回復  更多評論   

    2012-03-09 17:06 by da
    ds
    主站蜘蛛池模板: 亚洲日韩一页精品发布| 亚洲av无码乱码在线观看野外 | 色偷偷亚洲男人天堂| 人与禽交免费网站视频| 18gay台湾男同亚洲男同| 久久这里只精品99re免费| 亚洲va国产va天堂va久久| CAOPORM国产精品视频免费| 久久亚洲中文字幕精品一区四| 又大又硬又粗又黄的视频免费看 | 一日本道a高清免费播放 | 亚洲国产精品福利片在线观看| 成人免费ā片在线观看| 亚洲日韩欧洲无码av夜夜摸| 在线免费观看h片| 99亚洲精品高清一二区| 国产91免费视频| 亚洲色在线无码国产精品不卡| 在线观看亚洲免费| 美美女高清毛片视频黄的一免费| 亚洲日本一区二区三区在线不卡| a级男女仿爱免费视频| 久久久久亚洲AV成人片| 性感美女视频在线观看免费精品 | 国产精品免费一级在线观看| 四虎国产精品永免费| 亚洲av无码av制服另类专区| 99久久国产热无码精品免费| 在线精品自拍亚洲第一区| 亚洲色精品aⅴ一区区三区| 一区二区三区观看免费中文视频在线播放 | a毛片免费全部在线播放**| 亚洲精品视频免费在线观看| 成人免费在线视频| 国产成年无码久久久免费| 亚洲福利视频网址| 亚洲成a人一区二区三区| 99久久国产免费-99久久国产免费| 亚洲人成图片网站| 亚洲一区二区三区香蕉| 无码人妻久久一区二区三区免费丨 |