<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    泰仔在線

    java學(xué)習(xí),心情日記,繽紛時刻
    posts - 100, comments - 34, trackbacks - 0, articles - 0

    nutch抓取動態(tài)網(wǎng)頁

    Posted on 2010-04-24 19:06 泰仔在線 閱讀(2214) 評論(1)  編輯  收藏 所屬分類: 云計算相關(guān)
    解決搜索動態(tài)內(nèi)容的問題:
    需要注意在conf下面的2個文件:regex-urlfilter.txt,crawl-urlfilter.txt
    # skip URLs containing certain characters as probable queries, etc.
    -[?*!@=] (-改+)
    這段意思是跳過在連接中存在? * ! @ = 的頁面,因為默認是跳過所以,在動態(tài)頁中存在?一般按照默認的是不能抓取到的。可以在上面2個文件中都修改成:
    # skip URLs containing certain characters as probable queries, etc.
    # -[?*!@=]
    另外增加允許的一行
    # accept URLs containing certain characters as probable queries, etc.
    +[?=&]
    意思是抓取時候允許抓取連接中帶 ? = & 這三個符號的連接
    注意:兩個文件都需要修改,因為NUTCH加載規(guī)則的順序是crawl-urlfilter.txt-> regex-urlfilter.txt

    轉(zhuǎn)自:nutch抓取動態(tài)網(wǎng)頁

    Feedback

    # re: nutch抓取動態(tài)網(wǎng)頁  回復(fù)  更多評論   

    2012-03-09 17:06 by da
    ds
    主站蜘蛛池模板: 欧美亚洲精品一区二区| 亚洲六月丁香婷婷综合| 久久精品国产亚洲夜色AV网站| 狠狠入ady亚洲精品| 日本一线a视频免费观看| 亚洲国产成人AV在线播放| 青青草国产免费久久久91| 亚洲人成人网站18禁| 污污免费在线观看| 又大又硬又爽免费视频| 亚洲欧洲免费视频| 亚洲七久久之综合七久久| 午夜寂寞在线一级观看免费| 亚洲乱色伦图片区小说| 免费在线黄色网址| 国产免费内射又粗又爽密桃视频| 无人影院手机版在线观看免费| 亚洲人成电影在线播放| aa级女人大片喷水视频免费| 亚洲AV无码日韩AV无码导航 | 国产成人亚洲综合在线| 免费日本黄色网址| 永久免费A∨片在线观看| 久久久亚洲欧洲日产国码是AV| 日本片免费观看一区二区| 亚洲精品无码日韩国产不卡av| 亚洲国产精品第一区二区三区| 中国好声音第二季免费播放| 亚洲色图.com| 国产一区二区三区免费在线观看| 黄视频在线观看免费| 久久久亚洲欧洲日产国码aⅴ | 一级毛片在播放免费| 久久精品国产亚洲AV麻豆不卡 | 国产免费AV片无码永久免费| EEUSS影院WWW在线观看免费 | 日韩欧美亚洲中文乱码| 亚洲熟妇av一区二区三区 | 男女一边摸一边做爽的免费视频 | 亚洲人成免费电影| 一区二区视频免费观看|