<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    泰仔在線

    java學(xué)習(xí),心情日記,繽紛時刻
    posts - 100, comments - 34, trackbacks - 0, articles - 0

    nutch抓取動態(tài)網(wǎng)頁

    Posted on 2010-04-24 19:06 泰仔在線 閱讀(2207) 評論(1)  編輯  收藏 所屬分類: 云計算相關(guān)
    解決搜索動態(tài)內(nèi)容的問題:
    需要注意在conf下面的2個文件:regex-urlfilter.txt,crawl-urlfilter.txt
    # skip URLs containing certain characters as probable queries, etc.
    -[?*!@=] (-改+)
    這段意思是跳過在連接中存在? * ! @ = 的頁面,因為默認(rèn)是跳過所以,在動態(tài)頁中存在?一般按照默認(rèn)的是不能抓取到的。可以在上面2個文件中都修改成:
    # skip URLs containing certain characters as probable queries, etc.
    # -[?*!@=]
    另外增加允許的一行
    # accept URLs containing certain characters as probable queries, etc.
    +[?=&]
    意思是抓取時候允許抓取連接中帶 ? = & 這三個符號的連接
    注意:兩個文件都需要修改,因為NUTCH加載規(guī)則的順序是crawl-urlfilter.txt-> regex-urlfilter.txt

    轉(zhuǎn)自:nutch抓取動態(tài)網(wǎng)頁

    Feedback

    # re: nutch抓取動態(tài)網(wǎng)頁  回復(fù)  更多評論   

    2012-03-09 17:06 by da
    ds
    主站蜘蛛池模板: 亚洲自偷自偷精品| 亚洲一区二区精品视频| 亚洲精品综合一二三区在线| eeuss免费天堂影院| 亚洲高清无码在线观看| 搜日本一区二区三区免费高清视频| 国产jizzjizz视频全部免费| 亚洲成a∨人片在无码2023 | 毛片无码免费无码播放| 国产亚洲婷婷香蕉久久精品 | 黄网站色视频免费在线观看的a站最新 | 无码国产精品一区二区免费式直播 | 久久久久久一品道精品免费看 | 国产精品亚洲综合久久| 97人伦色伦成人免费视频| 亚洲国产精品无码第一区二区三区 | 黄人成a动漫片免费网站| 亚洲人午夜射精精品日韩| 国产又黄又爽胸又大免费视频| 亚洲一区爱区精品无码| 久久国产乱子伦精品免费看| 亚洲手机中文字幕| 成年女人看片免费视频播放器| 激情无码亚洲一区二区三区| 日本亚洲国产一区二区三区| 99久在线国内在线播放免费观看| 亚洲国产成人精品电影| 日本黄色免费观看| a毛片视频免费观看影院| 亚洲嫩草影院在线观看| 国产免费小视频在线观看| a级大片免费观看| 久久亚洲国产成人影院| 中文亚洲成a人片在线观看| 8090在线观看免费观看| 亚洲av无码片vr一区二区三区| 亚洲欧洲美洲无码精品VA | 亚色九九九全国免费视频| 欧洲亚洲综合一区二区三区 | 在线视频免费国产成人| 在线观看免费视频网站色|