<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    泰仔在線

    java學習,心情日記,繽紛時刻
    posts - 100, comments - 34, trackbacks - 0, articles - 0

    nutch抓取動態網頁

    Posted on 2010-04-24 19:06 泰仔在線 閱讀(2214) 評論(1)  編輯  收藏 所屬分類: 云計算相關
    解決搜索動態內容的問題:
    需要注意在conf下面的2個文件:regex-urlfilter.txt,crawl-urlfilter.txt
    # skip URLs containing certain characters as probable queries, etc.
    -[?*!@=] (-改+)
    這段意思是跳過在連接中存在? * ! @ = 的頁面,因為默認是跳過所以,在動態頁中存在?一般按照默認的是不能抓取到的。可以在上面2個文件中都修改成:
    # skip URLs containing certain characters as probable queries, etc.
    # -[?*!@=]
    另外增加允許的一行
    # accept URLs containing certain characters as probable queries, etc.
    +[?=&]
    意思是抓取時候允許抓取連接中帶 ? = & 這三個符號的連接
    注意:兩個文件都需要修改,因為NUTCH加載規則的順序是crawl-urlfilter.txt-> regex-urlfilter.txt

    轉自:nutch抓取動態網頁

    Feedback

    # re: nutch抓取動態網頁  回復  更多評論   

    2012-03-09 17:06 by da
    ds
    主站蜘蛛池模板: 亚洲免费人成视频观看| 中文字幕一精品亚洲无线一区| 久久精品国产亚洲AV大全| 久久午夜夜伦鲁鲁片无码免费| 亚洲午夜在线一区| 在线看片v免费观看视频777| 亚洲国产美女精品久久| 免费观看激色视频网站bd | 亚洲视频精品在线观看| 日韩免费视频一区二区| 亚洲精品国产成人99久久| 亚洲av无码成人影院一区| 女人18毛片a级毛片免费| 亚洲AV日韩综合一区| 亚洲国产精品成人| 中文字幕免费观看全部电影| 久久亚洲国产精品一区二区| 精品久久久久久亚洲中文字幕| 国产免费牲交视频| xxxxx做受大片在线观看免费| 亚洲av永久无码精品网站| 24小时免费看片| 亚洲av无码潮喷在线观看| 最近2018中文字幕免费视频| 亚洲人精品亚洲人成在线| 免费看小12萝裸体视频国产| 国产免费牲交视频免费播放| 日韩一区二区免费视频| jzzjzz免费观看大片免费| 免费国产成人午夜电影| 国产精品免费久久久久电影网| 亚洲AV美女一区二区三区| 免费可以在线看A∨网站| 在线播放国产不卡免费视频| 亚洲AV日韩精品久久久久久久| 亚洲精品动漫免费二区| 美景之屋4在线未删减免费 | 美女视频黄的全免费视频| 久久精品九九亚洲精品天堂| 免费黄色福利视频| 丰满妇女做a级毛片免费观看|