摘要: 解決搜索動態內容的問題:
需要注意在conf下面的2個文件:regex-urlfilter.txt,crawl-urlfilter.txt
# skip URLs containing certain characters as probable queries, etc.
-[?*!@=] (-改+)
這段意思是跳過在連接中存在? * ! @ = 的頁面,因為默認是跳過所以,在動態頁中存在?一般按照默認的是不能抓取到的。可以在上面2個文件中都修改成:
# skip URLs containing certain characters as probable queries, etc.
# -[?*!@=]
另外增加允許的一行
# accept URLs containing certain characters as probable queries, etc.
+[?=&]
意思是抓取時候允許抓取連接中帶 ? = & 這三個符號的連接
注意:兩個文件都需要修改,因為NUTCH加載規則的順序是cr
閱讀全文