近來一直想用Nutch建立一個校內的資源搜索引擎,卻沒想到有中文分詞引發出來一大堆問題。在此做個記錄。
1. Cygwin下,Nutch0.8.1啟動Crawl的時候找java.exe出錯,路徑錯誤找不到。解決方法是修改bin/nutch文件,78行的 JAVA=$Nutch_JAVA_HOME/bin/java ,去掉前面的$Nutch_JAVA_HOME,修改為JAVA=java。條件是系統中環境變量PATH中包含了jdk/bin。
2. 0.7版本的Nutch拿回來設置urls規則和起始URL后可以直接使用bin/nutch crawl......來啟動,但0.8.1版本這樣啟動會發現fetch起始URL的時候會出現Null指針錯誤。原因是conf/nutch-default.xml中的http.agent.name配置屬性為空。而其說明中要求不為空。在value節點下隨便寫入一個值,例如test/unique。然后再啟動Nutch,OK.