摘要: 關鍵字: nutch 命令
Nutch采用了一種命令的方式進行工作,其命令可以是對局域網方式的單一命令也可以是對整個Web進行爬取的分步命令。主要的命令如下:
1. Crawl
Crawl是“org.apache.nutch.crawl.Crawl”的別稱,它是一個完整的爬取和索引過程命令。
2. Readdb
Readdb命令是“org.apache.nutch.crawl.CrawlDbReader”的別稱,返回或者導出Crawl數據庫(crawldb)中的信息。
3. readlinkdb
它是"org.apache.nutch.crawl.LinkDbReader"的別稱,導出鏈接庫中信息或者返回其中一個URL信息。
4. inject
它是"org.apache.nutch.crawl.Injector"的別稱,注入新URL到crawldb中。
5. generate
它是“org.apache.nutch.crawl.Generator”,從Cra
閱讀全文