Posted on 2006-12-16 16:10
天霽 閱讀(3599)
評論(15) 編輯 收藏 所屬分類:
nutch
??????? 在nutch的開發過程中,很多程序員都煩惱nutch抓取數據后的保存格式,無法被直接瀏覽和管理,我也同樣煩惱,呵呵,也是被人催得急了,抽出時間寫了這么個小工具,用來瀏覽nutch保存的數據。
??????? 準備設計的功能有3塊:
??????? 1。瀏覽和管理數據。
??????? 2。搜索數據。
????????3。導出nutch數據到指定數據庫。
??????? 花了一天時間先寫了第一塊的一部分,能夠瀏覽nutch抓取后的數據,先放在blog上吧,版本定為0.1,其實0.1也高,0.01比較合適。寫的匆忙,代碼比較簡陋,本想開放源碼,又怕貽笑大方,暫時先不發布源碼了,只發布了一個jar包,代碼并沒有經過混淆,如果感興趣反編譯過來看就好了,或者留個郵箱,等到基本功能完成了發布到sourceforge上。
????????基本界面使用說明:
?????? 一.?? 下載與安裝:
??????????????? 在這里下載,下載后解壓縮,兩個解壓縮文件:RedmuTool.jar,startup.bat,一個類包文件
??????????????? 夾:lib。確認這三個在同一文件夾下。
???????二.?? 運行:
?????????????? 執行startup.bat。界面如下:

?????????? 主界面出現后,File-->open,選擇nutch抓取后保存數據的文件夾:

???????菜單中不同的選項對應不同的文件夾:
?????? NutchCrawl,對應你選擇的Crawl根目錄。
?????? CrawlDB,對應crawldb文件夾。
?????? LinkDB,對應linkdb文件夾。
?????? Segments,對應segments文件夾。
?????? segment文件夾下是按照抓取時間命名的文件夾,內部分別是content,crawl_fetch,crawl_generate,crawl_parse,parse_data,parse_text,界面中對應的分別是:Content,CrawlFetch,ParseData和ParseText。
??????? 點擊相應的選擇,就會看到相應的數據內容:

????????
????????字段名和相應的屬性名相同,未做更多的處理。
???????
???????? 在使用中任何意見均可留言,或發送郵件到:redmuer@hotmail.com。