Posted on 2006-12-16 16:10
天霽 閱讀(3598)
評論(15) 編輯 收藏 所屬分類:
nutch
??????? 在nutch的開發(fā)過程中,很多程序員都煩惱nutch抓取數(shù)據(jù)后的保存格式,無法被直接瀏覽和管理,我也同樣煩惱,呵呵,也是被人催得急了,抽出時(shí)間寫了這么個(gè)小工具,用來瀏覽nutch保存的數(shù)據(jù)。
??????? 準(zhǔn)備設(shè)計(jì)的功能有3塊:
??????? 1。瀏覽和管理數(shù)據(jù)。
??????? 2。搜索數(shù)據(jù)。
????????3。導(dǎo)出nutch數(shù)據(jù)到指定數(shù)據(jù)庫。
??????? 花了一天時(shí)間先寫了第一塊的一部分,能夠?yàn)g覽nutch抓取后的數(shù)據(jù),先放在blog上吧,版本定為0.1,其實(shí)0.1也高,0.01比較合適。寫的匆忙,代碼比較簡陋,本想開放源碼,又怕貽笑大方,暫時(shí)先不發(fā)布源碼了,只發(fā)布了一個(gè)jar包,代碼并沒有經(jīng)過混淆,如果感興趣反編譯過來看就好了,或者留個(gè)郵箱,等到基本功能完成了發(fā)布到sourceforge上。
????????基本界面使用說明:
?????? 一.?? 下載與安裝:
??????????????? 在這里下載,下載后解壓縮,兩個(gè)解壓縮文件:RedmuTool.jar,startup.bat,一個(gè)類包文件
??????????????? 夾:lib。確認(rèn)這三個(gè)在同一文件夾下。
???????二.?? 運(yùn)行:
?????????????? 執(zhí)行startup.bat。界面如下:

?????????? 主界面出現(xiàn)后,F(xiàn)ile-->open,選擇nutch抓取后保存數(shù)據(jù)的文件夾:

???????菜單中不同的選項(xiàng)對應(yīng)不同的文件夾:
?????? NutchCrawl,對應(yīng)你選擇的Crawl根目錄。
?????? CrawlDB,對應(yīng)crawldb文件夾。
?????? LinkDB,對應(yīng)linkdb文件夾。
?????? Segments,對應(yīng)segments文件夾。
?????? segment文件夾下是按照抓取時(shí)間命名的文件夾,內(nèi)部分別是content,crawl_fetch,crawl_generate,crawl_parse,parse_data,parse_text,界面中對應(yīng)的分別是:Content,CrawlFetch,ParseData和ParseText。
??????? 點(diǎn)擊相應(yīng)的選擇,就會(huì)看到相應(yīng)的數(shù)據(jù)內(nèi)容:

????????
????????字段名和相應(yīng)的屬性名相同,未做更多的處理。
???????
???????? 在使用中任何意見均可留言,或發(fā)送郵件到:redmuer@hotmail.com。