<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    天 霽

    那天風(fēng)大,搜搜的
    posts - 4, comments - 36, trackbacks - 1, articles - 1
      BlogJava :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理

    Nutch數(shù)據(jù)查看工具:RedmuTool

    Posted on 2006-12-16 16:10 天霽 閱讀(3598) 評論(15)  編輯  收藏 所屬分類: nutch

    ??????? 在nutch的開發(fā)過程中,很多程序員都煩惱nutch抓取數(shù)據(jù)后的保存格式,無法被直接瀏覽和管理,我也同樣煩惱,呵呵,也是被人催得急了,抽出時間寫了這么個小工具,用來瀏覽nutch保存的數(shù)據(jù)。

    ??????? 準(zhǔn)備設(shè)計的功能有3塊:
    ??????? 1。瀏覽和管理數(shù)據(jù)。
    ??????? 2。搜索數(shù)據(jù)。
    ????????3。導(dǎo)出nutch數(shù)據(jù)到指定數(shù)據(jù)庫。

    ??????? 花了一天時間先寫了第一塊的一部分,能夠瀏覽nutch抓取后的數(shù)據(jù),先放在blog上吧,版本定為0.1,其實0.1也高,0.01比較合適。寫的匆忙,代碼比較簡陋,本想開放源碼,又怕貽笑大方,暫時先不發(fā)布源碼了,只發(fā)布了一個jar包,代碼并沒有經(jīng)過混淆,如果感興趣反編譯過來看就好了,或者留個郵箱,等到基本功能完成了發(fā)布到sourceforge上。

    ????????基本界面使用說明:

    ?????? 一.?? 下載與安裝:

    ??????????????? 在這里下載,下載后解壓縮,兩個解壓縮文件:RedmuTool.jar,startup.bat,一個類包文件
    ??????????????? 夾:lib。確認(rèn)這三個在同一文件夾下。

    ???????二.?? 運行:

    ?????????????? 執(zhí)行startup.bat。界面如下:


    ?????????? 主界面出現(xiàn)后,F(xiàn)ile-->open,選擇nutch抓取后保存數(shù)據(jù)的文件夾:


    ???????菜單中不同的選項對應(yīng)不同的文件夾:
    ?????? NutchCrawl,對應(yīng)你選擇的Crawl根目錄。
    ?????? CrawlDB,對應(yīng)crawldb文件夾。
    ?????? LinkDB,對應(yīng)linkdb文件夾。
    ?????? Segments,對應(yīng)segments文件夾。
    ?????? segment文件夾下是按照抓取時間命名的文件夾,內(nèi)部分別是content,crawl_fetch,crawl_generate,crawl_parse,parse_data,parse_text,界面中對應(yīng)的分別是:Content,CrawlFetch,ParseData和ParseText。
    ??????? 點擊相應(yīng)的選擇,就會看到相應(yīng)的數(shù)據(jù)內(nèi)容:

    ????????
    ????????字段名和相應(yīng)的屬性名相同,未做更多的處理。
    ???????
    ???????? 在使用中任何意見均可留言,或發(fā)送郵件到:redmuer@hotmail.com。


    評論

    # re: Nutch數(shù)據(jù)查看工具:RedmuTool  回復(fù)  更多評論   

    2006-12-16 16:49 by BeanSoft
    支持原創(chuàng)! 不管 SWT/SWING, 做出有用的東西來就是好鳥!

    # re: Nutch數(shù)據(jù)查看工具:RedmuTool  回復(fù)  更多評論   

    2006-12-16 19:15 by stme
    不錯,本人正在研究nutch,有機(jī)會向您請教下

    # re: Nutch數(shù)據(jù)查看工具:RedmuTool  回復(fù)  更多評論   

    2006-12-24 22:14 by baodijun
    你好!我在使用你的軟件導(dǎo)數(shù)據(jù)時,卻什么數(shù)據(jù)都沒有出來。不知道是為什么?
    卻出現(xiàn)了下面的內(nèi)容。希望能得到幫助,謝謝。
    06/12/24 22:01:06 INFO conf.Configuration: parsing jar:file:/E:/nutch%e5%b7%a5%e
    5%85%b7/lib/hadoop-0.4.0.jar!/hadoop-default.xml

    # re: Nutch數(shù)據(jù)查看工具:RedmuTool  回復(fù)  更多評論   

    2006-12-25 16:07 by 天霽
    請查看目錄選擇是否正確。
    你所提供的信息表示jar包加載正確。

    # re: Nutch數(shù)據(jù)查看工具:RedmuTool  回復(fù)  更多評論   

    2007-01-10 11:06 by moonucool
    現(xiàn)在nutch最新版的為nutch_0.8.1 要與時俱過呀 支持你

    # re: Nutch數(shù)據(jù)查看工具:RedmuTool  回復(fù)  更多評論   

    2007-01-25 21:51 by 雨山
    在網(wǎng)上搜到這個頁面真是激動死了,下載了先。明天安裝一下試試。多謝了阿??!你真是太、太、太好了:)

    # re: Nutch數(shù)據(jù)查看工具:RedmuTool  回復(fù)  更多評論   

    2007-03-09 19:38 by 陳軍
    支持

    # re: Nutch數(shù)據(jù)查看工具:RedmuTool  回復(fù)  更多評論   

    2007-04-03 18:43 by Nutch初學(xué)者
    正在學(xué)習(xí)Nutch,這個工具很帥阿。能留下聯(lián)系辦法嗎?有關(guān)Nutch的問題請教

    # re: Nutch數(shù)據(jù)查看工具:RedmuTool  回復(fù)  更多評論   

    2007-04-04 09:47 by Nutch初學(xué)者
    為什么我用dump出來的數(shù)據(jù),里面的中文全是亂麻呢?~~

    # re: Nutch數(shù)據(jù)查看工具:RedmuTool  回復(fù)  更多評論   

    2007-04-04 09:47 by Nutch初學(xué)者
    為什么我用dump出來的數(shù)據(jù),里面的中文全是亂碼呢?~~

    # re: Nutch數(shù)據(jù)查看工具:RedmuTool  回復(fù)  更多評論   

    2007-04-13 10:58 by 天霽
    發(fā)到我郵箱里的提問我都回復(fù)了,不過有的回復(fù)好像失敗了。
    前一段項目壓力比較大,沒能繼續(xù)更新這個小工具,馬上項目快結(jié)束了,會繼續(xù)更新這個工具,歡迎大家繼續(xù)交流。
    我的msn和郵箱在redmutool的幫助里都有顯示,有問題在這里提出或者發(fā)郵件都可以。

    # re: Nutch數(shù)據(jù)查看工具:RedmuTool[未登錄]  回復(fù)  更多評論   

    2008-06-18 16:21 by lee
    請問有沒有解決dump出來亂碼的問題阿!知道請聯(lián)系leehyokug@163.com

    # re: Nutch數(shù)據(jù)查看工具:RedmuTool  回復(fù)  更多評論   

    2012-04-22 20:41 by 桑尼~
    我們最近也在研究Nutch哇~ 能不能給我發(fā)一份哇~ 萬分感謝哇~
    snygirl@126.com 呵呵 @天霽

    # re: Nutch數(shù)據(jù)查看工具:RedmuTool  回復(fù)  更多評論   

    2013-05-09 18:04 by qtshh
    感謝樓主的奉獻(xiàn)精神;謝謝了;可惜沒有下載成功!

    # re: Nutch數(shù)據(jù)查看工具:RedmuTool  回復(fù)  更多評論   

    2013-05-09 18:05 by qtshh
    發(fā)我一份吧,謝謝了!zhch_china@sina.com

    只有注冊用戶登錄后才能發(fā)表評論。


    網(wǎng)站導(dǎo)航:
     
    主站蜘蛛池模板: 国产亚洲免费的视频看| 在线观看免费人成视频色9| 日韩精品亚洲人成在线观看| 国产精品永久免费10000| 久久精品亚洲日本波多野结衣 | 国产又大又长又粗又硬的免费视频 | 在线观看免费无码专区| 亚洲中文字幕无码一去台湾| jizzjizz亚洲| 在免费jizzjizz在线播| 一级A毛片免费观看久久精品| 亚洲最大的成网4438| 国产免费久久精品| 88av免费观看入口在线| 美女被艹免费视频| 亚洲永久中文字幕在线| 亚洲无码视频在线| 在线观看免费成人| 三年片在线观看免费大全电影 | 黄色一级视频免费| 亚洲成a人片在线观看播放| 亚洲精品高清在线| 女人18毛片水真多免费播放 | 国产gv天堂亚洲国产gv刚刚碰| 美女视频黄a视频全免费| 亚洲一区二区三区免费| 亚洲色欲色欱wwW在线| 亚洲AV无码日韩AV无码导航| 波多野结衣免费视频观看| 国产精彩免费视频| 日本视频免费高清一本18| 男女啪啪免费体验区| 亚洲午夜理论片在线观看| 911精品国产亚洲日本美国韩国| 精品国产日韩亚洲一区| 国产免费观看网站| 大地资源二在线观看免费高清 | 亚洲AV成人潮喷综合网| 国产精品国产自线拍免费软件| 亚洲一区二区三区免费视频| 久久精品国产免费|