<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    隨筆-8  評論-31  文章-0  trackbacks-0
      2008年7月10日
    我在Run Nutch的時候出現(xiàn)這樣的錯誤 -

    08/07/07 04:05:41 INFO conf.Configuration: found resource crawl-urlfilter.txt at file:/home/hut/installfiles/nutch-0.9/out/production/nutch-0.9/crawl-urlfilter.txt
    08/07/07 04:05:41 INFO conf.Configuration: found resource parse-plugins.xml at file:/home/hut/installfiles/nutch-0.9/out/production/nutch-0.9/parse-plugins.xml
    08/07/07 04:05:41 INFO fetcher.Fetcher: fetching http://www.yale.edu/
    08/07/07 04:05:41 INFO fetcher.Fetcher: fetching http://www.harvard.edu/
    08/07/07 04:05:41 INFO fetcher.Fetcher: fetch of http://www.harvard.edu/ failed with: org.apache.nutch.protocol.ProtocolNotFound: protocol not found for url=http
    08/07/07 04:05:41 INFO fetcher.Fetcher: fetch of http://www.yale.edu/ failed with: org.apache.nutch.protocol.ProtocolNotFound: protocol not found for url=http

    解決方法:nutch-site.xml
        <property>
            
    <name>plugin.includes</name>
            
    <value>
                nutch-extensionpoints|
    protocol-http|urlfilter-regex|parse-(text|html|js)|index-basic|query-(basic|site|url)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)
            
    </value>
            
    <description>Regular expression naming plugin directory names to
                include. Any plugin not matching 
    this expression is excluded.
                In any 
    case you need at least include the nutch-extensionpoints plugin. By
                
    default Nutch includes crawling just HTML and plain text via HTTP,
                and basic indexing and search plugins. In order to use HTTPS please enable
                protocol
    -httpclient, but be aware of possible intermittent problems with the
                underlying commons
    -httpclient library.
            
    </description>
        
    </property>

    nutch-extensionpoints|被我錯誤的刪除了,還原以后一切工作正常. 默認情況下nutch0.9的目錄結(jié)構(gòu)中并沒有plugin.includes這個properties, 它會載入nutch-default.xml里面的plugin.includes所以定義的所有的plugin. 在nutch-site.xml編輯/加入 plugin.includes properties的目的是為了加入我們自己的plugin而覆蓋nutch-default.xml定義的.
    posted @ 2008-07-10 11:38 自己的小屋 閱讀(2345) | 評論 (0)編輯 收藏
    Nutch0.9 Crawl在Run的時候,有時候會出現(xiàn) -


    java.lang.ArrayIndexOutOfBoundsException: -1

    at org.apache.lucene.index.MultiReader.isDeleted(MultiReader.java:
    113)

    at org.apache.nutch.indexer.DeleteDuplicates$InputFormat$DDRecordReader.next(DeleteDuplicates.java:
    176)

    at org.apache.hadoop.mapred.MapTask$
    1.next(MapTask.java:157)

    at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:
    46)

    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:
    175)

    at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:
    126)

    Exception in thread 
    "main" java.io.IOException: Job failed!

    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:
    604)

    at org.apache.nutch.indexer.DeleteDuplicates.dedup(DeleteDuplicates.java:
    439)

    at org.apache.nutch.crawl.Crawl.main(Crawl.java:
    135)

    問題的解決方法:

    https://issues.apache.org/jira/browse/NUTCH-525?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel#action_12515955



    posted @ 2008-07-10 11:32 自己的小屋 閱讀(621) | 評論 (0)編輯 收藏
    主站蜘蛛池模板: 亚洲av无码偷拍在线观看| 91丁香亚洲综合社区| 又粗又长又爽又长黄免费视频 | 国产精品亚洲高清一区二区| 亚洲AV日韩AV永久无码色欲| 在线中文高清资源免费观看| 亚洲成人激情小说| 成人免费视频国产| 美女羞羞免费视频网站| 五月天婷亚洲天综合网精品偷| 美女18毛片免费视频| 亚洲午夜无码AV毛片久久| 久久久久国色AV免费观看| 亚洲热妇无码AV在线播放| 玖玖在线免费视频| 亚洲第一页在线观看| 日韩不卡免费视频| 亚洲av日韩精品久久久久久a| 免费在线观看a级毛片| 国产三级在线免费观看| 亚洲成AV人片在WWW色猫咪| 亚欧在线精品免费观看一区| 亚洲AV无码无限在线观看不卡| 最新69国产成人精品免费视频动漫 | 成人免费区一区二区三区| 久久久无码精品亚洲日韩按摩| 91精品免费在线观看| 亚洲av永久中文无码精品| 亚洲日韩国产精品乱| 久久黄色免费网站| 亚洲中文字幕无码mv| 亚洲国产综合久久天堂| 久久久久久久99精品免费观看 | 久久精品蜜芽亚洲国产AV | 国产在线19禁免费观看| 中文字幕无线码中文字幕免费 | 亚洲AV色无码乱码在线观看| 亚洲精品午夜国产VA久久成人| 免费观看无遮挡www的视频| 美女啪啪网站又黄又免费| 亚洲AV日韩AV天堂久久|