<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    東北大學計算機應用技術研究所Web信息處理小組

    urrr... These guys do research ?!

    搭建基于Nutch1.0的搜索引擎說明文檔

     

    一、簡介

      Nutch是一個開源的Web搜索引擎。

           主要分為兩個部分:爬蟲crawler和查詢searcher,兩者之間的接口是索引。

     

    二、需要的軟件

    • JDK1.6

    • Tomcat6.0

    • cygwin

    • nutch1.0

    三、安裝與配置

    1. JDK

    • 下載地址:http://www.sun.com

    • 安裝目錄:C:\Java\jdk1.6.0_14

    • 修改環境變量:

    JAVA_HOME= C:\Java\jdk1.6.0_14

    CLASSPATH= C:\Java\jdk1.6.0_14\lib\dt.jar; C:\Java\jdk1.6.0_14\lib\tool.jar

    PATH= %JAVA_HOME%\bin

    • 測試:

    Java -version

    2. Tomcat6.0

    • 下載地址:

    http://tomcat.apache.org/download-60.cgi?Preferred=http%3A%2F%2Fapache.freelamp.com

    • 安裝目錄:C:\tomcat6

    • 安裝測試:

                  a)  啟動tomcat:在DOS下,cd C:\tomcat6\bin\startup.bat

                  b)  瀏覽器地址欄輸入:

               http://localhost:8080/

                     出現tomcat主頁則成功

        • 更改C:\tomcat6\conf \tomcat-users.xml內容

        <tomcat-users>

          <role rolename="manager"/>

          <user username="tomcat" password="tomcat" roles="manager"/>

        </tomcat-users>

        3. Cygwin

        • 下載地址:

        http://www.cygwin.cn/

        • 使用原因:

                   運行Nutch自帶的腳本命令需要Linux的環境,使用cygwin來模擬該環境。cygwin是在windows平臺上運行的unix模擬環境。

              • 安裝目錄:C:\cygwin

                             注意:在選擇下載站點需要輸入如下網址,并在最后選擇本地磁盤安裝:

                                    http://www.cygwin.cn/pub/

                • 測試:

                進入cygwin

                4. Nutch

                • 下載地址:

                http://www.apache.org/dyn/closer.cgi/lucene/nutch/

                • 版本:nutch-1.0

                • 解壓后到:C:\nutch-1.0

                • 設置Nutch的環境變量:

                NUTCH_JAVA_HOME= C:\Java\jdk1.6.0_14

                • 修改環境變量PATH :

                  PATH= %JAVA_HOME%\bin; % NUTCH_JAVA_HOME %\bin

                  • 在C:\nutch-1.0下建立url.txt文件來制定爬去列表

                        在txt文件中寫入需要爬取的網站地址http://dblp.lab/

                        • 測試:

                              開啟Cygwin

                            cd cygdriver/c/nutch-1.0

                            bin/nutch

                            若出現若干命令,則說明Nutch配置成功

                            四、抓取網頁數據

                            1. 指定爬蟲規則

                            • 修改Nutch-1.0/conf/crawl-urlfilter.txt

                            # accept hosts in MY.DOMAIN.NAME

                            +^http://dblp.lab/

                            • 修改Nutch-1.0/conf/nutch-site.xml

                            <configuration>

                              <property>

                              <name>http.agent.name</name>

                              <value>my nutch agent</value>

                              </property>

                              <property>

                              <name>http.agent.version</name>

                              <value>1.0</value>

                              </property>

                            </configuration>

                            2. 開始爬取

                            3. 打開Cygwin

                            4. 在命令行輸入

                            cd /cygdrive/c/nutch-1.0

                            5. 執行命令

                            Bin/nutch crawl url.txt -dir crawled -depth 3 - threads 4 >&crawl.log

                               其中:dir是指定爬取內容所存放的目錄,depth表示以要爬取網站頂級網址為起點的爬行深度,threads指定并發的線程數

                            6. 爬取中......(采集網頁并建立索引)

                            7. 結束后在Nutch目錄下產生爬取內容的文件夾crawled和日志文件夾logs

                            五、部署Web前端

                            1. 將nutch-1.0.war拷貝到webapps目錄下

                            2. 通過瀏覽器訪問如下網址,war包會自解壓

                            http://localhost:8080/nutch-1.0/

                            3. 修改nutch的web配置

                                   更改c:\tomcat6\webapps\nutch-1.0\WEB-INF\classes\nutch-site.xml ,將內容更改為索引生成的目錄

                            <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="nutch-conf.xsl"?>

                            <!-- Put site-specific property overrides in this file. -->

                            <nutch-conf>

                            <property>

                              <name>searcher.dir</name>

                              <value>C:\nutch-1.0\crawled</value>

                            </property>

                            </nutch-conf>

                            六、解決中文亂碼問題

                                     修改文件C:\tomcat6\conf\server.xml

                            <Connector port="8080" maxThreads="150" minSpareThreads="25"

                            maxSpareThreads="75" enableLookups="false" redirectPort="8443"

                            acceptCount="100" connectionTimeout="20000" disableUploadTimeout="true"

                            URIEncoding="UTF-8" useBodyEncodingForURI="true" protocol="HTTP/1.1" />

                             

                            七、搭建完成

                            1. 啟動Tomcat

                            2. 通過瀏覽器訪問

                            http://localhost:8080/nutch-1.0/

                            (by 王海明)

                            posted on 2009-06-04 11:21 wipt 閱讀(2863) 評論(8)  編輯  收藏

                            Feedback

                            # re: 搭建基于Nutch1.0的搜索引擎說明文檔 2009-09-25 12:00 sfd

                            LZ,你自己試過嗎?  回復  更多評論   

                            # re: 搭建基于Nutch1.0的搜索引擎說明文檔 2009-09-25 15:02 wipt

                            @sfd
                            經過測試,沒有問題。但是只能保證在特定的環境下沒有問題,不保證對應所有版本的操作系統,運行環境以及軟件下都沒有問題。  回復  更多評論   

                            # re: 搭建基于Nutch1.0的搜索引擎說明文檔 2009-11-03 14:52 方紅

                            nutch1.0 分布式爬行能在window xp 上運行嗎  回復  更多評論   

                            # re: 搭建基于Nutch1.0的搜索引擎說明文檔 2009-11-03 14:59 wipt

                            @方紅
                            我們的系統運行在windows server 2003上。在調試階段運行于windows xp下。但是不清楚您所說的分布式爬行是不是nutch的默認配置。  回復  更多評論   

                            # re: 搭建基于Nutch1.0的搜索引擎說明文檔 2010-02-10 09:36 優仁

                            設置Nutch的環境變量:

                            NUTCH_JAVA_HOME= C:\Java\jdk1.6.0_14

                            請問這個地方是不是寫錯了呢
                            是不是應該是:NUTCH_JAVA_HOME= C:\nutch-1.0  回復  更多評論   

                            # re: 搭建基于Nutch1.0的搜索引擎說明文檔[未登錄] 2010-11-23 22:44 老謝

                            環境:windows+cygwin(用于模擬unix系統)+nutch1.0

                            要用于生產環境。


                            當我抓取完網頁以后,啟動tomcat,輸入關鍵字搜索網頁后,那么我再次運行nutch抓取網頁的時候就會報錯!
                            當我把tomcat關閉以后抓取網頁就沒有任何問題。后來我仔細查了一下是因為tomcat啟動后占用了nutch的索引文件而沒有釋放資源造成的。 也就是說在tomcat啟動的時候,nutch是不能抓取網站合并索引的。

                            在生產環境下,要求每一個小時就要增量抓取一次,我總不能把tomcat關了吧。

                            在生產環境下,這個問題應該怎么解決呢?
                              回復  更多評論   

                            # re: 搭建基于Nutch1.0的搜索引擎說明文檔[未登錄] 2010-11-23 22:45 老謝

                            環境:windows+cygwin(用于模擬unix系統)+nutch1.0

                            要用于生產環境。


                            當我抓取完網頁以后,啟動tomcat,輸入關鍵字搜索網頁后,那么我再次運行nutch抓取網頁的時候就會報錯!
                            當我把tomcat關閉以后抓取網頁就沒有任何問題。后來我仔細查了一下是因為tomcat啟動后占用了nutch的索引文件而沒有釋放資源造成的。 也就是說在tomcat啟動的時候,nutch是不能抓取網站合并索引的。

                            在生產環境下,要求每一個小時就要增量抓取一次,我總不能把tomcat關了吧。
                            請回到我的郵箱里吧:xieyunchaobest@gmail.com

                            在生產環境下,這個問題應該怎么解決呢?
                              回復  更多評論   

                            # re: 搭建基于Nutch1.0的搜索引擎說明文檔[未登錄] 2010-11-23 22:48 wipt

                            @老謝

                            不好意思,負責這個部分的同學已經畢業了  回復  更多評論   


                            只有注冊用戶登錄后才能發表評論。


                            網站導航:
                             
                            主站蜘蛛池模板: 亚色九九九全国免费视频| 免费污视频在线观看| 一二三四免费观看在线视频中文版| 亚洲成Av人片乱码色午夜| 东北美女野外bbwbbw免费| 亚洲精品一品区二品区三品区| 羞羞视频免费观看| 国产av无码专区亚洲av果冻传媒| 2022国内精品免费福利视频| 亚洲午夜福利717| 免费无码又爽又刺激高潮视频| 亚洲一区二区三区日本久久九| 91免费国产自产地址入| 激情五月亚洲色图| 国产日产成人免费视频在线观看| 美女免费视频一区二区| 亚洲国产成人片在线观看无码| 久久精品一本到99热免费| 亚洲婷婷第一狠人综合精品| 妞干网手机免费视频| 美女视频黄频a免费| 亚洲日本va中文字幕久久| 美丽的姑娘免费观看在线播放| 亚洲人成77777在线观看网| 四虎影视免费在线| 在线视频网址免费播放| 亚洲激情中文字幕| 我想看一级毛片免费的| 一级特黄aaa大片免费看| 久久精品亚洲中文字幕无码麻豆| 成人免费午夜无码视频| 黄网站色视频免费观看45分钟| 亚洲AV无码成人精品区蜜桃 | 亚洲熟妇av午夜无码不卡| 成人免费毛片内射美女APP| 思思久久99热免费精品6| 久久亚洲精品无码VA大香大香| 成人免费无码精品国产电影| 中文字幕无码免费久久| 亚洲中文字幕无码mv| 亚洲精品你懂的在线观看|