<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    東北大學計算機應用技術(shù)研究所Web信息處理小組

    urrr... These guys do research ?!

    2009年6月4日 #

    搭建基于Nutch1.0的搜索引擎說明文檔

     

    一、簡介

      Nutch是一個開源的Web搜索引擎。

           主要分為兩個部分:爬蟲crawler和查詢searcher,兩者之間的接口是索引。

     

    二、需要的軟件

    • JDK1.6

    • Tomcat6.0

    • cygwin

    • nutch1.0

    三、安裝與配置

    1. JDK

    • 下載地址:http://www.sun.com

    • 安裝目錄:C:\Java\jdk1.6.0_14

    • 修改環(huán)境變量:

    JAVA_HOME= C:\Java\jdk1.6.0_14

    CLASSPATH= C:\Java\jdk1.6.0_14\lib\dt.jar; C:\Java\jdk1.6.0_14\lib\tool.jar

    PATH= %JAVA_HOME%\bin

    • 測試:

    Java -version

    2. Tomcat6.0

    • 下載地址:

    http://tomcat.apache.org/download-60.cgi?Preferred=http%3A%2F%2Fapache.freelamp.com

    • 安裝目錄:C:\tomcat6

    • 安裝測試:

                  a)  啟動tomcat:在DOS下,cd C:\tomcat6\bin\startup.bat

                  b)  瀏覽器地址欄輸入:

               http://localhost:8080/

                     出現(xiàn)tomcat主頁則成功

        • 更改C:\tomcat6\conf \tomcat-users.xml內(nèi)容

        <tomcat-users>

          <role rolename="manager"/>

          <user username="tomcat" password="tomcat" roles="manager"/>

        </tomcat-users>

        3. Cygwin

        • 下載地址:

        http://www.cygwin.cn/

        • 使用原因:

                   運行Nutch自帶的腳本命令需要Linux的環(huán)境,使用cygwin來模擬該環(huán)境。cygwin是在windows平臺上運行的unix模擬環(huán)境。

              • 安裝目錄:C:\cygwin

                             注意:在選擇下載站點需要輸入如下網(wǎng)址,并在最后選擇本地磁盤安裝:

                                    http://www.cygwin.cn/pub/

                • 測試:

                進入cygwin

                4. Nutch

                • 下載地址:

                http://www.apache.org/dyn/closer.cgi/lucene/nutch/

                • 版本:nutch-1.0

                • 解壓后到:C:\nutch-1.0

                • 設(shè)置Nutch的環(huán)境變量:

                NUTCH_JAVA_HOME= C:\Java\jdk1.6.0_14

                • 修改環(huán)境變量PATH :

                  PATH= %JAVA_HOME%\bin; % NUTCH_JAVA_HOME %\bin

                  • 在C:\nutch-1.0下建立url.txt文件來制定爬去列表

                        在txt文件中寫入需要爬取的網(wǎng)站地址http://dblp.lab/

                        • 測試:

                              開啟Cygwin

                            cd cygdriver/c/nutch-1.0

                            bin/nutch

                            若出現(xiàn)若干命令,則說明Nutch配置成功

                            四、抓取網(wǎng)頁數(shù)據(jù)

                            1. 指定爬蟲規(guī)則

                            • 修改Nutch-1.0/conf/crawl-urlfilter.txt

                            # accept hosts in MY.DOMAIN.NAME

                            +^http://dblp.lab/

                            • 修改Nutch-1.0/conf/nutch-site.xml

                            <configuration>

                              <property>

                              <name>http.agent.name</name>

                              <value>my nutch agent</value>

                              </property>

                              <property>

                              <name>http.agent.version</name>

                              <value>1.0</value>

                              </property>

                            </configuration>

                            2. 開始爬取

                            3. 打開Cygwin

                            4. 在命令行輸入

                            cd /cygdrive/c/nutch-1.0

                            5. 執(zhí)行命令

                            Bin/nutch crawl url.txt -dir crawled -depth 3 - threads 4 >&crawl.log

                               其中:dir是指定爬取內(nèi)容所存放的目錄,depth表示以要爬取網(wǎng)站頂級網(wǎng)址為起點的爬行深度,threads指定并發(fā)的線程數(shù)

                            6. 爬取中......(采集網(wǎng)頁并建立索引)

                            7. 結(jié)束后在Nutch目錄下產(chǎn)生爬取內(nèi)容的文件夾crawled和日志文件夾logs

                            五、部署Web前端

                            1. 將nutch-1.0.war拷貝到webapps目錄下

                            2. 通過瀏覽器訪問如下網(wǎng)址,war包會自解壓

                            http://localhost:8080/nutch-1.0/

                            3. 修改nutch的web配置

                                   更改c:\tomcat6\webapps\nutch-1.0\WEB-INF\classes\nutch-site.xml ,將內(nèi)容更改為索引生成的目錄

                            <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="nutch-conf.xsl"?>

                            <!-- Put site-specific property overrides in this file. -->

                            <nutch-conf>

                            <property>

                              <name>searcher.dir</name>

                              <value>C:\nutch-1.0\crawled</value>

                            </property>

                            </nutch-conf>

                            六、解決中文亂碼問題

                                     修改文件C:\tomcat6\conf\server.xml

                            <Connector port="8080" maxThreads="150" minSpareThreads="25"

                            maxSpareThreads="75" enableLookups="false" redirectPort="8443"

                            acceptCount="100" connectionTimeout="20000" disableUploadTimeout="true"

                            URIEncoding="UTF-8" useBodyEncodingForURI="true" protocol="HTTP/1.1" />

                             

                            七、搭建完成

                            1. 啟動Tomcat

                            2. 通過瀏覽器訪問

                            http://localhost:8080/nutch-1.0/

                            (by 王海明)

                            posted @ 2009-06-04 11:21 wipt 閱讀(2864) | 評論 (8)編輯 收藏

                            2009年5月11日 #

                            搜狗拼音輸入法研究

                            輸入法是基于詞庫的,詞庫中除了詞條信息意外還有詞頻(也是最重要的了),詞頻表達用戶使用詞條概率,所以以概率解決問題較多。不管是包含多少種詞庫,詞頻信息必不可少,盡管有時還要對詞頻進行加權(quán)處理,如用戶詞庫的詞頻肯定不會像系統(tǒng)詞庫的詞頻那么高,將二者進行排序時不能直接利用現(xiàn)有詞頻,要加權(quán)處理。尤其在智能組詞那塊,要形成短語,短句,就要找到頻率最大的組句路徑,會有計算公式。

                            將用戶需求進行分解:盡量覆蓋用戶的詞匯當然是好,但是隨之會產(chǎn)生問題,詞庫的臃腫化和計算的代價加大,就要剔除掉不必要的詞條信息了,可我們怎么知道哪些才是用戶需要的呢,通過獲取用戶輸入環(huán)境找到符合用戶需求的最小詞匯,才是王道。這樣詞庫構(gòu)成基本分為系統(tǒng)共有詞庫+輔助詞庫,布局合理,其中后者是動態(tài)加載和更新的,很智能化。

                            個性化:提高用戶體驗離不開個性化,適合大家的有可能適合自己,適合自己的不一定適合大家,個體之間存在差異,捕捉用戶的使用習慣,找到個性部分很重要,用戶詞庫,個性詞等技術(shù)基本解決部分問題。引用原文的話:“記錄用戶輸入的字詞,學習某個用戶適用的詞匯;通過一段時間地不斷學習,將詞庫逐漸收斂到某個用戶輸入的最佳狀態(tài),從而形成用戶詞庫。通過動態(tài)調(diào)頻,使其逐漸適應該用戶,當用戶是唯一時,很好地提升效率”,很到位。

                            策略問題:如搜狗輸入法有很多用戶,利用用戶的信息,反過來又回饋給用戶,這樣反復過程,最終要達到一個收斂平衡的狀態(tài)。

                            資源的重要性:搜狗寶貴的東西是語料庫,各種想法實施的先決條件。

                            詳細的PPT在:http://d.onto.ac.cn/wipt/sogou.zip(教育網(wǎng)服務器)

                            (by 韓艷景)

                            posted @ 2009-05-11 08:42 wipt 閱讀(1866) | 評論 (2)編輯 收藏

                            僅列出標題  
                            主站蜘蛛池模板: 精品无码免费专区毛片| 无码 免费 国产在线观看91| 亚洲精品成人无限看| 亚洲精品高清国产一线久久| 亚洲精品国产成人99久久| 亚洲精品第五页中文字幕| 波多野结衣亚洲一级| 国产一区二区免费在线| 怡红院免费的全部视频| 日韩精品无码一区二区三区免费| 成人免费a级毛片| 妞干网免费观看视频| 97在线观看永久免费视频| 国产精品美女久久久免费| 亚洲欧洲久久精品| 亚洲国产成人久久三区| 中文字幕无码精品亚洲资源网久久| 羞羞视频网站免费入口| 久久国产乱子伦免费精品| 亚洲av中文无码| 亚洲人成电影在线观看青青| 成人免费ā片在线观看| 国产精品色午夜免费视频| 亚洲理论在线观看| 九九久久国产精品免费热6| 亚洲AV女人18毛片水真多| 国产成人人综合亚洲欧美丁香花 | 高清国语自产拍免费视频国产| 一级毛片人与动免费观看| 亚洲一级毛片中文字幕| 亚洲五月综合缴情在线观看| 无码专区—VA亚洲V天堂| 亚洲人成电影在线观看青青| 亚洲第一区二区快射影院| 亚洲精品GV天堂无码男同| 久久午夜无码免费| 99久久免费观看| 国产精品永久免费视频| 99久久久国产精品免费牛牛| 成人无码精品1区2区3区免费看| 99re6在线视频精品免费|