<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    泰仔在線

    java學習,心情日記,繽紛時刻
    posts - 100, comments - 34, trackbacks - 0, articles - 0

    Nutch中的一些小的問題解決

    Posted on 2010-04-23 17:36 泰仔在線 閱讀(433) 評論(0)  編輯  收藏 所屬分類: 云計算相關

    今天主要解決了Nutch中的一些小的問題,下面分別簡述一下。

    1.網頁快照亂碼問題

    Nutch的網頁快照是亂碼,解決辦法是修改tomcat/webapps/nutch目錄下的cached.jsp文件,修改其中的第63行。

    原來的代碼是:content = new String(bean.getContent(details);

    修改后的代碼是:content = new String(bean.getContent(details),"gb2312");

    2.搜索結果高亮顯示

    Nutch默認的搜索結果是沒有高亮的,解決辦法是在關鍵詞中加入html顏色標簽。

    將 org.apache.nutch.searcher.Summary 第107行 代碼 修改為:

    public String toString() {
        StringBuffer buffer = new StringBuffer();
        for (int i = 0; i < fragments.size(); i++) {
          buffer.append(fragments.get(i));
        }
        return "<span style='color:red'>" + buffer.toString()+ "</span>";
    }

    3.抓取頁面大小

    Nutch默認只抓取一個頁面的前65k的內容,在我抓取bbs的時候,會出現只能抓取前幾個回帖的內容,所以想抓取整個頁面的內容,就要解除65k的限制。解決方法是修改nutch/conf中的nutch-site.xml文件,在文件最后添加以下內容:

    <property>
    <name>http.content.limit</name>
    <value>-1</value>
    <description>The length limit for downloaded content, in bytes.
    If this value is nonnegative (>=0), content longer than it will be truncated;
    otherwise, no truncation at all.
    </description>
    </property>

    轉自:實習日記(五)
    主站蜘蛛池模板: 国产一级淫片免费播放| 1a级毛片免费观看| 国产中文字幕免费| 亚洲国产精品无码中文lv| 成年午夜视频免费观看视频| 亚洲人成影院在线高清| 美女被免费喷白浆视频| 亚洲fuli在线观看| 破了亲妺妺的处免费视频国产| 亚洲AV成人无码久久WWW| 国产成人免费高清在线观看| 女人裸身j部免费视频无遮挡| 亚洲国产成人影院播放| 两个人看的www免费高清| 好看的电影网站亚洲一区| 一级毛片全部免费播放| 国产精品亚洲自在线播放页码| 成人毛片18女人毛片免费96 | 日批日出水久久亚洲精品tv| 国产成人高清亚洲一区久久| 亚洲人成网站18禁止一区| 一级毛片在线免费观看| 亚洲国产精品综合久久2007| 国产精品自在自线免费观看| 一本久久免费视频| 亚洲精品高清视频| 夜夜嘿视频免费看| 哒哒哒免费视频观看在线www| 免费无毒a网站在线观看| 亚洲乱码中文字幕久久孕妇黑人| 999久久久免费精品播放| 自拍日韩亚洲一区在线| 亚洲午夜福利精品久久| 人妻无码久久一区二区三区免费| 亚洲1234区乱码| 久久精品国产亚洲Aⅴ香蕉| 免费精品国产自产拍在线观看 | 亚洲精品一卡2卡3卡四卡乱码| 日韩中文无码有码免费视频| 久久久精品视频免费观看 | 四虎免费影院ww4164h|