<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    泰仔在線

    java學習,心情日記,繽紛時刻
    posts - 100, comments - 34, trackbacks - 0, articles - 0

    Nutch中的一些小的問題解決

    Posted on 2010-04-23 17:36 泰仔在線 閱讀(433) 評論(0)  編輯  收藏 所屬分類: 云計算相關

    今天主要解決了Nutch中的一些小的問題,下面分別簡述一下。

    1.網頁快照亂碼問題

    Nutch的網頁快照是亂碼,解決辦法是修改tomcat/webapps/nutch目錄下的cached.jsp文件,修改其中的第63行。

    原來的代碼是:content = new String(bean.getContent(details);

    修改后的代碼是:content = new String(bean.getContent(details),"gb2312");

    2.搜索結果高亮顯示

    Nutch默認的搜索結果是沒有高亮的,解決辦法是在關鍵詞中加入html顏色標簽。

    將 org.apache.nutch.searcher.Summary 第107行 代碼 修改為:

    public String toString() {
        StringBuffer buffer = new StringBuffer();
        for (int i = 0; i < fragments.size(); i++) {
          buffer.append(fragments.get(i));
        }
        return "<span style='color:red'>" + buffer.toString()+ "</span>";
    }

    3.抓取頁面大小

    Nutch默認只抓取一個頁面的前65k的內容,在我抓取bbs的時候,會出現只能抓取前幾個回帖的內容,所以想抓取整個頁面的內容,就要解除65k的限制。解決方法是修改nutch/conf中的nutch-site.xml文件,在文件最后添加以下內容:

    <property>
    <name>http.content.limit</name>
    <value>-1</value>
    <description>The length limit for downloaded content, in bytes.
    If this value is nonnegative (>=0), content longer than it will be truncated;
    otherwise, no truncation at all.
    </description>
    </property>

    轉自:實習日記(五)
    主站蜘蛛池模板: 免费大香伊蕉在人线国产| 6080午夜一级毛片免费看6080夜福利| 在线v片免费观看视频| 国产久爱免费精品视频| 免费视频精品一区二区三区 | 国产精品深夜福利免费观看| 国产成人精品日本亚洲专区61 | 国产一级特黄高清免费大片| 亚洲GV天堂GV无码男同| 久久精品免费电影| 亚洲国产精品嫩草影院在线观看| 国产日韩AV免费无码一区二区| 日韩精品成人无码专区免费| 亚洲videosbestsex日本| 在线观看av永久免费| 亚洲熟妇AV乱码在线观看| 国产自产拍精品视频免费看| 免费人成网站永久| 特级做A爰片毛片免费69| 亚洲国产精品无码久久98| 免费人成视频在线观看不卡| 成年免费a级毛片| 亚洲精品一品区二品区三品区| 国产午夜精品免费一区二区三区| 亚洲精品mv在线观看| 成年女人色毛片免费看| 亚洲男女一区二区三区| AV片在线观看免费| 成人a毛片视频免费看| 日韩亚洲人成在线综合日本| 青草草色A免费观看在线| 久久亚洲免费视频| 成年大片免费视频| 日本黄页网址在线看免费不卡| 亚洲精品二区国产综合野狼| 男女超爽刺激视频免费播放| 黄网站在线播放视频免费观看| 亚洲高清国产拍精品26U| 全免费a级毛片免费看无码| 亚洲一区二区久久| 亚洲精品成人网久久久久久|