<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    URL分別用三個(gè)List保存,
    一個(gè)是boring,這個(gè)list中的url最后來下載
    其他兩個(gè)是interesting和average
    當(dāng)搜索到url時(shí)檢查是否包含設(shè)定為boring的詞,并放入boring中

    用戶可設(shè)定“深度搜索”:每搜到一個(gè)url就放在list的最前面
    也可廣度

    有些網(wǎng)頁鏈接要特殊處理:

    url = textReplace("?", URLEncoder.encode("?"), url);
    url = textReplace("&", URLEncoder.encode("&"), url);
    private String textReplace(String find, String replace, String input)
    {
        int startPos = 0;
         while(true)
        {
            int textPos = input.indexOf(find, startPos);
            if(textPos < 0)
            {
                break;
            }
            input = input.substring(0, textPos) + replace + input.substring(textPos + find.length());
            startPos = textPos + replace.length();
        }
        return input;
    }

    讀取資源代碼:

    BufferedInputStream remoteBIS = new BufferedInputStream(conn.getInputStream());
    ByteArrayOutputStream baos = new ByteArrayOutputStream(10240);
    byte[] buf = new byte[1024];
    int bytesRead = 0;
    while(bytesRead >= 0)
    {
        baos.write(buf, 0, bytesRead);
        bytesRead = remoteBIS.read(buf);
    }

    byte[] content = baos.toByteArray();


    建立多級目錄:

    File f = new File(fileName);
    f.getParentFile().mkdirs();
    FileOutputStream out = new FileOutputStream(fileName);
    out.write(content);
    out.flush();
    out.close();


    給一個(gè)變量寫doc:(在eclipse中,鼠標(biāo)置上會(huì)顯示)

    /**
    * Set of URLs downloaded or scheduled, so we don't download a
    * URL more than once.
    * Thread safety: To access the set, first synchronize on it.
    */
    private Set urlsDownloadedOrScheduled;


    這種log挺好:(apache log4j)

    private final static Category _logClass = Category.getInstance(TextSpider.class);

    /*
    顯示信息: 2005-05-01 11:40:44,250 [main] INFO? TextSpider.java:105 - Starting Spider...
    */
    _logClass.info("Starting Spider...");



    版權(quán)所有 羅明
    posted on 2006-02-16 14:10 羅明 閱讀(620) 評論(0)  編輯  收藏 所屬分類: Java
     
    主站蜘蛛池模板: 日本一区二区免费看| 亚洲AV无码国产精品永久一区| 一边摸一边桶一边脱免费视频| 四虎www成人影院免费观看| 亚洲国产午夜电影在线入口| 久久国产免费一区二区三区| 亚洲成a人片在线观看无码专区| 国产va免费精品| 亚洲毛片αv无线播放一区| 亚洲免费在线观看| 亚洲精品无码你懂的网站| 日韩一级片免费观看| 在线观看亚洲天天一三视| 免费人成激情视频在线观看冫| 亚洲高清国产拍精品26U| 久久爰www免费人成| 亚洲精品在线电影| 特级做A爰片毛片免费69| 亚洲第一男人天堂| 国产jizzjizz视频免费看| 免费视频成人国产精品网站| 亚洲一级特黄无码片| 久久久久久免费一区二区三区| 亚洲福利在线视频| 99在线视频免费观看视频| 亚洲AV永久无码精品网站在线观看 | 全免费a级毛片免费看不卡| 亚洲精品动漫免费二区| 亚洲国产91精品无码专区| 国产在线精品一区免费香蕉| 久久精品国产亚洲| 美女视频黄免费亚洲| 亚洲AV成人无码网站| 中文字幕在线亚洲精品| 日韩免费无码一区二区三区 | 免费观看成人毛片a片2008| 亚洲aⅴ天堂av天堂无码麻豆| 亚洲午夜福利精品无码| 久久午夜羞羞影院免费观看| 欧洲 亚洲 国产图片综合| 亚洲黄片毛片在线观看|