<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    URL分別用三個List保存,
    一個是boring,這個list中的url最后來下載
    其他兩個是interesting和average
    當搜索到url時檢查是否包含設定為boring的詞,并放入boring中

    用戶可設定“深度搜索”:每搜到一個url就放在list的最前面
    也可廣度

    有些網頁鏈接要特殊處理:

    url = textReplace("?", URLEncoder.encode("?"), url);
    url = textReplace("&", URLEncoder.encode("&"), url);
    private String textReplace(String find, String replace, String input)
    {
        int startPos = 0;
         while(true)
        {
            int textPos = input.indexOf(find, startPos);
            if(textPos < 0)
            {
                break;
            }
            input = input.substring(0, textPos) + replace + input.substring(textPos + find.length());
            startPos = textPos + replace.length();
        }
        return input;
    }

    讀取資源代碼:

    BufferedInputStream remoteBIS = new BufferedInputStream(conn.getInputStream());
    ByteArrayOutputStream baos = new ByteArrayOutputStream(10240);
    byte[] buf = new byte[1024];
    int bytesRead = 0;
    while(bytesRead >= 0)
    {
        baos.write(buf, 0, bytesRead);
        bytesRead = remoteBIS.read(buf);
    }

    byte[] content = baos.toByteArray();


    建立多級目錄:

    File f = new File(fileName);
    f.getParentFile().mkdirs();
    FileOutputStream out = new FileOutputStream(fileName);
    out.write(content);
    out.flush();
    out.close();


    給一個變量寫doc:(在eclipse中,鼠標置上會顯示)

    /**
    * Set of URLs downloaded or scheduled, so we don't download a
    * URL more than once.
    * Thread safety: To access the set, first synchronize on it.
    */
    private Set urlsDownloadedOrScheduled;


    這種log挺好:(apache log4j)

    private final static Category _logClass = Category.getInstance(TextSpider.class);

    /*
    顯示信息: 2005-05-01 11:40:44,250 [main] INFO? TextSpider.java:105 - Starting Spider...
    */
    _logClass.info("Starting Spider...");



    版權所有 羅明
    posted on 2006-02-16 14:10 羅明 閱讀(614) 評論(0)  編輯  收藏 所屬分類: Java
     
    主站蜘蛛池模板: 污网站免费在线观看| 男人天堂2018亚洲男人天堂| 一级毛片人与动免费观看| 免费A级毛片无码久久版| 亚洲精品无码高潮喷水A片软| 黄色片在线免费观看| 亚洲精品V天堂中文字幕| 免费观看理论片毛片| 国产精品亚洲专区在线播放| 亚洲成?v人片天堂网无码| 一级毛片免费全部播放| 国产亚洲午夜高清国产拍精品 | 四虎成人精品一区二区免费网站 | 国产成人高清亚洲一区久久| 国产成人一区二区三区免费视频| 精品韩国亚洲av无码不卡区 | 国产在线观看免费视频播放器| 含羞草国产亚洲精品岁国产精品| 亚洲国产精品一区二区第一页免 | AAA日本高清在线播放免费观看| 亚洲AV日韩精品久久久久久久| 久久成人国产精品免费软件| 中文字幕亚洲精品无码| 婷婷综合缴情亚洲狠狠尤物| 两个人的视频www免费| 亚洲av不卡一区二区三区| 青草草色A免费观看在线| 亚洲AV无码成人精品区狼人影院 | 中文字幕日韩亚洲| 最近中文字幕无免费| 亚洲综合成人婷婷五月网址| www国产亚洲精品久久久日本| 日本免费在线中文字幕| 亚洲校园春色另类激情| www.亚洲精品.com| 久久精品人成免费| 黄色免费网站在线看| 色婷婷六月亚洲婷婷丁香| 精品免费国产一区二区三区| a级毛片无码免费真人久久| 色偷偷亚洲女人天堂观看欧|