<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    夢幻之旅

    DEBUG - 天道酬勤

       :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
      671 隨筆 :: 6 文章 :: 256 評論 :: 0 Trackbacks
    package com.roadway.test;

    import java.io.InputStream;
    import java.net.HttpURLConnection;
    import java.net.URL;
    import java.util.regex.Matcher;
    import java.util.regex.Pattern;

    public class TeskSRC {
        
    public String getHtmlCode(String httpUrl) {
            String htmlCode 
    = "";
            
    try {
                InputStream in;
                URL url 
    = new java.net.URL(httpUrl);
                HttpURLConnection connection 
    = (HttpURLConnection) url
                        .openConnection();
                connection 
    = (HttpURLConnection) url.openConnection();
                connection.setRequestProperty(
    "User-Agent""Mozilla/4.0");
                connection.connect();
                in 
    = connection.getInputStream();
                
    byte[] buffer = new byte[512];
                
    int length = -1;
                
    while((length = in.read(buffer,0,512)) != -1){
                    htmlCode 
    += new String(buffer,0,length);
                }
            } 
    catch (Exception e) {
            }
            
    if(htmlCode == null){
                
    return "";
            }
            
    return htmlCode;
        }
        
    public static void main(String[] args){
            TeskSRC ts 
    = new TeskSRC();
            String searchImgReg 
    = "(?x)(src|SRC|background|BACKGROUND)=('|\")(http://([\\w-]+\\.)+[\\w-]+(:[0-9]+)*(/[\\w-]+)*(/[\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")";
            String content = ts.getHtmlCode("http://www.163.com");
            Pattern pattern 
    = Pattern.compile(searchImgReg);
            Matcher matcher 
    = pattern.matcher(content);
            
    while(matcher.find()){
                System.out.println(matcher.group(
    3));
            }
            
    //searchImgReg  = "(?x)(src|SRC|background|BACKGROUND)=('|\")/?(([\\w-]+/)*([\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")";
        }
    }
    posted on 2008-04-30 10:58 HUIKK 閱讀(3513) 評論(3)  編輯  收藏 所屬分類: Regular Exp

    評論

    # re: 正則表達式 抓取網頁面上所有圖片 2008-10-24 10:33 HenryFour
    這個我以前實現過一個類似功能的, 不過是腳本(windows下用gnu win32)
    grep -o "images/.*\.\(\(jpg\)\|\(gif\)\)" a.css | xargs -n1 echo http://www.haoting.com | tr " " "/" > pic.txt
    wget -i pic.txt

    ps: 用 java 實現時, 如果用多線程能不能提高效率?
    我以前寫過一個下載一個網站的所有內容(就是給定一個 URI 下的所有子 URI 網頁和圖片等), 但是用多線程實現時發現在線程稍微多點-比如20個)時就會導致很多網頁下載到一般就沒了, 很郁悶啊  回復  更多評論
      

    # re: 正則表達式 抓取網頁面上所有圖片[未登錄] 2011-10-22 18:43 huang
    我愛你,lz,我寫了一晚上的正則表達式還沒你的好用。  回復  更多評論
      

    # re: 正則表達式 抓取網頁面上所有圖片 2013-11-28 15:07 find you!
    贊!!!!  回復  更多評論
      


    只有注冊用戶登錄后才能發表評論。


    網站導航:
     
    主站蜘蛛池模板: 亚洲日本va在线观看| 亚洲第一成年网站视频| 91视频国产免费| 在线播放亚洲精品| 亚洲av中文无码乱人伦在线播放| 午夜理伦剧场免费| 久久久久久亚洲精品无码| 亚洲成在人线av| 日本一道一区二区免费看| 无码国产精品一区二区免费模式 | 亚洲综合一区二区| 国产成人免费福利网站| 久久99热精品免费观看牛牛| jiz zz在亚洲| 亚洲国产综合91精品麻豆| 国产精品免费看久久久无码| 免费无码一区二区三区| 羞羞漫画在线成人漫画阅读免费| 亚洲国产美国国产综合一区二区| 女人与禽交视频免费看| 久久免费看少妇高潮V片特黄| 日韩欧美亚洲国产精品字幕久久久| 亚洲av日韩综合一区在线观看| 国产v片免费播放| 97人妻无码一区二区精品免费| www.xxxx.com日本免费| 亚洲欧美熟妇综合久久久久| 亚洲电影免费在线观看| 亚洲真人日本在线| 日日夜夜精品免费视频| 国产麻豆视频免费观看| 一个人免费日韩不卡视频| 人妻18毛片a级毛片免费看| 亚洲乱亚洲乱妇24p| 亚洲福利视频一区二区三区| 亚洲精品字幕在线观看| 亚洲国产精品人人做人人爽| 色吊丝最新永久免费观看网站| 国产成人精品免费视频动漫| 暖暖在线视频免费视频| 亚洲精品久久无码|