<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    夢幻之旅

    DEBUG - 天道酬勤

       :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
      671 隨筆 :: 6 文章 :: 256 評論 :: 0 Trackbacks
    package com.roadway.test;

    import java.io.InputStream;
    import java.net.HttpURLConnection;
    import java.net.URL;
    import java.util.regex.Matcher;
    import java.util.regex.Pattern;

    public class TeskSRC {
        
    public String getHtmlCode(String httpUrl) {
            String htmlCode 
    = "";
            
    try {
                InputStream in;
                URL url 
    = new java.net.URL(httpUrl);
                HttpURLConnection connection 
    = (HttpURLConnection) url
                        .openConnection();
                connection 
    = (HttpURLConnection) url.openConnection();
                connection.setRequestProperty(
    "User-Agent""Mozilla/4.0");
                connection.connect();
                in 
    = connection.getInputStream();
                
    byte[] buffer = new byte[512];
                
    int length = -1;
                
    while((length = in.read(buffer,0,512)) != -1){
                    htmlCode 
    += new String(buffer,0,length);
                }
            } 
    catch (Exception e) {
            }
            
    if(htmlCode == null){
                
    return "";
            }
            
    return htmlCode;
        }
        
    public static void main(String[] args){
            TeskSRC ts 
    = new TeskSRC();
            String searchImgReg 
    = "(?x)(src|SRC|background|BACKGROUND)=('|\")(http://([\\w-]+\\.)+[\\w-]+(:[0-9]+)*(/[\\w-]+)*(/[\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")";
            String content = ts.getHtmlCode("http://www.163.com");
            Pattern pattern 
    = Pattern.compile(searchImgReg);
            Matcher matcher 
    = pattern.matcher(content);
            
    while(matcher.find()){
                System.out.println(matcher.group(
    3));
            }
            
    //searchImgReg  = "(?x)(src|SRC|background|BACKGROUND)=('|\")/?(([\\w-]+/)*([\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")";
        }
    }
    posted on 2008-04-30 10:58 HUIKK 閱讀(3513) 評論(3)  編輯  收藏 所屬分類: Regular Exp

    評論

    # re: 正則表達式 抓取網(wǎng)頁面上所有圖片 2008-10-24 10:33 HenryFour
    這個我以前實現(xiàn)過一個類似功能的, 不過是腳本(windows下用gnu win32)
    grep -o "images/.*\.\(\(jpg\)\|\(gif\)\)" a.css | xargs -n1 echo http://www.haoting.com | tr " " "/" > pic.txt
    wget -i pic.txt

    ps: 用 java 實現(xiàn)時, 如果用多線程能不能提高效率?
    我以前寫過一個下載一個網(wǎng)站的所有內容(就是給定一個 URI 下的所有子 URI 網(wǎng)頁和圖片等), 但是用多線程實現(xiàn)時發(fā)現(xiàn)在線程稍微多點-比如20個)時就會導致很多網(wǎng)頁下載到一般就沒了, 很郁悶啊  回復  更多評論
      

    # re: 正則表達式 抓取網(wǎng)頁面上所有圖片[未登錄] 2011-10-22 18:43 huang
    我愛你,lz,我寫了一晚上的正則表達式還沒你的好用。  回復  更多評論
      

    # re: 正則表達式 抓取網(wǎng)頁面上所有圖片 2013-11-28 15:07 find you!
    贊!!!!  回復  更多評論
      


    只有注冊用戶登錄后才能發(fā)表評論。


    網(wǎng)站導航:
     
    主站蜘蛛池模板: 又粗又硬免费毛片| 亚洲男人电影天堂| 亚洲va无码专区国产乱码| 久久精品国产精品亚洲艾| 亚洲最新黄色网址| 久久无码av亚洲精品色午夜| 老司机福利在线免费观看| 青青草原1769久久免费播放| 在线成人爽a毛片免费软件| 在线免费观看韩国a视频| 亚洲欧洲中文日韩av乱码| 78成人精品电影在线播放日韩精品电影一区亚洲 | 免费观看四虎精品成人| 中文在线观看永久免费| 最新仑乱免费视频| 亚洲成A人片在线观看无码不卡 | 亚洲一卡2卡三卡4卡无卡下载| 羞羞视频网站免费入口| 国产成人精品免费视频动漫| 国产精品亚洲高清一区二区| 亚洲乱人伦精品图片| 韩日电影在线播放免费版| 天天看片天天爽_免费播放| 亚洲国产精品一区| 美女被cao网站免费看在线看| 欧洲精品免费一区二区三区| 亚洲国产美女福利直播秀一区二区| 美女的胸又黄又www网站免费| 亚洲高清中文字幕免费| 亚洲欧洲日韩不卡| 老汉精品免费AV在线播放| 亚洲一区视频在线播放 | 亚洲欧洲尹人香蕉综合| 免费无码成人AV在线播放不卡| 国产成人精品日本亚洲专区61| WWW国产亚洲精品久久麻豆| 免费观看理论片毛片| 亚洲精品女同中文字幕| 男人的天堂亚洲一区二区三区| 亚洲狠狠狠一区二区三区| ww在线观视频免费观看|