<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    老妖的博客
    現實的中沒有幾個人能夠真為對方去死,甚至山盟海誓很快就會在金錢面前變的微不足道,這才是生活。沒有永遠的愛,除了你的父母對你,當然也就沒有永遠的恨,更沒有永遠的痛,時間是最好的治療大師,它會很快撫平你心靈上累累的傷痕。很多年以后你想起來時,那些在你生命中洶涌來往的人群至多是個模糊的影子或者毫無意義的名字
    posts - 105,  comments - 171,  trackbacks - 0
    import org.htmlparser.Node;
    import org.htmlparser.NodeFilter;
    import org.htmlparser.Parser;
    import org.htmlparser.filters.TagNameFilter;
    import org.htmlparser.tags.TableTag;
    import org.htmlparser.util.NodeList;

    /**
     * <br>
     * 標題: <br>
     * 功能概要: <br>
     * 版權: cityyouth.cn (c) 2005 <br>
     * 公司:上海城市青年網 <br>
     * 創建時間:2005-12-21 <br>
     * 修改時間: <br>
     * 修改原因:
     * 
     * 
    @author 張偉
     * 
    @version 1.0
     
    */
    public class TestYahoo {
        
    public static void testHtml() {
            
    try {
                String sCurrentLine;
                String sTotalString;
                sCurrentLine 
    = "";
                sTotalString 
    = "";
                java.io.InputStream l_urlStream;
                java.net.URL l_url 
    = new java.net.URL(
                        
    "http://sports.sina.com.cn/iframe/nba/live/");
                java.net.HttpURLConnection l_connection 
    = (java.net.HttpURLConnection) l_url
                        .openConnection();
                l_connection.connect();
                l_urlStream 
    = l_connection.getInputStream();
                java.io.BufferedReader l_reader 
    = new java.io.BufferedReader(
                        
    new java.io.InputStreamReader(l_urlStream));
                
    while ((sCurrentLine = l_reader.readLine()) != null) {
                    sTotalString 
    += sCurrentLine;
                }
                System.out.println(sTotalString);

                System.out.println(
    "====================");
                String testText 
    = extractText(sTotalString);
                System.out.println(testText);
            } 
    catch (Exception e) {
                e.printStackTrace();
            }

        }

        
    /**
         * 抽取純文本信息
         * 
         * 
    @param inputHtml
         * 
    @return
         
    */
        
    public static String extractText(String inputHtml) throws Exception {
            StringBuffer text 
    = new StringBuffer();

            Parser parser 
    = Parser.createParser(new String(inputHtml.getBytes(),
                    
    "8859_1"), "8859-1");
            
    // 遍歷所有的節點
            NodeList nodes = parser.extractAllNodesThatMatch(new NodeFilter() {
                
    public boolean accept(Node node) {
                    
    return true;
                }
            });
            Node node 
    = nodes.elementAt(0);
            text.append(
    new String(node.toPlainTextString().getBytes("8859_1")));
            
    return text.toString();
        }

        
    /**
         * 讀取文件的方式來分析內容. filePath也可以是一個Url.
         * 
         * 
    @param resource
         *            文件/Url
         
    */
        
    public static void test5(String resource) throws Exception {
            Parser myParser 
    = new Parser(resource);

            
    // 設置編碼
            myParser.setEncoding("GBK");
            String filterStr 
    = "table";
            NodeFilter filter 
    = new TagNameFilter(filterStr);
            NodeList nodeList 
    = myParser.extractAllNodesThatMatch(filter);
            TableTag tabletag 
    = (TableTag) nodeList.elementAt(11);
                
                System.out.println(tabletag.toHtml());
                
                System.out.println(
    "==============");

        }

        
    /*
         * public static void main(String[] args) { TestYahoo testYahoo = new
         * TestYahoo(); testYahoo.testHtml(); }
         
    */
        
    public static void main(String[] args) throws Exception {
            test5(
    "http://sports.yahoo.com/nba/scoreboard");
        }
    }
    posted on 2005-12-21 22:35 老妖 閱讀(24408) 評論(30)  編輯  收藏 所屬分類: java心得

    FeedBack:
    # re: 利用htmlparser抓取網頁內容(一)
    2005-12-23 09:05 | 1
    1  回復  更多評論
      
    # re: 利用htmlparser抓取網頁內容(一)
    2005-12-24 12:04 | 111
    好文,繼續貫注,快發(二)吧.  回復  更多評論
      
    # re: 利用htmlparser抓取網頁內容(一)
    2006-05-18 17:16 | 第六世紀
    <link href='/c06/css.css' text='text/css' rel='stylesheet' />

    如何解析出/c06/css.css 呢?

    htmlparser不識別link 和script標簽  回復  更多評論
      
    # re: 利用htmlparser抓取網頁內容(一)
    2006-06-06 20:58 | xvg
    can I make friends with you  回復  更多評論
      
    # re: 利用htmlparser抓取網頁內容(一)
    2006-06-06 20:59 | xvg
    my msn: thron_xv@msn.com
    QQ: 59346219  回復  更多評論
      
    # re: 利用htmlparser抓取網頁內容(一)
    2006-07-04 17:50 | 斯瓦伊安
    Proxy要怎麼設 連線無法連出  回復  更多評論
      
    # re: 利用htmlparser抓取網頁內容(一)
    2006-07-20 16:06 | 斯瓦伊安
    ConnectionManager cm = new ConnectionManager();
    cm.setProxyHost("XXX.XXX.XXX.XXX");
    cm.setProxyPort(8080);
      回復  更多評論
      
    # re: 利用htmlparser抓取網頁內容(一)
    2006-09-05 10:08 | max
    htmlparser可以抓取動態生成的鏈接么?比如由表單所臨時返回的響應等。  回復  更多評論
      
    # re: 利用htmlparser抓取網頁內容(一)
    2006-11-28 14:24 | LeVaN
    # re: 利用htmlparser抓取網頁內容(一)
    2007-01-24 11:18 | hunhun
    你們這些人真無聊,就不回自己寫點東西 。就知道弄別人的東西轉載
    百度一搜全一樣 都來自一個地方 。  回復  更多評論
      
    # re: 利用htmlparser抓取網頁內容(一)
    2007-05-09 22:59 | 監聽器
    誰規定不能轉的?  回復  更多評論
      
    # re: 利用htmlparser抓取網頁內容(一)
    2007-08-25 16:12 | 內容被禁止顯示
    頂一個,不錯  回復  更多評論
      
    # re: 利用htmlparser抓取網頁內容(一)
    2007-08-25 16:13 | 監聽器
    不錯不錯  回復  更多評論
      
    # re: 利用htmlparser抓取網頁內容(一)
    2007-09-19 14:19 | 新開征途私服
    轉載文章可以讓更多的人看到  回復  更多評論
      
    # re: 利用htmlparser抓取網頁內容(一)
    2007-09-19 14:19 | 征途私服
    轉載無罪,有罪的是剽竊和抄襲的  回復  更多評論
      
    # re: 利用htmlparser抓取網頁內容(一)
    2007-11-05 13:51 | 內容被禁止顯示
    好東西  回復  更多評論
      
    # re: 利用htmlparser抓取網頁內容(一)
    2007-11-05 13:52 | 監聽器
    恩好  回復  更多評論
      
    # re: 利用htmlparser抓取網頁內容(一)
    # re: 利用htmlparser抓取網頁內容(一)
    # re: 利用htmlparser抓取網頁內容(一)
    2007-11-29 16:34 | 11xp
    gdfgdfgdfgdfg  回復  更多評論
      
    # re: 利用htmlparser抓取網頁內容(一)
    2007-11-30 09:52 | 11sss
    vzxcvxc  回復  更多評論
      
    # re: 利用htmlparser抓取網頁內容(一)
    2007-11-30 09:53 | 44xp
    fzsdvcxzv  回復  更多評論
      
    # re: 利用htmlparser抓取網頁內容(一)
    2007-12-25 13:48 | gengqian
    qianqian1216@gmail.com
    我想學學給我發一個完整的小例子好嗎,謝了老兄  回復  更多評論
      
    # re: 利用htmlparser抓取網頁內容(一)[未登錄]
    2008-01-22 17:28 | hehe
    詳細點好嗎  回復  更多評論
      
    # re: 利用htmlparser抓取網頁內容(一)
    2008-01-28 18:21 | tarzan
    能詳細點就更好了  回復  更多評論
      
    # re: 利用htmlparser抓取網頁內容(一)
    2008-02-21 10:06 | zhade
    寫的真好!  回復  更多評論
      
    # re: 利用htmlparser抓取網頁內容(一)
    2008-03-11 15:14 | link
    # re: 利用htmlparser抓取網頁內容(一)
    2009-06-16 12:57 | springbird
    高手你好,可否發一個用htmlparser解析網頁的小例子,要求提取網頁內的標題,作者,正文,提取的網頁是純文本的,謝謝,我的郵箱是springbird2006@126.com  回復  更多評論
      
    # re: 利用htmlparser抓取網頁內容(一)[未登錄]
    2009-10-09 14:09 | 三少
    http://www.gbsou.com
    可以交換鏈接不 兄弟 我也是做j2ee的  回復  更多評論
      
    # re: 利用htmlparser抓取網頁內容(一)
    2012-01-04 17:02 | S771880049
    都一樣  回復  更多評論
      

    <2005年12月>
    27282930123
    45678910
    11121314151617
    18192021222324
    25262728293031
    1234567

    常用鏈接

    隨筆分類(48)

    隨筆檔案(104)

    好友鏈接

    我的豆瓣

    積分與排名

    • 積分 - 220798
    • 排名 - 257

    最新評論

    閱讀排行榜

    主站蜘蛛池模板: 亚洲av无码一区二区三区天堂| 亚洲乱码在线卡一卡二卡新区| 羞羞视频免费网站含羞草| 日韩免费一级毛片| 亚洲成在人线在线播放无码| 成人一a毛片免费视频| 最新亚洲春色Av无码专区| 成人人观看的免费毛片| 美女被爆羞羞网站在免费观看| 免费在线观看的黄色网址| 一二三区免费视频| 亚洲日本va在线视频观看| 久久成人免费大片| 亚洲一区在线观看视频| 四虎成人免费影院网址| 国产综合成人亚洲区| 伊人久久精品亚洲午夜| 8888四色奇米在线观看免费看| 亚洲情A成黄在线观看动漫软件| 大陆一级毛片免费视频观看i| 免费国产高清毛不卡片基地| 亚洲一区爱区精品无码| 最近中文字幕mv免费高清在线 | 免费涩涩在线视频网| 国产成人亚洲综合无| 国产成人亚洲精品狼色在线| 久久青草免费91观看| 色天使亚洲综合在线观看| 亚洲国产成人精品久久久国产成人一区二区三区综 | 亚洲精品成人片在线播放| 99热这里只有精品6免费| 亚洲色偷偷色噜噜狠狠99| 亚洲男人在线无码视频| 日韩内射激情视频在线播放免费| 2020亚洲男人天堂精品| 亚洲人成无码www久久久| 免费国产黄网站在线观看可以下载 | 亚洲一区中文字幕在线电影网| 国产禁女女网站免费看| 日韩中文字幕免费视频| 国产精品亚洲片在线花蝴蝶|