<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    posts - 33,  comments - 70,  trackbacks - 0
    HTMLParser 1.6

    /*
    html : html內(nèi)容
    identifier: 搜索標(biāo)識(shí)
    */

    private?Object[]?extractText(String?html,?String?identifier)
    ????????????
    throws?Exception?{
    ????????List
    <String>?resultTextList?=?new?ArrayList<String>();

    ????????Parser?parser?
    =?new?Parser();
    ????????parser.setInputHTML(html);

    ????????NodeFilter?filter?
    =?new?HasAttributeFilter("class",?identifier);
    ?/* NodeFilter?filter 就是要解析的過(guò)濾器,實(shí)現(xiàn)有好多種,我采用的屬性過(guò)濾,其他more api*/

    ????????NodeList?nodeList?
    =?parser.extractAllNodesThatMatch(filter);
    /* extractAllNodesThatAre(class)已經(jīng)不被推薦使用,在1.6版本中,我感到更加體形了靈活性.更好的適用了自定義的tag */
    ????????
    if?(nodeList?==?null)
    ????????????
    return?null;
    ????????
    if(nodeList.size()?==?0)
    ????????????
    return?null;

    ????????
    //?System.out.println("start?==============?,size?=?"
    ????????
    //?+?nodeList.size());
    ????????Node[]?nodes?=?nodeList.toNodeArray();
    ????????String?line?
    =?"";
    ????????
    for?(int?i?=?0;?i?<?nodes.length;?i++)?{
    ????????????Node?node?
    =?nodes[i];???/*得到所以符合的節(jié)點(diǎn),類型化做對(duì)應(yīng)的標(biāo)簽類*/
    ????????
    if?(node?instanceof?Span)?{
    ????????????????Span?spanTag?
    =?(Span)?node;
    ????????????????line?
    =?spanTag.toPlainTextString();
    ????????????}
    ?else?if?(node?instanceof?TableColumn)?{
    ????????????????TableColumn?tableTag?
    =?(TableColumn)?node;
    ????????????????line?
    =?tableTag.toPlainTextString();
    ????????????}
    ?else?if?(node?instanceof?Div)?{
    ????????????????Div?divTag?
    =?(Div)?node;
    ????????????????line?
    =?divTag.toPlainTextString();
    ????????????}

    ????????????
    if?(StringUtil.isTrimEmpty(line)){
    ????????????????
    continue;
    ????????????}
    else{
    ????????????????resultTextList.add(line);
    ????????????}

    ????????????
    ????????}

    ????????
    return?resultTextList.toArray();
    ????}


    StringUtil 常用類
    /**
    ?????*?去掉左右空格后字符串是否為空
    ?????
    */

    ????
    public?static?boolean?isTrimEmpty(String?astr)
    ????
    {
    ????????
    if?((null?==?astr)?||?(astr.length()?==?0))
    ????????
    {
    ????????????
    return?true;
    ????????}

    ????????
    if?(isBlank(astr.trim()))
    ????????
    {
    ????????????
    return?true;
    ????????}

    ????????
    return?false;
    ????}


    ????
    /**
    ?????*?字符串是否為空:null或者長(zhǎng)度為0.
    ?????
    */

    ????
    public?static?boolean?isBlank(String?astr)
    ????
    {
    ????????
    if?((null?==?astr)?||?(astr.length()?==?0))
    ????????
    {
    ????????????
    return?true;
    ????????}

    ????????
    else
    ????????
    {
    ????????????
    return?false;
    ????????}

    ????}

    FeedBack:
    # re: HTMLParser屬性解析
    2006-06-02 21:45 | libby
    想請(qǐng)教作者,可能是由于html的語(yǔ)法不規(guī)范所至,我用Htmlparser分析html文檔出現(xiàn)錯(cuò)誤,像普通的Html文檔其結(jié)束標(biāo)記如果存在重復(fù),一般不予理睬,可是在用Htmlparser其會(huì)進(jìn)行處理,往往會(huì)引起一些顯示問(wèn)題.
    我想利用htmlparser分析html頁(yè)面,生成一棵樹(shù),感覺(jué)不應(yīng)該出現(xiàn)的錯(cuò)誤卻出現(xiàn)了.
    作者可否跟俺取得聯(lián)系,我想同你討論一下.俺郵箱是:libby22@sohu.com或者M(jìn)SN:libby22@hotmail.com

    著急,謝謝!  回復(fù)  更多評(píng)論
      
    <2006年5月>
    30123456
    78910111213
    14151617181920
    21222324252627
    28293031123
    45678910

    常用鏈接

    隨筆分類

    隨筆檔案

    文章檔案

    相冊(cè)

    連接

    最新隨筆

    搜索

    •  

    最新評(píng)論

    閱讀排行榜

    評(píng)論排行榜

    主站蜘蛛池模板: 中国好声音第二季免费播放| 中文字幕亚洲一区| 成全视频高清免费观看电视剧| 亚洲色最新高清av网站| 亚洲韩国—中文字幕| 激情97综合亚洲色婷婷五| 国产特级淫片免费看| 国产在线观看片a免费观看| 久草免费福利视频| v片免费在线观看| 自拍偷自拍亚洲精品播放| 亚洲午夜电影在线观看高清| 亚洲福利视频一区| 亚洲香蕉成人AV网站在线观看| 亚洲成人高清在线| 尤物永久免费AV无码网站| 大地资源免费更新在线播放| 99re免费在线视频| 免费高清国产视频| a毛片在线免费观看| 中文字幕乱码系列免费| 一个人看www免费高清字幕| 无人视频在线观看免费播放影院| 亚洲日本一线产区和二线产区对比| 亚洲国产品综合人成综合网站| 亚洲在成人网在线看| 亚洲伊人久久大香线蕉苏妲己| 亚洲va久久久噜噜噜久久| 亚洲狠狠婷婷综合久久久久 | 亚洲一卡2卡3卡4卡乱码 在线| 亚洲精品国产免费| 亚洲第一页中文字幕| 亚洲春色在线观看| 亚洲国产高清在线精品一区 | 成人免费毛片内射美女-百度| 亚州免费一级毛片| 2020久久精品国产免费| 美女视频黄的全免费视频网站| 毛色毛片免费观看| 国产精品国产午夜免费福利看| 免费精品国产自产拍观看|