<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    我的蛋殼

    倡導(dǎo)自由、開放、分享的Java技術(shù)社區(qū) http://www.javaread.com

     

    HtmlCleaner,Html解析專家


    通常互聯(lián)網(wǎng)上的HTML頁(yè)面都是不規(guī)則的,非結(jié)構(gòu)化的頁(yè)面。如果我們需要訪問(wèn)或者抽取里面的內(nèi)容的話,我們需要分析HTML頁(yè)面,去除垃圾。
    而最近新發(fā)布的 HtmlCleaner 就是這樣一個(gè)工具. 能夠幫助我們將HTML 文檔 轉(zhuǎn)化為結(jié)構(gòu)化的XML文檔。雖然目前已經(jīng)有了類似這樣的工具,但是HtmlCleaner 能夠完成幾乎所有的HTML轉(zhuǎn)換,而且不到30k,這是他們值得稱道的地方。

    HtmlCleaner是一個(gè)開源的Html文檔解析器。HtmlCleaner能夠安全的解析和轉(zhuǎn)換web上的HTML到標(biāo)準(zhǔn)的XML,重新排序每個(gè)元素,然后生成結(jié)構(gòu)良好(Well-Formed)XML文檔。默認(rèn)它遵循的規(guī)則是類似于大部份web瀏覽器為創(chuàng)文檔對(duì)象模型所使用的規(guī)則。然后,用戶可以提供自定義tag和規(guī)則組來(lái)進(jìn)行過(guò)濾和匹配。它被設(shè)計(jì)的小,快速,靈活而且獨(dú)立。HtmlCleaner也可用在Java代碼中,當(dāng)命令行工具或Ant任務(wù)。 解析后編程輕量級(jí)文檔對(duì)象,能夠很容易的被轉(zhuǎn)換到DOM或者JDom標(biāo)準(zhǔn)文檔,或者通過(guò)各種方式(壓縮,打印)連續(xù)輸出XML

    新版本的重要功能更新包括:
    1.HtmlCleaner的文檔對(duì)象模型現(xiàn)在擁有了一些函數(shù),處理節(jié)點(diǎn)和屬性,所以現(xiàn)在在序列化之前搜索或者編輯是非常容易的。
    2.提供基本HtmlCleaner DOMXPath支持
    3.使用XML配置溫江讓創(chuàng)建定制tag變得更加容易
    4.修復(fù)多個(gè)bug以及API改進(jìn)

    更多詳細(xì)信息:HTML Parser工具HtmlCleaner 2.0發(fā)布



    本文作者:javaread.com

    posted on 2008-07-17 10:06 javaread.com 閱讀(4116) 評(píng)論(6)  編輯  收藏

    評(píng)論

    # re: HtmlCleaner,Html解析專家 2008-07-17 10:51 大水牛

    昨天試了,感覺(jué)還不錯(cuò)  回復(fù)  更多評(píng)論   

    # re: HtmlCleaner,Html解析專家 2008-07-17 11:25 BeanSoft

    呵呵 就知道把鏈接都鏈到你的網(wǎng)站去 變相廣告太多了就不太好了  回復(fù)  更多評(píng)論   

    # re: HtmlCleaner,Html解析專家 2008-07-17 11:40 kenlee14

    我可不管那么多,內(nèi)容對(duì)我有用就行了。以前都用htmlparser來(lái)解析網(wǎng)頁(yè),試試這個(gè)東東看看再說(shuō)。
    嘿嘿,不好再回來(lái)踩你。  回復(fù)  更多評(píng)論   

    # re: HtmlCleaner,Html解析專家 2008-07-17 12:20 隔葉黃鶯

    以前用 htmlparser 就是碰到大部分都是不規(guī)則的 html 代碼,有些沒(méi)轍,這下好了,來(lái)了個(gè)新的搭檔,估計(jì)那些問(wèn)題都好解決了,標(biāo)個(gè)記,以后需要用到時(shí)再回來(lái)。  回復(fù)  更多評(píng)論   

    # re: HtmlCleaner,Html解析專家 2008-07-17 12:42 很暴力

    建議你的javaread.com上面加個(gè)rss,東西不錯(cuò),我想訂閱下,無(wú)奈找不到rss訂閱地址啊。  回復(fù)  更多評(píng)論   

    # re: HtmlCleaner,Html解析專家[未登錄](méi) 2010-04-14 18:53 小毅

    請(qǐng)問(wèn)htmlCleaner 可以模擬 通過(guò)用戶名和密碼來(lái)登錄么?驗(yàn)證碼又怎么處理?  回復(fù)  更多評(píng)論   


    只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。


    網(wǎng)站導(dǎo)航:
     

    導(dǎo)航

    統(tǒng)計(jì)

    常用鏈接

    留言簿(3)

    隨筆檔案

    Java

    友情鏈接

    搜索

    最新評(píng)論

    閱讀排行榜

    評(píng)論排行榜

    主站蜘蛛池模板: 久久精品视频免费播放| 永久免费精品影视网站| 大学生一级毛片免费看| 亚洲人成日本在线观看| 亚洲精品无码你懂的网站| 亚洲日韩激情无码一区| 中文字幕在线视频免费| 国产亚洲精品无码成人| 特级精品毛片免费观看| 精品日韩亚洲AV无码| 美丽的姑娘免费观看在线播放| 亚洲精品综合久久中文字幕| 99在线精品免费视频九九视| 亚洲中文字幕精品久久| 亚洲国产精品成人AV无码久久综合影院 | 国产亚洲人成网站在线观看不卡| 国产免费区在线观看十分钟| 成人免费一级毛片在线播放视频 | 久久久国产精品亚洲一区| 222www免费视频| 亚洲男同gay片| 亚洲国产精品无码久久九九| baoyu122.永久免费视频| 亚洲综合无码一区二区| 免费网站看v片在线香蕉| 一级毛片免费不卡| 成在人线AV无码免费| 猫咪免费观看人成网站在线| 亚洲区小说区图片区QVOD| 99精品热线在线观看免费视频| 亚洲mv国产精品mv日本mv| 又黄又爽的视频免费看| 亚洲人成网站免费播放| 亚洲日韩中文字幕日韩在线| 免费精品99久久国产综合精品| 亚洲日本人成中文字幕| 免费在线观看h片| 阿v免费在线观看| 亚洲欧洲日韩国产综合在线二区| 在线v片免费观看视频| 一个人免费观看视频在线中文|