国产亚洲美女精品久久久2020 ,亚洲一区二区三区国产精华液,亚洲精品国产精品乱码视色

倡導(dǎo)自由、開放、分享的Java技術(shù)社區(qū) http://www.javaread.com

HtmlCleaner,Html解析專家

通常互聯(lián)網(wǎng)上的HTML頁(yè)面都是不規(guī)則的，非結(jié)構(gòu)化的頁(yè)面。如果我們需要訪問(wèn)或者抽取里面的內(nèi)容的話，我們需要分析HTML頁(yè)面，去除垃圾。
而最近新發(fā)布的 HtmlCleaner 就是這樣一個(gè)工具. 能夠幫助我們將HTML 文檔轉(zhuǎn)化為結(jié)構(gòu)化的XML文檔。雖然目前已經(jīng)有了類似這樣的工具，但是HtmlCleaner 能夠完成幾乎所有的HTML轉(zhuǎn)換，而且不到30k，這是他們值得稱道的地方。

HtmlCleaner是一個(gè)開源的Html文檔解析器。HtmlCleaner能夠安全的解析和轉(zhuǎn)換web上的HTML到標(biāo)準(zhǔn)的XML，重新排序每個(gè)元素，然后生成結(jié)構(gòu)良好(Well-Formed)的XML文檔。默認(rèn)它遵循的規(guī)則是類似于大部份web瀏覽器為創(chuàng)文檔對(duì)象模型所使用的規(guī)則。然后，用戶可以提供自定義tag和規(guī)則組來(lái)進(jìn)行過(guò)濾和匹配。它被設(shè)計(jì)的小，快速，靈活而且獨(dú)立。HtmlCleaner也可用在Java代碼中，當(dāng)命令行工具或Ant任務(wù)。解析后編程輕量級(jí)文檔對(duì)象，能夠很容易的被轉(zhuǎn)換到DOM或者JDom標(biāo)準(zhǔn)文檔，或者通過(guò)各種方式(壓縮，打印)連續(xù)輸出XML。

新版本的重要功能更新包括：
1.HtmlCleaner的文檔對(duì)象模型現(xiàn)在擁有了一些函數(shù)，處理節(jié)點(diǎn)和屬性，所以現(xiàn)在在序列化之前搜索或者編輯是非常容易的。
2.提供基本HtmlCleaner DOM的XPath支持
3.使用XML配置溫江讓創(chuàng)建定制tag變得更加容易
4.修復(fù)多個(gè)bug以及API改進(jìn)

更多詳細(xì)信息：HTML Parser工具HtmlCleaner 2.0發(fā)布

本文作者：javaread.com

posted on 2008-07-17 10:06 javaread.com 閱讀(4116) 評(píng)論(6) 編輯收藏

評(píng)論

# re: HtmlCleaner,Html解析專家 2008-07-17 10:51 大水牛

昨天試了,感覺(jué)還不錯(cuò) 回復(fù) 更多評(píng)論

# re: HtmlCleaner,Html解析專家 2008-07-17 11:25 BeanSoft

呵呵就知道把鏈接都鏈到你的網(wǎng)站去變相廣告太多了就不太好了回復(fù) 更多評(píng)論

# re: HtmlCleaner,Html解析專家 2008-07-17 11:40 kenlee14

我可不管那么多，內(nèi)容對(duì)我有用就行了。以前都用htmlparser來(lái)解析網(wǎng)頁(yè)，試試這個(gè)東東看看再說(shuō)。
嘿嘿，不好再回來(lái)踩你。回復(fù) 更多評(píng)論

# re: HtmlCleaner,Html解析專家 2008-07-17 12:20 隔葉黃鶯

以前用 htmlparser 就是碰到大部分都是不規(guī)則的 html 代碼，有些沒(méi)轍，這下好了，來(lái)了個(gè)新的搭檔，估計(jì)那些問(wèn)題都好解決了，標(biāo)個(gè)記，以后需要用到時(shí)再回來(lái)。回復(fù) 更多評(píng)論

# re: HtmlCleaner,Html解析專家 2008-07-17 12:42 很暴力

建議你的javaread.com上面加個(gè)rss，東西不錯(cuò)，我想訂閱下，無(wú)奈找不到rss訂閱地址啊。回復(fù) 更多評(píng)論

# re: HtmlCleaner,Html解析專家[未登錄](méi) 2010-04-14 18:53 小毅

請(qǐng)問(wèn)htmlCleaner 可以模擬通過(guò)用戶名和密碼來(lái)登錄么？驗(yàn)證碼又怎么處理？回復(fù) 更多評(píng)論

新用戶注冊(cè) 刷新評(píng)論列表


只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問(wèn) 管理

# re: HtmlCleaner,Html解析專家 2008-07-17 10:51 大水牛

# re: HtmlCleaner,Html解析專家 2008-07-17 11:25 BeanSoft

# re: HtmlCleaner,Html解析專家 2008-07-17 11:40 kenlee14

# re: HtmlCleaner,Html解析專家 2008-07-17 12:20 隔葉黃鶯

# re: HtmlCleaner,Html解析專家 2008-07-17 12:42 很暴力

# re: HtmlCleaner,Html解析專家[未登錄](méi) 2010-04-14 18:53 小毅

我的蛋殼

HtmlCleaner,Html解析專家

評(píng)論

導(dǎo)航

統(tǒng)計(jì)

常用鏈接

留言簿(3)

隨筆檔案

Java

友情鏈接

搜索

最新評(píng)論

閱讀排行榜

評(píng)論排行榜