
通常互聯(lián)網(wǎng)上的HTML頁(yè)面都是不規(guī)則的,非結(jié)構(gòu)化的頁(yè)面。如果我們需要訪問(wèn)或者抽取里面的內(nèi)容的話,我們需要分析HTML頁(yè)面,去除垃圾。
而最近新發(fā)布的 HtmlCleaner 就是這樣一個(gè)工具. 能夠幫助我們將HTML 文檔 轉(zhuǎn)化為結(jié)構(gòu)化的XML文檔。雖然目前已經(jīng)有了類似這樣的工具,但是HtmlCleaner 能夠完成幾乎所有的HTML轉(zhuǎn)換,而且不到30k,這是他們值得稱道的地方。
HtmlCleaner是一個(gè)開源的Html文檔解析器。HtmlCleaner能夠安全的解析和轉(zhuǎn)換web上的HTML到標(biāo)準(zhǔn)的XML,重新排序每個(gè)元素,然后生成結(jié)構(gòu)良好(Well-Formed)的XML文檔。默認(rèn)它遵循的規(guī)則是類似于大部份web瀏覽器為創(chuàng)文檔對(duì)象模型所使用的規(guī)則。然后,用戶可以提供自定義tag和規(guī)則組來(lái)進(jìn)行過(guò)濾和匹配。它被設(shè)計(jì)的小,快速,靈活而且獨(dú)立。HtmlCleaner也可用在Java代碼中,當(dāng)命令行工具或Ant任務(wù)。 解析后編程輕量級(jí)文檔對(duì)象,能夠很容易的被轉(zhuǎn)換到DOM或者JDom標(biāo)準(zhǔn)文檔,或者通過(guò)各種方式(壓縮,打印)連續(xù)輸出XML。
新版本的重要功能更新包括:
1.HtmlCleaner的文檔對(duì)象模型現(xiàn)在擁有了一些函數(shù),處理節(jié)點(diǎn)和屬性,所以現(xiàn)在在序列化之前搜索或者編輯是非常容易的。
2.提供基本HtmlCleaner DOM的XPath支持
3.使用XML配置溫江讓創(chuàng)建定制tag變得更加容易
4.修復(fù)多個(gè)bug以及API改進(jìn)
更多詳細(xì)信息:HTML Parser工具HtmlCleaner 2.0發(fā)布
本文作者:javaread.com