
通常互聯網上的HTML頁面都是不規則的,非結構化的頁面。如果我們需要訪問或者抽取里面的內容的話,我們需要分析HTML頁面,去除垃圾。
而最近新發布的 HtmlCleaner 就是這樣一個工具. 能夠幫助我們將HTML 文檔 轉化為結構化的XML文檔。雖然目前已經有了類似這樣的工具,但是HtmlCleaner 能夠完成幾乎所有的HTML轉換,而且不到30k,這是他們值得稱道的地方。
HtmlCleaner是一個開源的Html文檔解析器。HtmlCleaner能夠安全的解析和轉換web上的HTML到標準的XML,重新排序每個元素,然后生成結構良好(Well-Formed)的XML文檔。默認它遵循的規則是類似于大部份web瀏覽器為創文檔對象模型所使用的規則。然后,用戶可以提供自定義tag和規則組來進行過濾和匹配。它被設計的小,快速,靈活而且獨立。HtmlCleaner也可用在Java代碼中,當命令行工具或Ant任務。 解析后編程輕量級文檔對象,能夠很容易的被轉換到DOM或者JDom標準文檔,或者通過各種方式(壓縮,打印)連續輸出XML。
新版本的重要功能更新包括:
1.HtmlCleaner的文檔對象模型現在擁有了一些函數,處理節點和屬性,所以現在在序列化之前搜索或者編輯是非常容易的。
2.提供基本HtmlCleaner DOM的XPath支持
3.使用XML配置溫江讓創建定制tag變得更加容易
4.修復多個bug以及API改進
更多詳細信息:HTML Parser工具HtmlCleaner 2.0發布
本文作者:javaread.com