Posted on 2007-11-22 12:35
dennis 閱讀(1155)
評(píng)論(1) 編輯 收藏 所屬分類:
java 、
my open-source
客戶要求從Internet上的網(wǎng)頁上抽取一定的數(shù)據(jù),用來顯示或者其他用戶,這個(gè)需求很常見。這兩天我們也遇到了這個(gè)需求,本來我一開始想是試用正則表達(dá)式去匹配需要的文本數(shù)據(jù),后來經(jīng)驗(yàn)豐富的經(jīng)理給出了一個(gè)更好的思路,就是使用
jtidy將不符合xhtml的HTML文件轉(zhuǎn)化成標(biāo)準(zhǔn)的xhtml文件——本質(zhì)上就是XML文件,然后利用xsl抽取并轉(zhuǎn)換成我們所需要的數(shù)據(jù)的一定格式的xml文件。這樣做其實(shí)就是將XSL模板當(dāng)正則表達(dá)式來用,不過更清晰,當(dāng)網(wǎng)頁改變時(shí)也不需要重新編譯代碼,僅僅修改XSL模板就夠了。過程如下:
html->xhtml--xsl-->數(shù)據(jù)xml
做的過程中,初次使用了xsl,xpath等技術(shù),網(wǎng)上找了不少好資料,共享下:
jtidy:
思路來源
http://www.ibm.com/developerworks/cn/xml/x-wbdm/
項(xiàng)目地址
http://jtidy.sourceforge.net/
參考,解決中文問題使用
http://www.tkk7.com/jhengfei/archive/2006/03/25/37312.html
xsl,非常系統(tǒng)教程和實(shí)踐:
http://www.cnblogs.com/goody9807/category/36016.html
xpath:
http://www.yesky.com/201/171201.shtml