在线亚洲v日韩v,亚洲av专区无码观看精品天堂,亚洲一区二区精品视频

抽取網頁數據的不同思路

Posted on 2007-11-22 12:35 dennis 閱讀(1155) 評論(1) 編輯收藏所屬分類: java 、my open-source

    客戶要求從Internet上的網頁上抽取一定的數據，用來顯示或者其他用戶，這個需求很常見。這兩天我們也遇到了這個需求，本來我一開始想是試用正則表達式去匹配需要的文本數據，后來經驗豐富的經理給出了一個更好的思路，就是使用jtidy將不符合xhtml的HTML文件轉化成標準的xhtml文件——本質上就是XML文件，然后利用xsl抽取并轉換成我們所需要的數據的一定格式的xml文件。這樣做其實就是將XSL模板當正則表達式來用，不過更清晰，當網頁改變時也不需要重新編譯代碼，僅僅修改XSL模板就夠了。過程如下：
     html->xhtml--xsl-->數據xml

    做的過程中，初次使用了xsl,xpath等技術，網上找了不少好資料，共享下：
jtidy:

思路來源
http://www.ibm.com/developerworks/cn/xml/x-wbdm/

項目地址
http://jtidy.sourceforge.net/

參考，解決中文問題使用
http://www.tkk7.com/jhengfei/archive/2006/03/25/37312.html

xsl,非常系統教程和實踐:

http://www.cnblogs.com/goody9807/category/36016.html

xpath:

http://www.yesky.com/201/171201.shtml

# re: 抽取網頁數據的不同思路 回復 更多評論

2009-08-29 16:45 by Fuller

在我的gooseeker網站上有關于使用XSLT抽取網頁內容的很多資料，我開發的網頁抓取/數據抽取軟件工具包MetaSeeker就是在客戶端用XSLT抽取網頁內容的，軟件可下載

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: 分布式消息中間件Metaq發布1.4.2 Java程序員常用工具集淘寶開源metaq的python客戶端 xmemcached發布1.3.6 淘寶開源MQ——metamorphosis的github分支 storm常見問題解答 Storm源碼淺析之topology的提交 Yahoo! s4和Twitter storm的粗略比較緊急發布xmemcached 1.3.5 UniqTask for android