<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    莊周夢蝶

    生活、程序、未來
       :: 首頁 ::  ::  :: 聚合  :: 管理

    抽取網頁數據的不同思路

    Posted on 2007-11-22 12:35 dennis 閱讀(1155) 評論(1)  編輯  收藏 所屬分類: java 、my open-source
        客戶要求從Internet上的網頁上抽取一定的數據,用來顯示或者其他用戶,這個需求很常見。這兩天我們也遇到了這個需求,本來我一開始想是試用正則表達式去匹配需要的文本數據,后來經驗豐富的經理給出了一個更好的思路,就是使用jtidy將不符合xhtml的HTML文件轉化成標準的xhtml文件——本質上就是XML文件,然后利用xsl抽取并轉換成我們所需要的數據的一定格式的xml文件。這樣做其實就是將XSL模板當正則表達式來用,不過更清晰,當網頁改變時也不需要重新編譯代碼,僅僅修改XSL模板就夠了。過程如下:
         html->xhtml--xsl-->數據xml

        做的過程中,初次使用了xsl,xpath等技術,網上找了不少好資料,共享下:
    jtidy: 

    思路來源
    http://www.ibm.com/developerworks/cn/xml/x-wbdm/

    項目地址
    http://jtidy.sourceforge.net/

    參考,解決中文問題使用
    http://www.tkk7.com/jhengfei/archive/2006/03/25/37312.html

    xsl,非常系統教程和實踐:

    http://www.cnblogs.com/goody9807/category/36016.html

    xpath:

    http://www.yesky.com/201/171201.shtml



    評論

    # re: 抽取網頁數據的不同思路  回復  更多評論   

    2009-08-29 16:45 by Fuller
    在我的gooseeker網站上有關于使用XSLT抽取網頁內容的很多資料,我開發的網頁抓取/數據抽取軟件工具包MetaSeeker就是在客戶端用XSLT抽取網頁內容的,軟件可下載
    主站蜘蛛池模板: 日本亚洲免费无线码| 亚洲午夜在线电影| 色吊丝免费观看网站| 日本一区二区三区日本免费| 亚洲综合校园春色| 无码日韩精品一区二区免费| 亚洲人成电影网站久久| 精品久久洲久久久久护士免费 | 国产免费怕怕免费视频观看| 亚洲中文字幕无码一去台湾| 久久青草免费91观看| 水蜜桃亚洲一二三四在线| 91精品导航在线网址免费| 91亚洲一区二区在线观看不卡| 亚洲一区二区三区亚瑟 | 免费福利资源站在线视频| 午夜免费福利在线观看| 亚洲AV无码国产一区二区三区| 在线观看免费黄色网址| 国产午夜亚洲精品国产成人小说| 亚洲av无码久久忘忧草| 免费看美女被靠到爽| 一进一出60分钟免费视频| 亚洲欧洲中文日韩久久AV乱码| 亚洲国产成a人v在线| 大学生a级毛片免费观看| 黄网站色成年片大免费高清| 久久精品亚洲男人的天堂| 日本免费高清视频| 亚洲 欧洲 视频 伦小说| yy6080久久亚洲精品| 久久国产精品免费视频| 亚洲精品午夜国产va久久| 亚洲国产成人爱av在线播放| 午夜视频免费在线观看| 亚洲无人区码一二三码区别图片| 97久久免费视频| 黄色免费网址在线观看| 亚洲av无码一区二区乱子伦as| 一进一出60分钟免费视频| 亚洲国产精品乱码在线观看97|