之前發布的Krabber已經可以抓取執行了Javascript之后的網頁。
比如新浪博客的評論,其內容是在網頁加載后通過JavaScript顯示出來的。這樣普通的抓取工具加不能得到評論信息。Krabber 0.0.0.2已經可以做到抓取一定會執行的JavaScript網頁,返回JavaScript執行之后的帶有所需要信息的網頁HTML。
現在的問題是,網頁上很多內容是需要用戶交互一下才能顯示出結果的。比如基于JavaScript的評論結果翻頁。直接使用Krabber 0.0.0.2只能得到第一頁的結果。要想看到后面的評論,必須點擊翻頁,等待JavaScript執行之后才能看到結果。因此,這一版本的主要目標是實現一個可以模擬用戶動作,觸發一些網頁上的事件,如點擊下一頁,之后抓取JavaScript的執行結果。
這一版本的Krabber 0.0.0.3 Preview已經實現了執行網頁上的AJAX腳本。Krabber 0.0.0.3 Pre通過提供一個腳本執行機制,允許信息抽取工具提供需要執行的內容,并交由Krabber進行執行,然后由Krabber返回執行之后的結果。
當然目前的Preview還不能返回執行后的信息,但是已經能夠展示執行AJAX的過程。大家感興趣的話可以看一下這個原型系統。
請使用OSS下載點下載:http://gforge.oss.org.cn/frs/?group_id=199
Krabber 0.0.0.3 Preview由pinlin:senior編寫,pinlin168@tom.com