發現一個很不錯的模擬瀏覽器包htmlunit,它可以直接執行訪問網站地址,并執行相應的JavaScript腳本;這個功能對于網站爬蟲有很大的幫助,一些網站使用了ajax,如果使用簡單的http訪問只能抓到原始的html源碼,但對于頁面內執行的ajax卻無法獲取;使用這個包后,可以將執行ajax后的html源碼一并抓取下來。
網站地址:http://htmlunit.sourceforge.net/
該站點下邊還提到了幾個相類似的包:HtmlUnit is used as the underlying "browser" by different Open Source tools like
Canoo WebTest,
JWebUnit,
WebDriver,
JSFUnit,
Celerity, ...
canoo WebTest 看了一下,沒太明白是怎么用的,沒想太深入了解
jwebunit 是用來做網站測試用的,它整合了JUnit,htmlunit,selenium 包框架;其主要功能是用做白盒測試和壓力測試。
webDriver 后來改名為selenium,它整合了htmlunit,火狐瀏覽器,IE瀏覽器,opare瀏覽器驅動。如果使用htmlunitDriver,則是使用htmlunit包來訪問站點;如果使用FirefoxDriver則會直接將Firefox瀏覽器調出來,然后在瀏覽器上模擬輸入文字和其他鼠標鍵盤事件。
htmlunit包訪問網站后,獲取到html源碼后可以對源碼進行修改;而jwebunit,selenium則暫時沒有發現修改的功能,只是用來做模擬用戶操作的功能。
posted on 2012-01-12 14:11
SIMONE 閱讀(12612)
評論(2) 編輯 收藏 所屬分類:
JAVA