很久以前寫過一篇文章
利用htmlparser抓取網頁內容(一),很多人都提問他的詳細使用,其實我也只是入門嘗試,如果想深入使用,還是建議看官方文檔或者測試用例。不過最近剛好有個朋友想再次解析第三方網頁內容,來查看交通違章信息。無意中發現一個比htmlparser更好用的html解析工具jsoup。最人性化的地方是,它支持類jquery語法,對,你沒看錯,是jquery選擇器語法。下載地址:
http://jsoup.org/
詳細使用文檔,這個地址應該說的很清楚了:
http://baike.baidu.com/view/4066913.htm使用非常簡單,示例如下(是讀取山西交通違章信息):
1 import java.util.HashMap;
2 import java.util.Map;
3
4 import org.jsoup.Jsoup;
5 import org.jsoup.nodes.Document;
6 import org.jsoup.select.Elements;
7 /**
8 *
9 * @author Rocky
10 *
11 */
12 public class spider {
13 private static final String POSTURL="http://59.49.18.116:8008/sxwwpt_wai/inquire/illegalAction!carInquire.action";
14 private void spiderData() throws Exception{
15 Map<String,String> req=new HashMap<String,String>();
16 req.put("authCode", "");
17 req.put("csjcKey","110000");
18 req.put("hpzl", "02");
19 req.put("vioViolation.hphm", "xxx");//您的車牌號
20 req.put("type","1");
21 req.put("pagination.currentPage", "1");
22 req.put("pagination.pageSize", "5");
23
24 Document doc=Jsoup.connect(POSTURL).data(req).get();
25 Elements newsHeadlines=doc.select(".if_tr td");
26 System.out.println(newsHeadlines.text());
27 }
28 /**
29 * @param args
30 * @throws Exception
31 */
32 public static void main(String[] args) throws Exception {
33
34 spider spider=new spider();
35 spider.spiderData();
36 }
37
38 }
posted on 2013-08-07 13:25
老妖 閱讀(5891)
評論(4) 編輯 收藏 所屬分類:
java心得