Heritrix應用問題
請教一下大家如何用heritrix抓取以下網站內容,需要定制么?
下面是USPTO的專利網頁:
http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.htm&r=0&f=S&l=50&d=PTXT&OS=+%28battery+OR+motor%29+AND+automobile&RS=%28%28battery+OR+motor%29+AND+automobile%29&Query=+%28battery+OR+motor%29+AND+automobile&TD=45309&Srch1=%28%28battery+OR+motor%29+AND+automobile%29&NextList1=Next+50+Hits
其中NextList1表示第一個50條信息的頁面,NextList2,NextList3,以此類推,在這些頁面中點擊每條超鏈接得到的是針對此條專利
信息的具體頁面,那么現在我如何設置heritrix,可以抓取到每頁50條,一共幾萬條的這些具體專利信息頁面到本地呢?另外可否抓取的同時將html
格式轉換偽txt格式到本地?謝謝高手指點!
歡迎交流:
qq: 173635235
msn: bisal1130@yahoo.com.cn
email: bill1130@gmail.com