<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    Java學(xué)習(xí)

    java,spring,structs,hibernate,jsf,ireport,jfreechart,jasperreport,tomcat,jboss -----本博客已經(jīng)搬家了,新的地址是 http://www.javaly.cn 如果有對文章有任何疑問或者有任何不懂的地方,歡迎到www.javaly.cn (Java樂園)指出,我會盡力幫助解決。一起進步

     

    Java實現(xiàn)利用搜索引擎收集網(wǎng)址的程序

    我這里講的不是怎么使用搜索引擎,而是怎么讓程序利用搜索引擎來搜集網(wǎng)址,這有什么用?很有用!網(wǎng)上動輒有人叫賣網(wǎng)址數(shù) 據(jù)庫,如發(fā)布軟件網(wǎng)址、郵件地址、論壇網(wǎng)址、行業(yè)網(wǎng)址,這些網(wǎng)址是怎么來的呢?不可能是人手工收集而來的,都是讓程序利用搜索引擎取到的,如果您需要某類 網(wǎng)址信息數(shù)據(jù),就跟我來一起研究一下,非常簡單。 

    本文采用Java語言寫成,以google和百度搜索引擎為對象。 

    我們要利用google、百度搜索引擎的搜索規(guī)則中的兩條,關(guān)鍵字搜索和inurl搜索。什么是inurl搜索,就是你所要搜索的網(wǎng)址中本身帶有的關(guān) 鍵字,比如http://www.xxx.com/post.asp ,這個網(wǎng)址就含有post.asp這樣的關(guān)鍵字,在搜索引擎中填寫規(guī)則 是 inurl:post.asp,這是收集網(wǎng)址的關(guān)鍵,因為很多網(wǎng)址本身會帶有特定的信息,比如軟件發(fā)布的網(wǎng)頁網(wǎng)址信息中多含有 publish、 submit、tuijian這樣的信息,如http://www.xxx.com/publish.asp,這樣的網(wǎng)址多是發(fā)布信息的網(wǎng)頁,在結(jié)合網(wǎng)頁 中本身可能含有的關(guān)鍵字,就可以用搜索引擎搜索出結(jié)果,然后我們利用程序?qū)⒔Y(jié)果取回,對HTML頁面進行分析,去除沒有用的信息,將有用的網(wǎng)址信息寫入文 件或者數(shù)據(jù)庫,就可以給其它應(yīng)用程序或者人來使用了。 

    第一步,用程序?qū)⑺阉鹘Y(jié)果取回,先以百度為例,比如我們要搜索軟件發(fā)布的網(wǎng)頁,關(guān)鍵字采用 “軟件發(fā)布 版 本 inurl:publish.asp",先登錄百度看看,將關(guān)鍵字寫入,然后提交,在地址欄就會看到 http://www.baidu.com /s?ie=gb2312&bs=%C8%ED%BC%FE%B7%A2%B2%BC+%C8%ED%BC%FE%B0%E6%B1 %BE+inurl%3Apublish.asp&sr=&z=&cl=3&f=8&wd=%C8%ED%BC %FE%B7%A2%B2%BC+%B0%E6%B1%BE+inurl%3Apublish.asp&ct=0 ,中文關(guān)鍵字全都變成編碼了, 沒有關(guān)系,我們在程序中直接用中文也是可以的,其中多個關(guān)鍵字用+號相連,去掉一些沒有用的信息,我們可以把地址優(yōu)化 成 http://www.baidu.com/s?lm=0&si=&rn=20&ie=gb2312&ct=0& amp; wd=軟件發(fā)布+版本+inurl%3Apublish%2Easp&pn=0&cl=0,其中rn表示一頁顯示多少個結(jié) 果,wd=表示你要搜索的關(guān)鍵字,pn表示從第幾條開始顯示,這個pn將是我們程序循環(huán)取結(jié)果的變量,每20條循環(huán)一次。我們用Java寫的程序來模擬這 個搜索的過程,用到的關(guān)鍵類為 java.net.HttpURLConnection,java.net.URL,先寫一個提交搜索的class,關(guān)鍵 代碼如下: 

    class Search 

    public URL url; 
    public HttpURLConnection http; 
    public java.io.InputStream urlstream; 
    ...... 
    for(int i=0;i++;i <100) 

    ...... 
    try { 
    url = new URL("www.baidu.com/s?lm=0&si=&rn=20&ie=gb2312& amp;ct=0& wd=軟件發(fā)布+版本+inurl%3Apublish%2Easp&pn="+beginrecord+"& amp;cl=0"); 
    }catch(Exception ef){}; 
    try { 
    http = (HttpURLConnection) url.openConnection(); 
    http.connect(); 
    urlstream = http.getInputStream(); 
    }catch(Exception ef){}; 
    java.io.BufferedReader l_reader = new java.io. 
    BufferedReader(new java.io.InputStreamReader(urlstream)); 
    try { 
    while ((currentLine = l_reader.readLine()) != null) { 
    totalstring += currentLine; 

    } catch (IOException ex3) {} 
    .... 
    //本次搜索的結(jié)果已經(jīng)放到totalstring中了,是一些HTML代碼,需要下一步進行分析了。 

    再以google為例,稍微有些不同,google對瀏覽器進行了一些檢測,編碼也不同,URL為http: //www.google.com /search?q=軟件發(fā)布+版本+inurl:publish.asp&hl=zh-CN&lr= & newwindow=1&start=0&sa=N&ie=UTF-8,其中編碼要用ie=UTF-8,start表示從第幾條 記錄顯示,需要注意的是google對瀏覽器還要檢查,如果瀏覽器不符合它的要求,將返回錯誤代碼,所以在模擬瀏覽器提交中,我們要多加一行代碼,修改關(guān) 鍵部分要將http屬性中的User-Agent設(shè)置為常用的瀏覽器,比如Mozilla/4.0,代碼如下: 

    try { 
    http = (HttpURLConnection) url.openConnection(); 
    http.setRequestProperty("User-Agent", "Mozilla/4.0"); 
    http.connect(); 
    urlstream = http.getInputStream(); 
    }catch(Exception ef){}; 

    第二步,對取回的HTML編碼進行分析,取出其中的有用網(wǎng)址信息,并寫入文件或者數(shù)據(jù)庫,由于這些搜索引擎都有網(wǎng)頁快照和相似網(wǎng)頁等網(wǎng)址信息混雜在 HTML中,我們要將這些網(wǎng)址信息剔除掉,剔除的關(guān)鍵就是找出其中的規(guī)律,百度搜索引擎中的網(wǎng)頁快照和其它沒有用的的地址都含有baidu這個關(guān)鍵字,而 google中含有的無用網(wǎng)址信息含有關(guān)鍵字 google和cache,我們就根據(jù)這些關(guān)鍵字剔除無用網(wǎng)址信息。在Java中要對字符串進行分析必然要 用到 java.util.StringTokenize這個類,用來將字符串以特定的分隔符分開,java.util.regex.Pattern 和 java.util.regex.Matcher用來匹配字符串,關(guān)鍵代碼如下: 

    class CompareStr 

    public boolean comparestring(String oristring,String tostring) 

    Pattern p=null; //正則表達式 
    Matcher m=null; //操作的字符串 
    boolean b; 
    p = Pattern.compile(oristring,Pattern.CASE_INSENSITIVE); 
    m = p.matcher(tostring); 
    b = m.find(); 
    return b; 



    class AnalyUrl 

    ...... 
    StringTokenizer token = new StringTokenizer(totalstring," <> \""); 
    String firstword; 
    CompareStrcompstr = new CompareStr(); 
    String dsturl = null; 
    while (token.hasMoreTokens()) 

    firstword = token.nextToken(); 
    if (!compstr.comparestring("google.com", firstword) && !compstr.comparestring("cache",firstword)) 

    if (firstword.length() > 7) 

    dsturl = firstword.substring(6,firstword.length() - 1); 
    WriteUrl(dsturl); //成功取到URL,記錄到文件中 




    通過以上程序,我們就可以收集到自己要的網(wǎng)址信息了,還可以再寫另外一個應(yīng)用程序,對收集到的網(wǎng)址信息進一步分析,取出自己需要的信息,這里就不再累 贅,道理都是一樣的。最后需說明一點,google搜索引擎搜索所能返回的結(jié)果不能超過1000條,過了1000條,就直接提示“對不 起, Google 為所有查詢的結(jié)果數(shù)都不會超過 1000 個。”,百度搜索引擎返回的結(jié)果不能超過700多條,所以我們要搜索時盡可能多加關(guān)鍵字, 將結(jié)果范圍縮小。

    posted on 2009-04-23 17:50 找個美女做老婆 閱讀(676) 評論(0)  編輯  收藏


    只有注冊用戶登錄后才能發(fā)表評論。


    網(wǎng)站導(dǎo)航:
     

    導(dǎo)航

    統(tǒng)計

    公告

    本blog已經(jīng)搬到新家了, 新家:www.javaly.cn
     http://www.javaly.cn

    常用鏈接

    留言簿(6)

    隨筆檔案

    文章檔案

    搜索

    最新評論

    閱讀排行榜

    評論排行榜

    主站蜘蛛池模板: 精品亚洲一区二区三区在线播放| 久久精品国产亚洲AV无码偷窥 | 亚洲午夜福利精品无码| 国产精品亚洲高清一区二区| 亚洲国产成人片在线观看无码| 亚洲黄色三级网站| MM1313亚洲国产精品| 一区二区三区AV高清免费波多| 免费91麻豆精品国产自产在线观看| 51在线视频免费观看视频| 又爽又高潮的BB视频免费看| 久久久久国产成人精品亚洲午夜| 亚洲欧洲中文日韩久久AV乱码| 亚洲欧洲日产国码无码久久99| 亚洲狠狠色丁香婷婷综合| 一级做a免费视频观看网站| 国产婷婷成人久久Av免费高清 | 久久午夜伦鲁片免费无码| 免费人成年轻人电影| 亚洲黄色免费网站| 国内少妇偷人精品视频免费| 免费在线观看中文字幕| 国产精品亚洲精品青青青| 特级无码毛片免费视频尤物| 国产在线a免费观看| 亚洲精品乱码久久久久久自慰| 精品久久久久久亚洲中文字幕| 免费精品99久久国产综合精品| 免费在线一级毛片| 一级特黄a大片免费| 四虎免费久久影院| 亚洲精品无码久久久久APP| 免费被黄网站在观看| 亚洲精品无码久久久久秋霞| 18未年禁止免费观看| 77777午夜亚洲| 全部免费毛片在线| 在线观看免费亚洲| 亚洲国产成人久久综合碰| 一级特黄a大片免费| 国产国拍亚洲精品mv在线观看|