<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    IBMSOFT

    ibmsoft 努力不一定成功,放棄一定失敗! 堅持自己的理想,實現自己的目標! 有好的想法就要出想辦法實現!

    BlogJava 首頁 新隨筆 聯系 聚合 管理
      8 Posts :: 2 Stories :: 3 Comments :: 0 Trackbacks
    ?

    我這里講的不是怎么使用搜索引擎,而是怎么讓程序利用搜索引擎來搜集網址,這有什么用?很有用!網上動輒有人叫賣網址數據庫,如發布軟件網址、郵件地址、論壇網址、行業網址,這些網址是怎么來的呢?不可能是人手工收集而來的,都是讓程序利用搜索引擎取到的,如果您需要某類網址信息數據,就跟我來一起研究一下,非常簡單。

      本文采用Java語言寫成,以google和百度搜索引擎為對象。

      我們要利用google、百度搜索引擎的搜索規則中的兩條,關鍵字搜索和inurl搜索。什么是inurl搜索,就是你所要搜索的網址中本身帶有的關鍵字,比如http://www.xxx.com/post.asp ,這個網址就含有post.asp這樣的關鍵字,在搜索引擎中填寫規則是 inurl:post.asp,這是收集網址的關鍵,因為很多網址本身會帶有特定的信息,比如軟件發布的網頁網址信息中多含有 publish、submit、tuijian這樣的信息,如http://www.xxx.com/publish.asp,這樣的網址多是發布信息的網頁,在結合網頁中本身可能含有的關鍵字,就可以用搜索引擎搜索出結果,然后我們利用程序將結果取回,對HTML頁面進行分析,去除沒有用的信息,將有用的網址信息寫入文件或者數據庫,就可以給其它應用程序或者人來使用了。

      第一步,用程序將搜索結果取回,先以百度為例,比如我們要搜索軟件發布的網頁,關鍵字采用 “軟件發布 版本 inurl:publish.asp",先登錄百度看看,將關鍵字寫入,然后提交,在地址欄就會看到 http://www.baidu.com/s?ie=gb2312&bs=%C8%ED%BC%FE%B7%A2%B2%BC+%C8%ED%BC%FE%B0%E6%B1%BE+inurl%3Apublish.asp&sr=&z=&cl=3&f=8&wd=%C8%ED%BC%FE%B7%A2%B2%BC+%B0%E6%B1%BE+inurl%3Apublish.asp&ct=0 ,中文關鍵字全都變成編碼了,沒有關系,我們在程序中直接用中文也是可以的,其中多個關鍵字用+號相連,去掉一些沒有用的信息,我們可以把地址優化成 http://www.baidu.com/s?lm=0&si=&rn=20&ie=gb2312&ct=0& wd=軟件發布+版本+inurl%3Apublish%2Easp&pn=0&cl=0,其中rn表示一頁顯示多少個結果,wd=表示你要搜索的關鍵字,pn表示從第幾條開始顯示,這個pn將是我們程序循環取結果的變量,每20條循環一次。我們用Java寫的程序來模擬這個搜索的過程,用到的關鍵類為 java.net.HttpURLConnection,java.net.URL,先寫一個提交搜索的class,關鍵代碼如下:

    class Search
    {
     public URL url;
     public HttpURLConnection http;
     public java.io.InputStream urlstream;
     ......
     for(int i=0;i++;i <100)
     {
      ......
      try {
       url = new URL("www.baidu.com/s?lm=0&si=&rn=20&ie=gb2312&ct=0& wd=軟件發布+版本+inurl%3Apublish%2Easp&pn="+beginrecord+"&cl=0");
      }catch(Exception ef){};
      try {
       http = (HttpURLConnection) url.openConnection();
       http.connect();
       urlstream = http.getInputStream();
      }catch(Exception ef){};
      java.io.BufferedReader l_reader = new java.io.
      BufferedReader(new java.io.InputStreamReader(urlstream));
      try {
       while ((currentLine = l_reader.readLine()) != null) {
        totalstring += currentLine;
       }
      } catch (IOException ex3) {}
      ....
      //本次搜索的結果已經放到totalstring中了,是一些HTML代碼,需要下一步進行分析了。
    }
      再以google為例,稍微有些不同,google對瀏覽器進行了一些檢測,編碼也不同,URL為http: //www.google.com/search?q=軟件發布+版本+inurl:publish.asp&hl=zh-CN&lr= &newwindow=1&start=0&sa=N&ie=UTF-8,其中編碼要用ie=UTF-8,start表示從第幾條記錄顯示,需要注意的是google對瀏覽器還要檢查,如果瀏覽器不符合它的要求,將返回錯誤代碼,所以在模擬瀏覽器提交中,我們要多加一行代碼,修改關鍵部分要將http屬性中的User-Agent設置為常用的瀏覽器,比如Mozilla/4.0,代碼如下:

    try {
     http = (HttpURLConnection) url.openConnection();
     http.setRequestProperty("User-Agent", "Mozilla/4.0");
     http.connect();
     urlstream = http.getInputStream();
    }catch(Exception ef){};

      第二步,對取回的HTML編碼進行分析,取出其中的有用網址信息,并寫入文件或者數據庫,由于這些搜索引擎都有網頁快照和相似網頁等網址信息混雜在HTML中,我們要將這些網址信息剔除掉,剔除的關鍵就是找出其中的規律,百度搜索引擎中的網頁快照和其它沒有用的的地址都含有baidu這個關鍵字,而google中含有的無用網址信息含有關鍵字 google和cache,我們就根據這些關鍵字剔除無用網址信息。在Java中要對字符串進行分析必然要用到 java.util.StringTokenize這個類,用來將字符串以特定的分隔符分開,java.util.regex.Pattern和 java.util.regex.Matcher用來匹配字符串,關鍵代碼如下:

    class CompareStr
    {
     public boolean comparestring(String oristring,String tostring)
     {
      Pattern p=null; //正則表達式
      Matcher m=null; //操作的字符串
      boolean b;
      p = Pattern.compile(oristring,Pattern.CASE_INSENSITIVE);
      m = p.matcher(tostring);
      b = m.find();
      return b;
     }
    }

    class AnalyUrl
    {
     ......
     StringTokenizer token = new StringTokenizer(totalstring," <> \"");
     String firstword;
     CompareStrcompstr = new CompareStr();
     String dsturl = null;
     while (token.hasMoreTokens())
     {
      firstword = token.nextToken();
      if (!compstr.comparestring("google.com", firstword) && !compstr.comparestring("cache",firstword))
      {
       if (firstword.length() > 7)
       {
        dsturl = firstword.substring(6,firstword.length() - 1);
        WriteUrl(dsturl); //成功取到URL,記錄到文件中
       }
      }
     }
    }
      通過以上程序,我們就可以收集到自己要的網址信息了,還可以再寫另外一個應用程序,對收集到的網址信息進一步分析,取出自己需要的信息,這里就不再累贅,道理都是一樣的。最后需說明一點,google搜索引擎搜索所能返回的結果不能超過1000條,過了1000條,就直接提示“對不起, Google 為所有查詢的結果數都不會超過 1000 個。”,百度搜索引擎返回的結果不能超過700多條,所以我們要搜索時盡可能多加關鍵字,將結果范圍縮小。

    posted on 2006-06-14 19:50 ibmsoft 閱讀(772) 評論(1)  編輯  收藏

    Feedback

    # re: Java實現利用搜索引擎收集網址的程序 2006-06-19 14:27 javaPlayer
    好!!!!!!!!!!!!!!!!  回復  更多評論
      


    只有注冊用戶登錄后才能發表評論。


    網站導航:
     
    主站蜘蛛池模板: 国产亚洲精AA在线观看SEE| 亚洲第一视频网站| 最新亚洲人成网站在线观看| 在线美女免费观看网站h| 国产区卡一卡二卡三乱码免费| 一级做a爱片特黄在线观看免费看| 18禁成年无码免费网站无遮挡| 永久免费无码日韩视频| 亚洲白色白色永久观看| 国产日产亚洲系列| 啊v在线免费观看| 日本一道一区二区免费看| 91精品视频在线免费观看| 免费无码av片在线观看| 曰批全过程免费视频免费看| 456亚洲人成影院在线观| 亚洲伊人久久大香线蕉在观| 久久精品国产亚洲AV香蕉| 亚洲国产另类久久久精品| 亚洲午夜未满十八勿入网站2| 国产乱辈通伦影片在线播放亚洲| 国产免费久久精品久久久| 午夜国产大片免费观看| 亚洲?V乱码久久精品蜜桃| 亚洲国产精品毛片av不卡在线 | 在线永久免费观看黄网站| 成全视频在线观看免费高清动漫视频下载| 日韩精品免费视频| 性xxxx视频播放免费| 国产精品无码素人福利免费 | 自拍日韩亚洲一区在线| 亚洲色少妇熟女11p| 欧洲精品码一区二区三区免费看| 一级做a爱过程免费视频高清| 天黑黑影院在线观看视频高清免费| 一区二区三区观看免费中文视频在线播放 | h视频在线观看免费| 久久久久久精品免费免费自慰| 午夜高清免费在线观看| 亚洲精品国产精品乱码在线观看| 亚洲va在线va天堂va手机|