亚洲AV永久无码精品水牛影视,亚洲AV无码专区在线电影成人,亚洲av中文无码乱人伦在线观看

java,spring,structs,hibernate,jsf,ireport,jfreechart,jasperreport,tomcat,jboss -----本博客已經(jīng)搬家了，新的地址是 http://www.javaly.cn 如果有對文章有任何疑問或者有任何不懂的地方，歡迎到www.javaly.cn (Java樂園）指出，我會盡力幫助解決。一起進步

Java實現(xiàn)利用搜索引擎收集網(wǎng)址的程序

我這里講的不是怎么使用搜索引擎，而是怎么讓程序利用搜索引擎來搜集網(wǎng)址，這有什么用？很有用！網(wǎng)上動輒有人叫賣網(wǎng)址數(shù) 據(jù)庫，如發(fā)布軟件網(wǎng)址、郵件地址、論壇網(wǎng)址、行業(yè)網(wǎng)址，這些網(wǎng)址是怎么來的呢？不可能是人手工收集而來的，都是讓程序利用搜索引擎取到的，如果您需要某類網(wǎng)址信息數(shù)據(jù)，就跟我來一起研究一下，非常簡單。

本文采用Java語言寫成，以google和百度搜索引擎為對象。

我們要利用google、百度搜索引擎的搜索規(guī)則中的兩條，關(guān)鍵字搜索和inurl搜索。什么是inurl搜索，就是你所要搜索的網(wǎng)址中本身帶有的關(guān) 鍵字，比如http://www.xxx.com/post.asp ,這個網(wǎng)址就含有post.asp這樣的關(guān)鍵字，在搜索引擎中填寫規(guī)則是 inurl:post.asp,這是收集網(wǎng)址的關(guān)鍵，因為很多網(wǎng)址本身會帶有特定的信息，比如軟件發(fā)布的網(wǎng)頁網(wǎng)址信息中多含有 publish、 submit、tuijian這樣的信息，如http://www.xxx.com/publish.asp,這樣的網(wǎng)址多是發(fā)布信息的網(wǎng)頁，在結(jié)合網(wǎng)頁中本身可能含有的關(guān)鍵字，就可以用搜索引擎搜索出結(jié)果，然后我們利用程序?qū)⒔Y(jié)果取回，對HTML頁面進行分析，去除沒有用的信息，將有用的網(wǎng)址信息寫入文件或者數(shù)據(jù)庫，就可以給其它應(yīng)用程序或者人來使用了。

第一步，用程序?qū)⑺阉鹘Y(jié)果取回，先以百度為例，比如我們要搜索軟件發(fā)布的網(wǎng)頁，關(guān)鍵字采用 “軟件發(fā)布版本 inurl:publish.asp",先登錄百度看看，將關(guān)鍵字寫入，然后提交，在地址欄就會看到 http://www.baidu.com /s?ie=gb2312&bs=%C8%ED%BC%FE%B7%A2%B2%BC+%C8%ED%BC%FE%B0%E6%B1 %BE+inurl%3Apublish.asp&sr=&z=&cl=3&f=8&wd=%C8%ED%BC %FE%B7%A2%B2%BC+%B0%E6%B1%BE+inurl%3Apublish.asp&ct=0 ,中文關(guān)鍵字全都變成編碼了，沒有關(guān)系，我們在程序中直接用中文也是可以的，其中多個關(guān)鍵字用＋號相連，去掉一些沒有用的信息，我們可以把地址優(yōu)化成 http://www.baidu.com/s?lm=0&si=&rn=20&ie=gb2312&ct=0& amp; wd=軟件發(fā)布+版本+inurl%3Apublish%2Easp&pn=0&cl=0，其中rn表示一頁顯示多少個結(jié) 果，wd=表示你要搜索的關(guān)鍵字，pn表示從第幾條開始顯示，這個pn將是我們程序循環(huán)取結(jié)果的變量，每20條循環(huán)一次。我們用Java寫的程序來模擬這個搜索的過程，用到的關(guān)鍵類為 java.net.HttpURLConnection,java.net.URL，先寫一個提交搜索的class,關(guān)鍵代碼如下：

class Search
{
public URL url;
public HttpURLConnection http;
public java.io.InputStream urlstream;
......
for(int i=0;i++;i <100)
{
......
try {
url = new URL("www.baidu.com/s?lm=0&si=&rn=20&ie=gb2312& amp;ct=0& wd=軟件發(fā)布+版本+inurl%3Apublish%2Easp&pn="+beginrecord+"& amp;cl=0");
}catch(Exception ef){};
try {
http = (HttpURLConnection) url.openConnection();
http.connect();
urlstream = http.getInputStream();
}catch(Exception ef){};
java.io.BufferedReader l_reader = new java.io.
BufferedReader(new java.io.InputStreamReader(urlstream));
try {
while ((currentLine = l_reader.readLine()) != null) {
totalstring += currentLine;
}
} catch (IOException ex3) {}
....
//本次搜索的結(jié)果已經(jīng)放到totalstring中了，是一些HTML代碼，需要下一步進行分析了。
}
再以google為例，稍微有些不同，google對瀏覽器進行了一些檢測，編碼也不同，URL為http: //www.google.com /search?q=軟件發(fā)布+版本+inurl:publish.asp&hl=zh-CN&lr= & newwindow=1&start=0&sa=N&ie=UTF-8,其中編碼要用ie=UTF-8,start表示從第幾條記錄顯示，需要注意的是google對瀏覽器還要檢查，如果瀏覽器不符合它的要求，將返回錯誤代碼，所以在模擬瀏覽器提交中，我們要多加一行代碼，修改關(guān) 鍵部分要將http屬性中的User-Agent設(shè)置為常用的瀏覽器，比如Mozilla/4.0,代碼如下：

try {
http = (HttpURLConnection) url.openConnection();
http.setRequestProperty("User-Agent", "Mozilla/4.0");
http.connect();
urlstream = http.getInputStream();
}catch(Exception ef){};

第二步，對取回的HTML編碼進行分析，取出其中的有用網(wǎng)址信息，并寫入文件或者數(shù)據(jù)庫，由于這些搜索引擎都有網(wǎng)頁快照和相似網(wǎng)頁等網(wǎng)址信息混雜在 HTML中，我們要將這些網(wǎng)址信息剔除掉，剔除的關(guān)鍵就是找出其中的規(guī)律，百度搜索引擎中的網(wǎng)頁快照和其它沒有用的的地址都含有baidu這個關(guān)鍵字，而 google中含有的無用網(wǎng)址信息含有關(guān)鍵字 google和cache,我們就根據(jù)這些關(guān)鍵字剔除無用網(wǎng)址信息。在Java中要對字符串進行分析必然要用到 java.util.StringTokenize這個類，用來將字符串以特定的分隔符分開，java.util.regex.Pattern 和 java.util.regex.Matcher用來匹配字符串，關(guān)鍵代碼如下：

class CompareStr
{
public boolean comparestring(String oristring,String tostring)
{
Pattern p=null; //正則表達式
Matcher m=null; //操作的字符串
boolean b;
p = Pattern.compile(oristring,Pattern.CASE_INSENSITIVE);
m = p.matcher(tostring);
b = m.find();
return b;
}
}

class AnalyUrl
{
......
StringTokenizer token = new StringTokenizer(totalstring," <> \"");
String firstword;
CompareStrcompstr = new CompareStr();
String dsturl = null;
while (token.hasMoreTokens())
{
firstword = token.nextToken();
if (!compstr.comparestring("google.com", firstword) && !compstr.comparestring("cache",firstword))
{
if (firstword.length() > 7)
{
dsturl = firstword.substring(6,firstword.length() - 1);
WriteUrl(dsturl); //成功取到URL，記錄到文件中
}
}
}
}
通過以上程序，我們就可以收集到自己要的網(wǎng)址信息了，還可以再寫另外一個應(yīng)用程序，對收集到的網(wǎng)址信息進一步分析，取出自己需要的信息，這里就不再累贅，道理都是一樣的。最后需說明一點，google搜索引擎搜索所能返回的結(jié)果不能超過1000條，過了1000條，就直接提示“對不起， Google 為所有查詢的結(jié)果數(shù)都不會超過 1000 個。”，百度搜索引擎返回的結(jié)果不能超過700多條，所以我們要搜索時盡可能多加關(guān)鍵字，將結(jié)果范圍縮小。

posted on 2009-04-23 17:50 找個美女做老婆閱讀(676) 評論(0) 編輯收藏

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理

Java學(xué)習(xí)

Java實現(xiàn)利用搜索引擎收集網(wǎng)址的程序

導(dǎo)航

統(tǒng)計

公告

常用鏈接

留言簿(6)

隨筆檔案

文章檔案

搜索

最新評論

閱讀排行榜

評論排行榜