久久精品国产亚洲av高清漫画,亚洲人成77777在线播放网站,亚洲第一极品精品无码久久

實現HTTP內容的抓取

前段時間做了一個網頁爬蟲，初次接觸，收獲了很多知識。其中關于HTTP協議的內容，記述如下：

        RFC2616中主要描述了HTTP 1.1協議。下面的描述沒有實現其各個方面的內容，只提出了一種能夠完成所有HTTP網頁抓取的最小實現（不能夠抓取HTTPS）。

        1、首先提交一個URL地址，分為普通的GET網頁獲取，POST的數據提交兩種基本模式。

建立HttpWebReques實例，其中uri是網頁的URL的地址：
   HttpWebRequest webrequest = (HttpWebRequest) WebRequest.Create(uri);

KeepAlive表示HTTP的連接是長連接：
   webrequest.KeepAlive = true;

如果需要，添加引用地址，主要用于防止其他網站的連接引用，比如登陸時，經常需要驗證：
   if(referer!=null)
   {
    webrequest.Referer=referer;
   }

選擇數據的提交方式，有GET、POST兩種方式，HEAD不常用：
   switch(RequestMethod)
   {
    case 1:
     webrequest.Method="GET";
     break;
    case 2:
     webrequest.Method="POST";
     break;
    case 3:
     webrequest.Method="HEAD";
     break;
    default:
     webrequest.Method="GET";
     break;
   }

設置User－Agent，經常遇到，在某些網站中，做了限制，User－Agent為空，則不能訪問：
   webrequest.UserAgent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; .NET CLR 1.1.4322; .NET CLR 2.0.50215; fqSpider)";

添加其他的HTTP的Header信息，collHeader是一個NameValue的Collection：
   if(collHeader!=null&&collHeader.Count>0)
   {
    int iCount = collHeader.Count;
    string key;
    string keyvalue;

    for (int i=0; i < iCount; i++)
    {
     key = collHeader.Keys[i];
     keyvalue = collHeader[i];
     webrequest.Headers.Add(key, keyvalue);
    }
   }

設置Content－Type的內容，如果為POST，設置成application/x-www-form-urlencoded，如果是Get設置成text/html：
   if(webrequest.Method=="POST")
   {
    webrequest.ContentType="application/x-www-form-urlencoded";
   }
   else
   {
    webrequest.ContentType = "text/html";
   }


設置代理服務器地址和端口：
   if ((ProxyServer!=null) &&(ProxyServer.Length > 0))
   {
    webrequest.Proxy = new
     WebProxy(ProxyServer,ProxyPort);
   }

設置是否允許自動轉移：
   webrequest.AllowAutoRedirect = true;

設置基本的登陸認證：
   if (NwCred)
   {
    CredentialCache wrCache =
     new CredentialCache();
    wrCache.Add(new Uri(uri),"Basic",
     new NetworkCredential(UserName,UserPwd));
    webrequest.Credentials = wrCache;
   }

設置Request的Cookie容器：
   webrequest.CookieContainer=Cookies;

設置POST數據：
   byte[] bytes = Encoding.ASCII.GetBytes(RequestData);
   webrequest.ContentLength=bytes.Length;

   Stream oStreamOut = webrequest.GetRequestStream();
   oStreamOut.Write(bytes,0,bytes.Length);
   oStreamOut.Close();

posted on 2010-01-20 01:30 becket_zheng 閱讀(449) 評論(0) 編輯收藏所屬分類: 網頁web前端技術、C#

實現HTTP內容的抓取

常用鏈接

留言簿

隨筆分類(138)

隨筆檔案(134)

文章分類(77)

文章檔案(109)

email

常去的Blog

搜索

最新評論

閱讀排行榜

評論排行榜


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問
相關文章: HTML5+CSS3 W3C規范<<中文版>>參考手冊(提供下載) IE6/IE7/FF的CSS hack 瀏覽器兼容總 Web 調試代理軟件Fiddler 一個http調試代理，能夠記錄所有的你電腦和互聯網之間的http通訊使用js獲取QueryString JSON in .Net 使用Google CDN服務提供的jQuery庫 Google與Microsoft為jQuery,Prototype,MooTools等類庫提供CDN服務 C#中操作XML文件(讀寫改刪全接觸)-全了！非常有用的JS事件功能(轉) 無阻塞下載腳本