http://www.tkk7.com/nianzai/
PDF文檔下載
一、 概述
在網頁抓取項目中通常最缺的是IP地址資源,大多數網站對抓取會做些限制(比如同一IP地址的線程數限制,再比如幾分鐘之內同一IP地址的頁面訪問次數限制)。
基于P2P模式的分布式抓取方案是利用分散在各處的可上網機器來抓取網頁,可有效的突破網站限制。
二、設計圖

上網客戶端1 。。。上網客戶端m是分散在各處能直接上網的機器,這些上網客戶端機器定時向狀態服務區報告自己的心跳。
抓取客戶端 1 。。。抓取客戶端 n 是集中放在某處的抓取機器。抓取客戶端機器定時向狀態服務器獲取可用上網客戶端列表,然后抓取客戶端機器直接與上網客戶端建立連接,抓取客戶端機器直接通過上網客戶端來抓取網頁。
三、實現方案
方案一:
在上網客戶端機器上安裝共享上網代理軟件比如ccproxy,抓取客戶端以代理的方式通過上網機器抓取網頁。該方案簡單易行,無技術障礙。
方案二:
開發一套簡化版P2P軟件,抓取客戶端機器將抓取請求分發給客戶端機器,客戶端機器將網頁抓取下來傳回給抓取客戶端機器。該方案復雜些,但可擴展性極強。在掌握了大量上網客戶端機器后完全可以做成云計算進行商業運作。
posted on 2010-12-29 15:47
nianzai 閱讀(2237)
評論(2) 編輯 收藏