首先安裝zen-cart,我用的是zen-cart1.9中文版的,安裝步驟我就不寫了,這個很簡單了。安裝以后根據你要采集的網站建立對應的目錄就OK了。例如我要測試采集的網站www.yankeesjerseystore.com這 是我隨便找的網站,我首先建立大分類Shop By Players 然后建立相應的小分類Alex Rodriguez Jersey(多頁面,等會解釋這個)和Folder Alfonso Soriano Jersey(單頁面)。我只是測試采集就先建一個大分類兩個小分類。如下圖
大分類
小分類
然后開始寫采集規則了,每個網站的采集規則是不一樣的,針對每個網站寫不同的規則,不過zen-cart網站的規則差不多了,寫多了就會發現很簡單。
第一步寫采集網址規則,首先添加采集地址(我添加的是http://www.yankeesjerseystore.com/new-york- yankees-jersey-alex-rodriguez-jersey-c-6_16.html?page=(*)&sort=20a)如 下圖
然后為了采集自己想要的頁面,就必須過濾一些網址了,就要寫一些限制性的標志了,必須包含,不得包含,頁面內選定區域采集網址從xx到xx等請看下圖我是如何寫的,這個不是唯一性的,每個人寫的可能不一樣。
這一步算是完成了。
第二步寫采集內容規則,我把每個標簽名對應規則放出來,如下圖
商品名稱
商品型號
商品價格
商品特價
商品圖像,注意哪個文件保存格式,我選擇了[原文件名],根據自己的需要也可以改
商品描述,注意用哪個html標簽排除,我用了去首尾空白符
OK,規則寫完了,可以找個內容頁測試一下,如下圖
看,已經測試成功了,注意圖片一定要顯示完整。
第三步發布內容設置,有幾種發布方式,我選擇方式三,導入到自定義數據庫,如下圖
然后點擊數據庫發布全局配置,選擇編輯你要編輯數據庫發布配置,如下圖
點擊編輯以后,出現下圖
然后編輯數據庫發布模塊,如下圖
看到你剛才寫的標簽名沒,注意這個地方的標簽與剛才寫的標簽名要對應著,,不然就會失敗的,看到最后那個“2”沒,就是剛才我們建立欄目時的分 類ID,每采集一個欄目的時候變換不同的ID,上面我已經寫了,不需要改動了,最后我會把發布模塊分享給朋友們。修改完以后,要點擊那個“修改配置”這樣 才能保存著。
第四步文件保存及部分高級設置,如下圖,基本上不用改變。
最后一步,點擊更新,然后就可以點擊開始采集了,采集效果如下圖
OK,采集成功了,可以發布到數據庫了,然后我到網站后臺看一下,是不是已經導入到數據庫了,呵呵!如下圖,成功了
后臺效果
前臺效果
最后要說明一點,采集單網址也是一樣,注意選擇如下圖
好了,教程寫完了,挺累的,寫了兩個小時,不知道你們看明白沒,反正我是很明白(呵呵),根據不同的網站靈活運用就OK了,稍后我把采集規則放出來,供朋友下載,有不明白的地方可以給我留言或者加我qq
zen-cart.rar(點擊下載哦)