亚洲精品国产福利一二区,亚洲国产成人综合精品,久久亚洲精品国产精品婷婷

使用robots.txt的注意事項（轉www.best-code.com ）

使用robots.txt的注意事項
<a >www.best-code.com</a>
robots.txt的創建很簡單，只需設置User-agent與Disallow兩項內容，其中User-agent項設置特定的搜索引擎Spider，Disallow項設定不允許Spider抓取和索引的內容。盡管如此，筆者卻常常見一些設置不當的例子，在此把robots.txt有關的注意事項介紹一下：

robots.txt文件
　　robots.txt只能存放于網站的根目錄下，置于除此之外的任何地方均不會被Spider發現。

　　每個網站，或每個域名（包括子域名），只能有一個robots.txt。

　　文件名“robots.txt”為小寫字母，其他如Robots.txt或robots.Txt是不正確的，命名錯誤將會被Spider忽略。

　　正如上篇文章中介紹的，Spider在網站內找不到robots.txt時將會被重定向到404??錯誤頁面，這便有可能阻礙Spider抓取和收錄頁面。雖然這并不一定會發生，但很多時候我們沒必要冒這樣的風險，一般來說，即使我們對網站的所有內容都沒有限制，對所有的搜索引擎Spider??都歡迎，最好也在根目錄下創建一個robots.txt文件：

User-agent:??*
Disallow:

robots.txt的語法規則
　　在Disallow項中使用小寫字母，即文件名和目錄名使用小寫字母，特別在對大小寫敏感的Unix下更要注意。

　　robots.txt惟一支持的通配符是在User-agent使用的“*”，其代表所有的Spider。除此之外，別的通配符均不可用。這方面的錯誤常見于在文件名或目錄名中使用通配符。

　　robots.txt的限定項

　　在User-agent和Disallow項的設定中，每行只允許有一個設定值，同時，注意不要有空行。至于行數，則沒有限制，理論上說可以根據需要創建具有無數行的robots.txt。

　　下面即是一個錯誤的例子

User-agent:??*
Disallow:??/dir1/??/dir2/??/dir3/

　　正確設置應為：

User-agent:??*
Disallow:??/dir1/
Disallow:??/dir2/
Disallow:??/dir3/

　　robots.txt中的文件與目錄

　　既定某個文件拒絕索引時，格式為文件名(包括擴展名)，其后無“/”，而限定目錄時，則需在目錄名后加“/”。如下面的示例：

User-agent:??*
Disallow:??/file.html
Disallow:??/dir/

　　特別注意的是，不要省略掉目錄名后的“/”，不然，Spider便極有可能誤讀相應的設置。

　　robots.txt中限定項的順序

　　請看下方的示例：

User-agent:??*
Disallow:??/
User-agent:??Googlebot
Disallow:

　　該設定本意是想允許Google訪問所有頁面，同時禁止其他Spider的訪問。但在這樣的設置下，Googlebot在讀取前2行后便會離開網站，后面對其的“解禁”完全失去了意義。正確的格式應為：

User-agent:??Googlebot
Disallow:
User-agent:??*
Disallow:??/

　　robots.txt中的注釋

　　盡管在robots.txt的標準中，可以在限定項的后面使用“#”添加注釋，如下面的例子

User-agent:??Googlebot??#這是對Google的設置
Disallow:

　　但很多研究與測試表明，不少Spider對這樣格式的解讀存在問題。為確保其能更好地工作，最好采用如下設置：
www.best-code.com
#這是對Google的設置
User-agent:??Googlebot
Disallow:

發表于 2006-08-05 14:50 rendong 閱讀(230) 評論(0) 編輯收藏所屬分類: 搜索

使用robots.txt的注意事項（轉www.best-code.com ）

常用鏈接

留言簿(5)

隨筆分類

隨筆檔案

好的blog

好的站點

搜索

最新評論

閱讀排行榜

評論排行榜

學習--共同努力
BlogJava \| 首頁 \| 發新隨筆 \| 發新文章 \| 聯系 \| 聚合 \| 管理	隨筆：48 文章：0 評論：18 引用：0