使用robots.txt的注意事項
<a >www.best-code.com</a>
robots.txt的創建很簡單,只需設置User-agent與Disallow兩項內容,其中User-agent項設置特定的搜索引擎Spider,Disallow項設定不允許Spider抓取和索引的內容。盡管如此,筆者卻常常見一些設置不當的例子,在此把robots.txt有關的注意事項介紹一下:
robots.txt文件
robots.txt只能存放于網站的根目錄下,置于除此之外的任何地方均不會被Spider發現。
每個網站,或每個域名(包括子域名),只能有一個robots.txt。
文件名“robots.txt”為小寫字母,其他如Robots.txt或robots.Txt是不正確的,命名錯誤將會被Spider忽略。
正如上篇文章中介紹的,Spider在網站內找不到robots.txt時將會被重定向到404??錯誤頁面,這便有可能阻礙Spider抓取和收錄頁面。雖然這并不一定會發生,但很多時候我們沒必要冒這樣的風險,一般來說,即使我們對網站的所有內容都沒有限制,對所有的搜索引擎Spider??都歡迎,最好也在根目錄下創建一個robots.txt文件:
User-agent:??*
Disallow:
robots.txt的語法規則
在Disallow項中使用小寫字母,即文件名和目錄名使用小寫字母,特別在對大小寫敏感的Unix下更要注意。
robots.txt惟一支持的通配符是在User-agent使用的“*”,其代表所有的Spider。除此之外,別的通配符均不可用。這方面的錯誤常見于在文件名或目錄名中使用通配符。
robots.txt的限定項
在User-agent和Disallow項的設定中,每行只允許有一個設定值,同時,注意不要有空行。至于行數,則沒有限制,理論上說可以根據需要創建具有無數行的robots.txt。
下面即是一個錯誤的例子
User-agent:??*
Disallow:??/dir1/??/dir2/??/dir3/
正確設置應為:
User-agent:??*
Disallow:??/dir1/
Disallow:??/dir2/
Disallow:??/dir3/
robots.txt中的文件與目錄
既定某個文件拒絕索引時,格式為文件名(包括擴展名),其后無“/”,而限定目錄時,則需在目錄名后加“/”。如下面的示例:
User-agent:??*
Disallow:??/file.html
Disallow:??/dir/
特別注意的是,不要省略掉目錄名后的“/”,不然,Spider便極有可能誤讀相應的設置。
robots.txt中限定項的順序
請看下方的示例:
User-agent:??*
Disallow:??/
User-agent:??Googlebot
Disallow:
該設定本意是想允許Google訪問所有頁面,同時禁止其他Spider的訪問。但在這樣的設置下,Googlebot在讀取前2行后便會離開網站,后面對其的“解禁”完全失去了意義。正確的格式應為:
User-agent:??Googlebot
Disallow:
User-agent:??*
Disallow:??/
robots.txt中的注釋
盡管在robots.txt的標準中,可以在限定項的后面使用“#”添加注釋,如下面的例子
User-agent:??Googlebot??#這是對Google的設置
Disallow:
但很多研究與測試表明,不少Spider對這樣格式的解讀存在問題。為確保其能更好地工作,最好采用如下設置:
www.best-code.com
#這是對Google的設置
User-agent:??Googlebot
Disallow:
<a >www.best-code.com</a>
robots.txt的創建很簡單,只需設置User-agent與Disallow兩項內容,其中User-agent項設置特定的搜索引擎Spider,Disallow項設定不允許Spider抓取和索引的內容。盡管如此,筆者卻常常見一些設置不當的例子,在此把robots.txt有關的注意事項介紹一下:
robots.txt文件
robots.txt只能存放于網站的根目錄下,置于除此之外的任何地方均不會被Spider發現。
每個網站,或每個域名(包括子域名),只能有一個robots.txt。
文件名“robots.txt”為小寫字母,其他如Robots.txt或robots.Txt是不正確的,命名錯誤將會被Spider忽略。
正如上篇文章中介紹的,Spider在網站內找不到robots.txt時將會被重定向到404??錯誤頁面,這便有可能阻礙Spider抓取和收錄頁面。雖然這并不一定會發生,但很多時候我們沒必要冒這樣的風險,一般來說,即使我們對網站的所有內容都沒有限制,對所有的搜索引擎Spider??都歡迎,最好也在根目錄下創建一個robots.txt文件:
User-agent:??*
Disallow:
robots.txt的語法規則
在Disallow項中使用小寫字母,即文件名和目錄名使用小寫字母,特別在對大小寫敏感的Unix下更要注意。
robots.txt惟一支持的通配符是在User-agent使用的“*”,其代表所有的Spider。除此之外,別的通配符均不可用。這方面的錯誤常見于在文件名或目錄名中使用通配符。
robots.txt的限定項
在User-agent和Disallow項的設定中,每行只允許有一個設定值,同時,注意不要有空行。至于行數,則沒有限制,理論上說可以根據需要創建具有無數行的robots.txt。
下面即是一個錯誤的例子
User-agent:??*
Disallow:??/dir1/??/dir2/??/dir3/
正確設置應為:
User-agent:??*
Disallow:??/dir1/
Disallow:??/dir2/
Disallow:??/dir3/
robots.txt中的文件與目錄
既定某個文件拒絕索引時,格式為文件名(包括擴展名),其后無“/”,而限定目錄時,則需在目錄名后加“/”。如下面的示例:
User-agent:??*
Disallow:??/file.html
Disallow:??/dir/
特別注意的是,不要省略掉目錄名后的“/”,不然,Spider便極有可能誤讀相應的設置。
robots.txt中限定項的順序
請看下方的示例:
User-agent:??*
Disallow:??/
User-agent:??Googlebot
Disallow:
該設定本意是想允許Google訪問所有頁面,同時禁止其他Spider的訪問。但在這樣的設置下,Googlebot在讀取前2行后便會離開網站,后面對其的“解禁”完全失去了意義。正確的格式應為:
User-agent:??Googlebot
Disallow:
User-agent:??*
Disallow:??/
robots.txt中的注釋
盡管在robots.txt的標準中,可以在限定項的后面使用“#”添加注釋,如下面的例子
User-agent:??Googlebot??#這是對Google的設置
Disallow:
但很多研究與測試表明,不少Spider對這樣格式的解讀存在問題。為確保其能更好地工作,最好采用如下設置:
www.best-code.com
#這是對Google的設置
User-agent:??Googlebot
Disallow: