seo優(yōu)化博客：robots寫(xiě)法解析

發(fā)布時(shí)間：2023-03-12 07:00:01 文章出處：潮人地東莞seo博客作者：東莞seo博客閱讀數(shù)量：

潮人地東莞seo博客小編下面跟大家分享關(guān)于seo優(yōu)化博客：robots寫(xiě)法解析等問(wèn)題，希望seo專(zhuān)員在做seo優(yōu)化的過(guò)程中有所幫助，內(nèi)容僅供參考。

在潮人地東莞seo博客當(dāng)中發(fā)布了不止一篇關(guān)于robots文件的內(nèi)容，對(duì)于網(wǎng)站的seo基礎(chǔ)優(yōu)化來(lái)說(shuō)，robots文件是一個(gè)比較重要的網(wǎng)站輔助文件之一，所以robots寫(xiě)法的準(zhǔn)確性也是至關(guān)重要的。今天小編和朋友們分享的主題就是關(guān)于robots文件的寫(xiě)法，本文轉(zhuǎn)載自百度文庫(kù)的robots.txt寫(xiě)法完全攻略。

當(dāng)搜索引擎訪(fǎng)問(wèn)一個(gè)網(wǎng)站時(shí)，它首先會(huì)檢查該網(wǎng)站的根域下是否有一個(gè)叫做robots.txt的純文本文件。Robots.t xt文件用于限定搜索引擎對(duì)其網(wǎng)站的訪(fǎng)問(wèn)范圍，即告訴搜索引擎網(wǎng)站中哪些文件是允許它進(jìn)行檢索(下載)的。這就是大家在網(wǎng)絡(luò)上常看到的“拒絕Robots訪(fǎng)問(wèn)標(biāo)準(zhǔn)”(Robots Exclusion Standard)。下面我們簡(jiǎn)稱(chēng)RES。

Robots.txt文件的格式：

Robots.txt文件的格式比較特殊，它由記錄組成。這些記錄通過(guò)空行分開(kāi)。其中每條記錄均由兩個(gè)域組成：

1) 一個(gè)User-Agent(用戶(hù)代理)字符串行；

2) 若干Disallow字符串行。

記錄格式為：<Field> “:” <value>

下面我們分別對(duì)這兩個(gè)域做進(jìn)一步說(shuō)明。

User-agent(用戶(hù)代理)：

User-agent行(用戶(hù)代理行) 用于指定搜索引擎robot的名字，以Google的檢索程序Googlebot為例，有：User-agent: Googlebot

一個(gè)robots.txt中至少要有一條User-agent記錄。如果有多條User-agent記錄，則說(shuō)明有多個(gè)ro bot會(huì)受到RES標(biāo)準(zhǔn)的限制。當(dāng)然了，如果要指定所有的robot，只需用一個(gè)通配符”*”就搞定了，即：User-agen t: *

Disallow(拒絕訪(fǎng)問(wèn)聲明)：

在Robots.txt文件中，每條記錄的第二個(gè)域是Disallow:指令行。這些Disallow行聲明了該網(wǎng)站中不希望被訪(fǎng)問(wèn)的文件和(或)目錄。例如”Disallow: email.htm”對(duì)文件的訪(fǎng)問(wèn)進(jìn)行了聲明，禁止Spiders下載網(wǎng)站上的email.htm文件。而”Disallow:/cgi-bin/”則對(duì) cgi-bin目錄的訪(fǎng)問(wèn)進(jìn)行了聲明，拒絕Spiders進(jìn)入該目錄及其子目錄。Disallow聲明行還具有通配符功能。例如上例中”Disallow:/cgi-bin/”聲明了拒絕搜索引擎對(duì)cgi-bin目錄及其子目錄的訪(fǎng)問(wèn)，而 “Disallow:/bob”則拒絕搜索引擎對(duì)/bob.html和/bob/indes.html的訪(fǎng)問(wèn)(即無(wú)論是名為bob的文件還是名為bob的目錄下的文件都不允許搜索引擎訪(fǎng)問(wèn))。Disallow記錄如果留空，則說(shuō)明該網(wǎng)站的所有部分都向搜索引擎開(kāi)放。

空格 & 注釋

在robots.txt文件中，凡以”#”開(kāi)頭的行，均被視為注解內(nèi)容，這和UNIX中的慣例是一樣的。但大家需要注意兩個(gè) 問(wèn)題：

1)RES標(biāo)準(zhǔn)允許將注解內(nèi)容放在指示行的末尾，但這種格式并不是所有的Spiders都能夠支持。譬如，并不是所有的Spider s都能夠正確理解”Disallow: bob#comment”這樣一條指令。有的Spiders就會(huì)誤解為Disallow的是”bob#comment”。最好的辦法是使注解自成一行。

2) RES標(biāo)準(zhǔn)允許在一個(gè)指令行的開(kāi)頭存在空格，象”Disallow: bob #comment”，但我們也并不建議大家這么做。

Robots.txt文件的創(chuàng)建：

需要注意的是，應(yīng)當(dāng)在UNIX命令行終端模式下創(chuàng)建Robots.txt純文本文件。好的文本編輯器一般都能夠提供UNIX 模式功能，或者你的FTP客戶(hù)端軟件也“應(yīng)該”能夠替你轉(zhuǎn)換過(guò)來(lái)。如果你試圖用一個(gè)沒(méi)有提供文本編輯模式的HTML編輯器來(lái)生成你的robots.txt純文本文件，那你可就是瞎子打蚊子――白費(fèi)力氣了。

對(duì)RES標(biāo)準(zhǔn)的擴(kuò)展：

盡管已經(jīng)提出了一些擴(kuò)展標(biāo)準(zhǔn)，如Allow行或Robot版本控制(例如應(yīng)該忽略大小寫(xiě)和版本號(hào))，但尚未得到RES工作組的正式批準(zhǔn)認(rèn)可。

附錄I. Robots.txt用法舉例：

使用通配符”*”，可設(shè)置對(duì)所有robot的訪(fǎng)問(wèn)權(quán)限。

User-agent: *

Disallow:

表明：允許所有搜索引擎訪(fǎng)問(wèn)網(wǎng)站下的所有內(nèi)容。

User-agent: *

Disallow: /

表明：禁止所有搜索引擎對(duì)網(wǎng)站下所有網(wǎng)頁(yè)的訪(fǎng)問(wèn)。

User-agent: *

Disallow: /cgi-bin/Disallow: /images/

表明：禁止所有搜索引擎進(jìn)入網(wǎng)站的cgi-bin和images目錄及其下所有子目錄。需要注意的是對(duì)每一個(gè)目錄必須分開(kāi)聲明。

User-agent: Roverdog

Disallow: /

表明：禁止Roverdog訪(fǎng)問(wèn)網(wǎng)站上的任何文件。

User-agent: Googlebot

Disallow: cheese.htm

表明：禁止Google的Googlebot訪(fǎng)問(wèn)其網(wǎng)站下的cheese.htm文件。

上面介紹了一些簡(jiǎn)單的設(shè)置，對(duì)于比較復(fù)雜的設(shè)置，可參看一些大型站點(diǎn)如CNN或Looksmart的robots.txt文件(www.abc.com /robots.txt, www.abc.com /robots.txt)

附錄II. 相關(guān)robots.txt文章參考：

1. Robots.txt常見(jiàn)問(wèn)題解析

2. Robots Meta Tag的使用

3. Robots.txt檢測(cè)程序
Robots.txt常見(jiàn)問(wèn)題解析：

我們開(kāi)發(fā)了一個(gè)針對(duì)robots.txt文件的“驗(yàn)檢程序”，同時(shí)又設(shè)計(jì)了一個(gè)搜索程序，專(zhuān)門(mén)下載robots.txt文件，以此對(duì)新推出的這個(gè)“robots.txt驗(yàn)檢程序”進(jìn)行測(cè)試。在對(duì)DMOZ(ODP)中所鏈接的站點(diǎn)進(jìn)行遍歷，共計(jì)檢索24 0萬(wàn)個(gè)站點(diǎn)后，我們總共找到了大概75k的robots.txt文件。

在這些robots.txt文件中，我們發(fā)現(xiàn)了大量的而且是形形色色的問(wèn)題。有超過(guò)5%的robots.txt文件使用了錯(cuò) 誤格式，有超過(guò)2%的文件由于使用的是極其拙劣的格式而導(dǎo)致無(wú)法為任何SPIDER讀取。我們將發(fā)現(xiàn)的一些問(wèn)題在下面列出來(lái)供大家參考借鑒：

錯(cuò)誤1―語(yǔ)法混用

例如：

User-agent: *

Disallow: scooter

正確語(yǔ)法應(yīng)為：

User-agent: scooter

Disallow: *

錯(cuò)誤2―一行Disallow聲明多個(gè)目錄

這是一個(gè)比較常見(jiàn)的錯(cuò)誤。我們發(fā)現(xiàn)很多網(wǎng)站在其robots.txt中，在一個(gè)Disallow指令行中放入了多個(gè)目錄。譬如：Disallow: /css/ /cgi-bin/images/

絕大多數(shù)的spiders對(duì)上述聲明行都無(wú)法做出正確的解析，有些Spiders會(huì)忽略其空格而解析為/css//cgi-bi n//images/，或只解析/images/或/css/，或者根本不予解析。

正確的語(yǔ)法應(yīng)為：

Disallow: /css/

Disallow: /cgi-bin/

Disallow: /images/

錯(cuò)誤3―在DOS模式下編輯robots.txt文件

這也是一個(gè)比較常見(jiàn)的錯(cuò)誤。正確的做法應(yīng)該是在UNIX模式下編輯你的robots.txt文件并以ASCII碼格式上傳。顯然并非所有的FTP客戶(hù)端軟件都能夠天衣無(wú)縫地將文件格式轉(zhuǎn)換為UNIX命令行終端，所以在編輯robots.txt文件時(shí)，一定要確保你的文本編輯器是在UNIX模式下。

錯(cuò)誤4―在指示行末尾加注

在robots.txt文件中，凡以”#”開(kāi)頭的行，均被視為注解內(nèi)容，這和UNIX中的慣例是一樣的。例如：Disall ow: /cgi-bin/ # this bans robots from our cgi-bin

雖然根據(jù)RES標(biāo)準(zhǔn)，在指示行的末尾加注是可行的，但這種格式在過(guò)去卻并非所有的Spiders都能夠支持，有些Spide rs干脆就把整個(gè)句子視為注解內(nèi)容直接跳過(guò)去不讀。當(dāng)然我們知道現(xiàn)如今搜索引擎基本上都能夠支持這種格式，不過(guò)―仍有可能無(wú)法被某些搜索引擎正確解讀，你冒得起這個(gè)險(xiǎn)嗎？我們建議在編輯robots.txt文件時(shí)，最好讓注解自成一行。

錯(cuò)誤5―指令行前有空格

例如”Disallow:/cgi-bin/”，雖然RES標(biāo)準(zhǔn)并未對(duì)這種格式予以特別說(shuō)明，但我們對(duì)這種格式是持極力反對(duì)態(tài)度的。同樣的問(wèn)題擺在你面前你冒得起無(wú)法被Spiders正確解讀的險(xiǎn)嗎?

錯(cuò)誤6–404重定向至另一頁(yè)面

一般沒(méi)有robots.txt的網(wǎng)站會(huì)將對(duì)robots.txt文件的調(diào)用請(qǐng)求轉(zhuǎn)至另一頁(yè)面。這種重定向通常不會(huì)產(chǎn)生服務(wù)器狀態(tài)錯(cuò)誤或重定向狀態(tài)信息。然而因?yàn)槭荢piders自己決定它看到的是robots.txt文件還是一個(gè).html文件。雖然理論上應(yīng)該不會(huì)有什么問(wèn)題，不過(guò)為了保險(xiǎn)起見(jiàn)，不妨在你服務(wù)器的頂級(jí)目錄下放一個(gè)空的robots.txt文件。在www.google.com/bot.htmseo運(yùn)營(yíng)需要什么技術(shù)l下，也提供了相同的建議―“如欲避免網(wǎng)絡(luò)服務(wù)器日志中的出錯(cuò)信息‘找不到文件’，可在其根域下創(chuàng)建一個(gè)空的robots.txt文件。”

錯(cuò)誤7―聲明自相矛盾

例如：

USER-AGENT: EXCITE

DISALLOW:

雖然RES標(biāo)準(zhǔn)忽略大小寫(xiě)(CaseSensitive)，但目錄和文件名卻是大小寫(xiě)敏感的。所以對(duì)于”USER-AGENT”和”DISALLOW”指令，用大小寫(xiě)都是可以的。但對(duì)于所聲明的目錄或文件名卻一定要注意大小寫(xiě)的問(wèn)題。

錯(cuò)誤8―列出所有文件

這也是一種常見(jiàn)錯(cuò)誤，不厭其煩地將目錄下文件全數(shù)列出。例如：

Disallow: /AL/Alabama.html

Disallow: /AL/AR做好seo需要什么技術(shù).html

Disallow: /Az/AZ.html

Disallow: /Az/bali.html

Disallow: /Az/bed-breakfast.html

其實(shí)，上面這么多聲明行只需用目錄選項(xiàng)來(lái)替代：

Disallow: /AL

Disallow: /Az

需要注意的是：反斜杠”/”表示禁止搜索引擎進(jìn)入該目錄。如果只有幾十個(gè)文件需要設(shè)置訪(fǎng)問(wèn)權(quán)限，那倒也無(wú)可厚非。問(wèn)題是我們發(fā)現(xiàn)有一個(gè)robots.txt文件中列出了有400k，多達(dá)4,000個(gè)文件。我們只是納悶看到這么多聲明，有多少Spide rs會(huì)掉頭而去。

錯(cuò)誤9―自創(chuàng)ALLOW指令

沒(méi)有ALLOW指令，只有DISALLOW指令！我們發(fā)現(xiàn)有這樣的用法：

User-agent: Spot

Disallow: /john/

allow: /jane/

正確寫(xiě)法應(yīng)為：

User-agent: Spot

Disallow: /john/

Disallow:

錯(cuò)誤10―對(duì)聲明的目錄無(wú)反斜杠標(biāo)識(shí)

例如我們發(fā)現(xiàn)有這樣的例子：

User-agent: Spot

Disallow: john

對(duì)這樣的記錄Spider該怎么反應(yīng)？按照RES標(biāo)準(zhǔn)，Spider會(huì)將名為”john”的文件和名為”john”的目錄都 DISALLOW。所以要記得使用”/”來(lái)標(biāo)識(shí)所聲明的路徑(目錄)。

我們還發(fā)現(xiàn)，有些網(wǎng)站的優(yōu)化工作做得真徹底，竟然在其robots.txt中也放了關(guān)鍵詞(費(fèi)解，不明白他們?cè)趺聪氲?。這些人一定是把他們的robots.txt純文本文件當(dāng)作是html文件了。(要記住：在FrontPage下是不可能正確創(chuàng)建r obots.txt文件的)

錯(cuò)誤11―網(wǎng)絡(luò)服務(wù)器端的錯(cuò)誤配置

為什么對(duì)robots.txt文件的調(diào)用請(qǐng)求會(huì)產(chǎn)生一個(gè)二進(jìn)制文件？只有網(wǎng)絡(luò)服務(wù)器或FTP客戶(hù)端軟件錯(cuò)誤設(shè)置的情況下才可能發(fā)生這種錯(cuò)誤。建議大家定期檢查自己的robots.txt文件(http:/www.abc.com /robots.txt)。

服務(wù)器/域名“農(nóng)場(chǎng)”

搜索引擎檢測(cè)服務(wù)器或域名“農(nóng)場(chǎng)”(即包含巨量站點(diǎn))的一個(gè)簡(jiǎn)單途徑是看它們的robots.txt。我們發(fā)現(xiàn)規(guī)模在400 到500個(gè)域名的大型域名“農(nóng)場(chǎng)”，其“庫(kù)”內(nèi)站點(diǎn)使用都是同一個(gè)robots.txt文件。seo技術(shù)去哪里可以學(xué)這也就相當(dāng)于告訴搜索引擎這些使用同一robots.txt文件的站點(diǎn)是相關(guān)聯(lián)的。

Google率先支持通配符:

Google是第一家能夠支持robots.txt中通配符文件擴(kuò)展名的搜索引擎。例如:

User-agent: googlebot

Disallow: *.cgi

不過(guò)注意了，由于目前只有Google能夠支持這種格式，所以”USER-AGENT”只能是“Googlebot”。

以上是潮人地東莞seo博客跟大家分享關(guān)于seo優(yōu)化博客：robots寫(xiě)法解析等問(wèn)題，希望能對(duì)大家有所幫助，若有不足之處，請(qǐng)諒解，我們大家可以一起討論關(guān)于網(wǎng)站seo優(yōu)化排名的技巧，一起學(xué)習(xí)，以上內(nèi)容僅供參考。

閱讀全文

本文標(biāo)題"seo優(yōu)化博客：robots寫(xiě)法解析"：http://www.420113.com/jsfx_10314.html

本文版權(quán)歸潮人地seo博客所有，歡迎轉(zhuǎn)載，但未經(jīng)作者同意必須在文章頁(yè)面給出原文連接，否則保留追究法律責(zé)任的權(quán)利。

標(biāo)簽：

上一篇：seo優(yōu)化博客：robots meta標(biāo)簽的作用和意義

下一篇：seo優(yōu)化博客：網(wǎng)站的違規(guī)落地頁(yè)廣告是如何樣的

相關(guān)推薦

標(biāo)簽列表

相關(guān)專(zhuān)題推薦

速更文章

潮人地seo

seo優(yōu)化博客：robots寫(xiě)法解析

「seo如何進(jìn)行優(yōu)化」SEO之原創(chuàng)內(nèi)容如何做

「seo如何進(jìn)行優(yōu)化」利用博客做SEO的方法

「seo如何進(jìn)行優(yōu)化」谷歌SEO如何做？

「seo如何進(jìn)行優(yōu)化」黑帽seo優(yōu)化的方法有那幾種

「seo如何進(jìn)行優(yōu)化」重慶seo實(shí)戰(zhàn)：如何挖掘關(guān)鍵詞

「seo如何進(jìn)行優(yōu)化」最新16個(gè)經(jīng)典seo站內(nèi)優(yōu)化方法