潮人地東莞seo博客小編下面跟大家分享關(guān)于seo優(yōu)化博客:robots寫(xiě)法解析等問(wèn)題,希望seo專(zhuān)員在做seo優(yōu)化的過(guò)程中有所幫助,內(nèi)容僅供參考。
在潮人地東莞seo博客當(dāng)中發(fā)布了不止一篇關(guān)于robots文件的內(nèi)容,對(duì)于網(wǎng)站的seo基礎(chǔ)優(yōu)化來(lái)說(shuō),robots文件是一個(gè)比較重要的網(wǎng)站輔助文件之一,所以robots寫(xiě)法的準(zhǔn)確性也是至關(guān)重要的。今天小編和朋友們分享的主題就是關(guān)于robots文件的寫(xiě)法,本文轉(zhuǎn)載自百度文庫(kù)的robots.txt寫(xiě)法完全攻略。

當(dāng)搜索引擎訪(fǎng)問(wèn)一個(gè)網(wǎng)站時(shí),它首先會(huì)檢查該網(wǎng)站的根域下是否有一個(gè)叫做robots.txt的純文本文件。Robots.t xt文件用于限定搜索引擎對(duì)其網(wǎng)站的訪(fǎng)問(wèn)范圍,即告訴搜索引擎網(wǎng)站中哪些文件是允許它進(jìn)行檢索(下載)的。這就是大家在網(wǎng)絡(luò)上常看到的“拒絕Robots訪(fǎng)問(wèn)標(biāo)準(zhǔn)”(Robots Exclusion Standard)。下面我們簡(jiǎn)稱(chēng)RES。
seo博客相關(guān)推薦閱讀:seo優(yōu)化推廣:營(yíng)銷(xiāo)型seo推廣技術(shù)公司(seo是怎樣職業(yè))
Robots.txt文件的格式:
Robots.txt文件的格式比較特殊,它由記錄組成。這些記錄通過(guò)空行分開(kāi)。其中每條記錄均由兩個(gè)域組成:
1) 一個(gè)User-Agent(用戶(hù)代理)字符串行;
2) 若干Disallow字符串行。
記錄格式為:<Field> “:” <value>
下面我們分別對(duì)這兩個(gè)域做進(jìn)一步說(shuō)明。
User-agent(用戶(hù)代理):
User-agent行(用戶(hù)代理行) 用于指定搜索引擎robot的名字,以Google的檢索程序Googlebot為例,有:User-agent: Googlebot
一個(gè)robots.txt中至少要有一條User-agent記錄。如果有多條User-agent記錄,則說(shuō)明有多個(gè)ro bot會(huì)受到RES標(biāo)準(zhǔn)的限制。當(dāng)然了,如果要指定所有的robot,只需用一個(gè)通配符”*”就搞定了,即:User-agen t: *
Disallow(拒絕訪(fǎng)問(wèn)聲明):
在Robots.txt文件中,每條記錄的第二個(gè)域是Disallow:指令行。這些Disallow行聲明了該網(wǎng)站中不希望被訪(fǎng)問(wèn)的文件和(或)目錄。例如”Disallow: email.htm”對(duì)文件的訪(fǎng)問(wèn)進(jìn)行了聲明,禁止Spiders下載網(wǎng)站上的email.htm文件。而”Disallow:/cgi-bin/”則對(duì) cgi-bin目錄的訪(fǎng)問(wèn)進(jìn)行了聲明,拒絕Spiders進(jìn)入該目錄及其子目錄。Disallow聲明行還具有通配符功能。例如上例中”Disallow:/cgi-bin/”聲明了拒絕搜索引擎對(duì)cgi-bin目錄及其子目錄的訪(fǎng)問(wèn),而 “Disallow:/bob”則拒絕搜索引擎對(duì)/bob.html和/bob/indes.html的訪(fǎng)問(wèn)(即無(wú)論是名為bob的文件還是名為bob的目錄下的文件都不允許搜索引擎訪(fǎng)問(wèn))。Disallow記錄如果留空,則說(shuō)明該網(wǎng)站的所有部分都向搜索引擎開(kāi)放。
空格 & 注釋
在robots.txt文件中,凡以”#”開(kāi)頭的行,均被視為注解內(nèi)容,這和UNIX中的慣例是一樣的。但大家需要注意兩個(gè) 問(wèn)題:
1)RES標(biāo)準(zhǔn)允許將注解內(nèi)容放在指示行的末尾,但這種格式并不是所有的Spiders都能夠支持。譬如,并不是所有的Spider s都能夠正確理解”Disallow: bob#comment”這樣一條指令。有的Spiders就會(huì)誤解為Disallow的是”bob#comment”。最好的辦法是使注解自成一行。
2) RES標(biāo)準(zhǔn)允許在一個(gè)指令行的開(kāi)頭存在空格,象”Disallow: bob #comment”,但我們也并不建議大家這么做。
Robots.txt文件的創(chuàng)建:
需要注意的是,應(yīng)當(dāng)在UNIX命令行終端模式下創(chuàng)建Robots.txt純文本文件。好的文本編輯器一般都能夠提供UNIX 模式功能,或者你的FTP客戶(hù)端軟件也“應(yīng)該”能夠替你轉(zhuǎn)換過(guò)來(lái)。如果你試圖用一個(gè)沒(méi)有提供文本編輯模式的HTML編輯器來(lái)生成你的robots.txt純文本文件,那你可就是瞎子打蚊子――白費(fèi)力氣了。
對(duì)RES標(biāo)準(zhǔn)的擴(kuò)展:
盡管已經(jīng)提出了一些擴(kuò)展標(biāo)準(zhǔn),如Allow行或Robot版本控制(例如應(yīng)該忽略大小寫(xiě)和版本號(hào)),但尚未得到RES工作組 的正式批準(zhǔn)認(rèn)可。
附錄I. Robots.txt用法舉例:
使用通配符”*”,可設(shè)置對(duì)所有robot的訪(fǎng)問(wèn)權(quán)限。
User-agent: *
Disallow:
表明:允許所有搜索引擎訪(fǎng)問(wèn)網(wǎng)站下的所有內(nèi)容。
User-agent: *
Disallow: /
表明:禁止所有搜索引擎對(duì)網(wǎng)站下所有網(wǎng)頁(yè)的訪(fǎng)問(wèn)。
User-agent: *
Disallow: /cgi-bin/Disallow: /images/
表明:禁止所有搜索引擎進(jìn)入網(wǎng)站的cgi-bin和images目錄及其下所有子目錄。需要注意的是對(duì)每一個(gè)目錄必須分開(kāi)聲明。
User-agent: Roverdog
Disallow: /
表明:禁止Roverdog訪(fǎng)問(wèn)網(wǎng)站上的任何文件。
User-agent: Googlebot
Disallow: cheese.htm
表明:禁止Google的Googlebot訪(fǎng)問(wèn)其網(wǎng)站下的cheese.htm文件。
上面介紹了一些簡(jiǎn)單的設(shè)置,對(duì)于比較復(fù)雜的設(shè)置,可參看一些大型站點(diǎn)如CNN或Looksmart的robots.txt文 件(www.abc.com /robots.txt, www.abc.com /robots.txt)
附錄II. 相關(guān)robots.txt文章參考:
1. Robots.txt常見(jiàn)問(wèn)題解析
2. Robots Meta Tag的使用
3. Robots.txt檢測(cè)程序
Robots.txt常見(jiàn)問(wèn)題解析:
我們開(kāi)發(fā)了一個(gè)針對(duì)robots.txt文件的“驗(yàn)檢程序”,同時(shí)又設(shè)計(jì)了一個(gè)搜索程序,專(zhuān)門(mén)下載robots.txt文件,以此對(duì)新推出的這個(gè)“robots.txt驗(yàn)檢程序”進(jìn)行測(cè)試。在對(duì)DMOZ(ODP)中所鏈接的站點(diǎn)進(jìn)行遍歷,共計(jì)檢索24 0萬(wàn)個(gè)站點(diǎn)后,我們總共找到了大概75k的robots.txt文件。
在這些robots.txt文件中,我們發(fā)現(xiàn)了大量的而且是形形色色的問(wèn)題。有超過(guò)5%的robots.txt文件使用了錯(cuò) 誤格式,有超過(guò)2%的文件由于使用的是極其拙劣的格式而導(dǎo)致無(wú)法為任何SPIDER讀取。我們將發(fā)現(xiàn)的一些問(wèn)題在下面列出來(lái)供大 家參考借鑒:
錯(cuò)誤1―語(yǔ)法混用
例如:
User-agent: *
Disallow: scooter
正確語(yǔ)法應(yīng)為:
User-agent: scooter
Disallow: *
錯(cuò)誤2―一行Disallow聲明多個(gè)目錄
這是一個(gè)比較常見(jiàn)的錯(cuò)誤。我們發(fā)現(xiàn)很多網(wǎng)站在其robots.txt中,在一個(gè)Disallow指令行中放入了多個(gè)目錄。譬 如:Disallow: /css/ /cgi-bin/images/
絕大多數(shù)的spiders對(duì)上述聲明行都無(wú)法做出正確的解析,有些Spiders會(huì)忽略其空格而解析為/css//cgi-bi n//images/,或只解析/images/或/css/,或者根本不予解析。
正確的語(yǔ)法應(yīng)為:
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/
錯(cuò)誤3―在DOS模式下編輯robots.txt文件
這也是一個(gè)比較常見(jiàn)的錯(cuò)誤。正確的做法應(yīng)該是在UNIX模式下編輯你的robots.txt文件并以ASCII碼格式上傳。顯然并非所有的FTP客戶(hù)端軟件都能夠天衣無(wú)縫地將文件格式轉(zhuǎn)換為UNIX命令行終端,所以在編輯robots.txt文件時(shí),一定要確保你的文本編輯器是在UNIX模式下。
錯(cuò)誤4―在指示行末尾加注
在robots.txt文件中,凡以”#”開(kāi)頭的行,均被視為注解內(nèi)容,這和UNIX中的慣例是一樣的。例如:Disall ow: /cgi-bin/ # this bans robots from our cgi-bin
雖然根據(jù)RES標(biāo)準(zhǔn),在指示行的末尾加注是可行的,但這種格式在過(guò)去卻并非所有的Spiders都能夠支持,有些Spide rs干脆就把整個(gè)句子視為注解內(nèi)容直接跳過(guò)去不讀。當(dāng)然我們知道現(xiàn)如今搜索引擎基本上都能夠支持這種格式,不過(guò)―仍有可能無(wú)法被某些搜索引擎正確解讀,你冒得起這個(gè)險(xiǎn)嗎?我們建議在編輯robots.txt文件時(shí),最好讓注解自成一行。
錯(cuò)誤5―指令行前有空格
例如”Disallow:/cgi-bin/”,雖然RES標(biāo)準(zhǔn)并未對(duì)這種格式予以特別說(shuō)明,但我們對(duì)這種格式是持極力反對(duì)態(tài)度的。同樣的問(wèn)題擺在你面前 你冒得起無(wú)法被Spiders正確解讀的險(xiǎn)嗎?
錯(cuò)誤6–404重定向至另一頁(yè)面
一般沒(méi)有robots.txt的網(wǎng)站會(huì)將對(duì)robots.txt文件的調(diào)用請(qǐng)求轉(zhuǎn)至另一頁(yè)面。這種重定向通常不會(huì)產(chǎn)生服務(wù)器狀態(tài)錯(cuò)誤或重定向狀態(tài)信息。然而因?yàn)槭荢piders自己決定它看到的是robots.txt文件還是一個(gè).html文件。雖然理論上應(yīng)該不會(huì)有什么問(wèn)題,不過(guò)為了保險(xiǎn)起見(jiàn),不妨在你服務(wù)器的頂級(jí)目錄下放一個(gè)空的robots.txt文件。在www.google.com/bot.htmseo運(yùn)營(yíng)需要什么技術(shù)l下,也提供了相同的建議―“如欲避免網(wǎng)絡(luò)服務(wù)器日志中的出錯(cuò)信息‘找不到文件’,可在其根域下創(chuàng)建一個(gè)空的robots.txt文件。”
錯(cuò)誤7―聲明自相矛盾
例如:
USER-AGENT: EXCITE
DISALLOW:
雖然RES標(biāo)準(zhǔn)忽略大小寫(xiě)(CaseSensitive),但目錄和文件名卻是大小寫(xiě)敏感的。所以對(duì)于”USER-AGENT”和”DISALLOW”指令,用大小 寫(xiě)都是可以的。但對(duì)于所聲明的目錄或文件名卻一定要注意大小寫(xiě)的問(wèn)題。
錯(cuò)誤8―列出所有文件
這也是一種常見(jiàn)錯(cuò)誤,不厭其煩地將目錄下文件全數(shù)列出。例如:
Disallow: /AL/Alabama.html
Disallow: /AL/AR做好seo需要什么技術(shù).html
Disallow: /Az/AZ.html
Disallow: /Az/bali.html
Disallow: /Az/bed-breakfast.html
其實(shí),上面這么多聲明行只需用目錄選項(xiàng)來(lái)替代:
Disallow: /AL
Disallow: /Az
需要注意的是:反斜杠”/”表示禁止搜索引擎進(jìn)入該目錄。如果只有幾十個(gè)文件需要設(shè)置訪(fǎng)問(wèn)權(quán)限,那倒也無(wú)可厚非。問(wèn)題是我們發(fā)現(xiàn)有一個(gè)robots.txt文件中列出了有400k,多達(dá)4,000個(gè)文件。我們只是納悶看到這么多聲明,有多少Spide rs會(huì)掉頭而去。
錯(cuò)誤9―自創(chuàng)ALLOW指令
沒(méi)有ALLOW指令,只有DISALLOW指令!我們發(fā)現(xiàn)有這樣的用法:
User-agent: Spot
Disallow: /john/
allow: /jane/
正確寫(xiě)法應(yīng)為:
User-agent: Spot
Disallow: /john/
Disallow:
錯(cuò)誤10―對(duì)聲明的目錄無(wú)反斜杠標(biāo)識(shí)
例如我們發(fā)現(xiàn)有這樣的例子:
User-agent: Spot
Disallow: john
對(duì)這樣的記錄Spider該怎么反應(yīng)?按照RES標(biāo)準(zhǔn),Spider會(huì)將名為”john”的文件和名為”john”的目錄都 DISALLOW。所以要記得使用”/”來(lái)標(biāo)識(shí)所聲明的路徑(目錄)。
我們還發(fā)現(xiàn),有些網(wǎng)站的優(yōu)化工作做得真徹底,竟然在其robots.txt中也放了關(guān)鍵詞(費(fèi)解,不明白他們?cè)趺聪氲?。這 些人一定是把他們的robots.txt純文本文件當(dāng)作是html文件了。(要記住:在FrontPage下是不可能正確創(chuàng)建r obots.txt文件的)
錯(cuò)誤11―網(wǎng)絡(luò)服務(wù)器端的錯(cuò)誤配置
為什么對(duì)robots.txt文件的調(diào)用請(qǐng)求會(huì)產(chǎn)生一個(gè)二進(jìn)制文件?只有網(wǎng)絡(luò)服務(wù)器或FTP客戶(hù)端軟件錯(cuò)誤設(shè)置的情況下才可 能發(fā)生這種錯(cuò)誤。建議大家定期檢查自己的robots.txt文件(http:/www.abc.com /robots.txt)。
服務(wù)器/域名“農(nóng)場(chǎng)”
搜索引擎檢測(cè)服務(wù)器或域名“農(nóng)場(chǎng)”(即包含巨量站點(diǎn))的一個(gè)簡(jiǎn)單途徑是看它們的robots.txt。我們發(fā)現(xiàn)規(guī)模在400 到500個(gè)域名的大型域名“農(nóng)場(chǎng)”,其“庫(kù)”內(nèi)站點(diǎn)使用都是同一個(gè)robots.txt文件。seo技術(shù)去哪里可以學(xué)這也就相當(dāng)于告訴搜索引擎這些使用同一robots.txt文件的站點(diǎn)是相關(guān)聯(lián)的。
Google率先支持通配符:
Google是第一家能夠支持robots.txt中通配符文件擴(kuò)展名的搜索引擎。例如:
User-agent: googlebot
Disallow: *.cgi
不過(guò)注意了,由于目前只有Google能夠支持這種格式,所以”USER-AGENT”只能是“Googlebot”。
以上是潮人地東莞seo博客跟大家分享關(guān)于seo優(yōu)化博客:robots寫(xiě)法解析等問(wèn)題,希望能對(duì)大家有所幫助,若有不足之處,請(qǐng)諒解,我們大家可以一起討論關(guān)于網(wǎng)站seo優(yōu)化排名的技巧,一起學(xué)習(xí),以上內(nèi)容僅供參考。