歡迎您來(lái)到潮人地東莞seo博客,本站專(zhuān)業(yè)免費(fèi)分享多元化的seo網(wǎng)站優(yōu)化技術(shù)干貨以及解答seo各種常見(jiàn)問(wèn)題的博客網(wǎng)站

熱門(mén)關(guān)鍵詞: seo優(yōu)化 seo推廣 seo技術(shù) seo博客 seo網(wǎng)站推廣怎么做 seo怎么做 新手做seo怎么做
當(dāng)前位置:seo博客首頁(yè) > seo技術(shù)分享 >

seo優(yōu)化博客:robots寫(xiě)法解析

發(fā)布時(shí)間:2023-03-12 07:00:01 文章出處:潮人地東莞seo博客 作者:東莞seo博客 閱讀數(shù)量:

潮人地東莞seo博客小編下面跟大家分享關(guān)于seo優(yōu)化博客:robots寫(xiě)法解析等問(wèn)題,希望seo專(zhuān)員在做seo優(yōu)化的過(guò)程中有所幫助,內(nèi)容僅供參考。

在潮人地東莞seo博客當(dāng)中發(fā)布了不止一篇關(guān)于robots文件的內(nèi)容,對(duì)于網(wǎng)站的seo基礎(chǔ)優(yōu)化來(lái)說(shuō),robots文件是一個(gè)比較重要的網(wǎng)站輔助文件之一,所以robots寫(xiě)法的準(zhǔn)確性也是至關(guān)重要的。今天小編和朋友們分享的主題就是關(guān)于robots文件的寫(xiě)法,本文轉(zhuǎn)載自百度文庫(kù)的robots.txt寫(xiě)法完全攻略。

seo優(yōu)化博客:robots寫(xiě)法解析

當(dāng)搜索引擎訪(fǎng)問(wèn)一個(gè)網(wǎng)站時(shí),它首先會(huì)檢查該網(wǎng)站的根域下是否有一個(gè)叫做robots.txt的純文本文件。Robots.t xt文件用于限定搜索引擎對(duì)其網(wǎng)站的訪(fǎng)問(wèn)范圍,即告訴搜索引擎網(wǎng)站中哪些文件是允許它進(jìn)行檢索(下載)的。這就是大家在網(wǎng)絡(luò)上常看到的“拒絕Robots訪(fǎng)問(wèn)標(biāo)準(zhǔn)”(Robots Exclusion Standard)。下面我們簡(jiǎn)稱(chēng)RES。

seo博客相關(guān)推薦閱讀:seo優(yōu)化推廣:營(yíng)銷(xiāo)型seo推廣技術(shù)公司(seo是怎樣職業(yè))

Robots.txt文件的格式:

Robots.txt文件的格式比較特殊,它由記錄組成。這些記錄通過(guò)空行分開(kāi)。其中每條記錄均由兩個(gè)域組成:

1) 一個(gè)User-Agent(用戶(hù)代理)字符串行;

2) 若干Disallow字符串行。

記錄格式為:<Field> “:” <value>

下面我們分別對(duì)這兩個(gè)域做進(jìn)一步說(shuō)明。

User-agent(用戶(hù)代理):

User-agent行(用戶(hù)代理行) 用于指定搜索引擎robot的名字,以Google的檢索程序Googlebot為例,有:User-agent: Googlebot

一個(gè)robots.txt中至少要有一條User-agent記錄。如果有多條User-agent記錄,則說(shuō)明有多個(gè)ro bot會(huì)受到RES標(biāo)準(zhǔn)的限制。當(dāng)然了,如果要指定所有的robot,只需用一個(gè)通配符”*”就搞定了,即:User-agen t: *

Disallow(拒絕訪(fǎng)問(wèn)聲明):

在Robots.txt文件中,每條記錄的第二個(gè)域是Disallow:指令行。這些Disallow行聲明了該網(wǎng)站中不希望被訪(fǎng)問(wèn)的文件和(或)目錄。例如”Disallow: email.htm”對(duì)文件的訪(fǎng)問(wèn)進(jìn)行了聲明,禁止Spiders下載網(wǎng)站上的email.htm文件。而”Disallow:/cgi-bin/”則對(duì) cgi-bin目錄的訪(fǎng)問(wèn)進(jìn)行了聲明,拒絕Spiders進(jìn)入該目錄及其子目錄。Disallow聲明行還具有通配符功能。例如上例中”Disallow:/cgi-bin/”聲明了拒絕搜索引擎對(duì)cgi-bin目錄及其子目錄的訪(fǎng)問(wèn),而 “Disallow:/bob”則拒絕搜索引擎對(duì)/bob.html和/bob/indes.html的訪(fǎng)問(wèn)(即無(wú)論是名為bob的文件還是名為bob的目錄下的文件都不允許搜索引擎訪(fǎng)問(wèn))。Disallow記錄如果留空,則說(shuō)明該網(wǎng)站的所有部分都向搜索引擎開(kāi)放。

空格 & 注釋

在robots.txt文件中,凡以”#”開(kāi)頭的行,均被視為注解內(nèi)容,這和UNIX中的慣例是一樣的。但大家需要注意兩個(gè) 問(wèn)題:

1)RES標(biāo)準(zhǔn)允許將注解內(nèi)容放在指示行的末尾,但這種格式并不是所有的Spiders都能夠支持。譬如,并不是所有的Spider s都能夠正確理解”Disallow: bob#comment”這樣一條指令。有的Spiders就會(huì)誤解為Disallow的是”bob#comment”。最好的辦法是使注解自成一行。

2) RES標(biāo)準(zhǔn)允許在一個(gè)指令行的開(kāi)頭存在空格,象”Disallow: bob #comment”,但我們也并不建議大家這么做。

Robots.txt文件的創(chuàng)建:

需要注意的是,應(yīng)當(dāng)在UNIX命令行終端模式下創(chuàng)建Robots.txt純文本文件。好的文本編輯器一般都能夠提供UNIX 模式功能,或者你的FTP客戶(hù)端軟件也“應(yīng)該”能夠替你轉(zhuǎn)換過(guò)來(lái)。如果你試圖用一個(gè)沒(méi)有提供文本編輯模式的HTML編輯器來(lái)生成你的robots.txt純文本文件,那你可就是瞎子打蚊子――白費(fèi)力氣了。

對(duì)RES標(biāo)準(zhǔn)的擴(kuò)展:

盡管已經(jīng)提出了一些擴(kuò)展標(biāo)準(zhǔn),如Allow行或Robot版本控制(例如應(yīng)該忽略大小寫(xiě)和版本號(hào)),但尚未得到RES工作組 的正式批準(zhǔn)認(rèn)可。

附錄I. Robots.txt用法舉例:

使用通配符”*”,可設(shè)置對(duì)所有robot的訪(fǎng)問(wèn)權(quán)限。

User-agent: *

Disallow:

表明:允許所有搜索引擎訪(fǎng)問(wèn)網(wǎng)站下的所有內(nèi)容。

User-agent: *

Disallow: /

表明:禁止所有搜索引擎對(duì)網(wǎng)站下所有網(wǎng)頁(yè)的訪(fǎng)問(wèn)。

User-agent: *

Disallow: /cgi-bin/Disallow: /images/

表明:禁止所有搜索引擎進(jìn)入網(wǎng)站的cgi-bin和images目錄及其下所有子目錄。需要注意的是對(duì)每一個(gè)目錄必須分開(kāi)聲明。

User-agent: Roverdog

Disallow: /

表明:禁止Roverdog訪(fǎng)問(wèn)網(wǎng)站上的任何文件。

User-agent: Googlebot

Disallow: cheese.htm

表明:禁止Google的Googlebot訪(fǎng)問(wèn)其網(wǎng)站下的cheese.htm文件。

上面介紹了一些簡(jiǎn)單的設(shè)置,對(duì)于比較復(fù)雜的設(shè)置,可參看一些大型站點(diǎn)如CNN或Looksmart的robots.txt文 件(www.abc.com /robots.txt, www.abc.com /robots.txt)

附錄II. 相關(guān)robots.txt文章參考:

1. Robots.txt常見(jiàn)問(wèn)題解析

2. Robots Meta Tag的使用

3. Robots.txt檢測(cè)程序
Robots.txt常見(jiàn)問(wèn)題解析:

我們開(kāi)發(fā)了一個(gè)針對(duì)robots.txt文件的“驗(yàn)檢程序”,同時(shí)又設(shè)計(jì)了一個(gè)搜索程序,專(zhuān)門(mén)下載robots.txt文件,以此對(duì)新推出的這個(gè)“robots.txt驗(yàn)檢程序”進(jìn)行測(cè)試。在對(duì)DMOZ(ODP)中所鏈接的站點(diǎn)進(jìn)行遍歷,共計(jì)檢索24 0萬(wàn)個(gè)站點(diǎn)后,我們總共找到了大概75k的robots.txt文件。

在這些robots.txt文件中,我們發(fā)現(xiàn)了大量的而且是形形色色的問(wèn)題。有超過(guò)5%的robots.txt文件使用了錯(cuò) 誤格式,有超過(guò)2%的文件由于使用的是極其拙劣的格式而導(dǎo)致無(wú)法為任何SPIDER讀取。我們將發(fā)現(xiàn)的一些問(wèn)題在下面列出來(lái)供大 家參考借鑒:

錯(cuò)誤1―語(yǔ)法混用

例如:

User-agent: *

Disallow: scooter

正確語(yǔ)法應(yīng)為:

User-agent: scooter

Disallow: *

錯(cuò)誤2―一行Disallow聲明多個(gè)目錄

這是一個(gè)比較常見(jiàn)的錯(cuò)誤。我們發(fā)現(xiàn)很多網(wǎng)站在其robots.txt中,在一個(gè)Disallow指令行中放入了多個(gè)目錄。譬 如:Disallow: /css/ /cgi-bin/images/

絕大多數(shù)的spiders對(duì)上述聲明行都無(wú)法做出正確的解析,有些Spiders會(huì)忽略其空格而解析為/css//cgi-bi n//images/,或只解析/images/或/css/,或者根本不予解析。

正確的語(yǔ)法應(yīng)為:

Disallow: /css/

Disallow: /cgi-bin/

Disallow: /images/

錯(cuò)誤3―在DOS模式下編輯robots.txt文件

這也是一個(gè)比較常見(jiàn)的錯(cuò)誤。正確的做法應(yīng)該是在UNIX模式下編輯你的robots.txt文件并以ASCII碼格式上傳。顯然并非所有的FTP客戶(hù)端軟件都能夠天衣無(wú)縫地將文件格式轉(zhuǎn)換為UNIX命令行終端,所以在編輯robots.txt文件時(shí),一定要確保你的文本編輯器是在UNIX模式下。

錯(cuò)誤4―在指示行末尾加注

在robots.txt文件中,凡以”#”開(kāi)頭的行,均被視為注解內(nèi)容,這和UNIX中的慣例是一樣的。例如:Disall ow: /cgi-bin/ # this bans robots from our cgi-bin

雖然根據(jù)RES標(biāo)準(zhǔn),在指示行的末尾加注是可行的,但這種格式在過(guò)去卻并非所有的Spiders都能夠支持,有些Spide rs干脆就把整個(gè)句子視為注解內(nèi)容直接跳過(guò)去不讀。當(dāng)然我們知道現(xiàn)如今搜索引擎基本上都能夠支持這種格式,不過(guò)―仍有可能無(wú)法被某些搜索引擎正確解讀,你冒得起這個(gè)險(xiǎn)嗎?我們建議在編輯robots.txt文件時(shí),最好讓注解自成一行。

錯(cuò)誤5―指令行前有空格

例如”Disallow:/cgi-bin/”,雖然RES標(biāo)準(zhǔn)并未對(duì)這種格式予以特別說(shuō)明,但我們對(duì)這種格式是持極力反對(duì)態(tài)度的。同樣的問(wèn)題擺在你面前 你冒得起無(wú)法被Spiders正確解讀的險(xiǎn)嗎?

錯(cuò)誤6–404重定向至另一頁(yè)面

一般沒(méi)有robots.txt的網(wǎng)站會(huì)將對(duì)robots.txt文件的調(diào)用請(qǐng)求轉(zhuǎn)至另一頁(yè)面。這種重定向通常不會(huì)產(chǎn)生服務(wù)器狀態(tài)錯(cuò)誤或重定向狀態(tài)信息。然而因?yàn)槭荢piders自己決定它看到的是robots.txt文件還是一個(gè).html文件。雖然理論上應(yīng)該不會(huì)有什么問(wèn)題,不過(guò)為了保險(xiǎn)起見(jiàn),不妨在你服務(wù)器的頂級(jí)目錄下放一個(gè)空的robots.txt文件。在www.google.com/bot.htmseo運(yùn)營(yíng)需要什么技術(shù)l下,也提供了相同的建議―“如欲避免網(wǎng)絡(luò)服務(wù)器日志中的出錯(cuò)信息‘找不到文件’,可在其根域下創(chuàng)建一個(gè)空的robots.txt文件。”

錯(cuò)誤7―聲明自相矛盾

例如:

USER-AGENT: EXCITE

DISALLOW:

雖然RES標(biāo)準(zhǔn)忽略大小寫(xiě)(CaseSensitive),但目錄和文件名卻是大小寫(xiě)敏感的。所以對(duì)于”USER-AGENT”和”DISALLOW”指令,用大小 寫(xiě)都是可以的。但對(duì)于所聲明的目錄或文件名卻一定要注意大小寫(xiě)的問(wèn)題。

錯(cuò)誤8―列出所有文件

這也是一種常見(jiàn)錯(cuò)誤,不厭其煩地將目錄下文件全數(shù)列出。例如:

Disallow: /AL/Alabama.html

Disallow: /AL/AR做好seo需要什么技術(shù).html

Disallow: /Az/AZ.html

Disallow: /Az/bali.html

Disallow: /Az/bed-breakfast.html

其實(shí),上面這么多聲明行只需用目錄選項(xiàng)來(lái)替代:

Disallow: /AL

Disallow: /Az

需要注意的是:反斜杠”/”表示禁止搜索引擎進(jìn)入該目錄。如果只有幾十個(gè)文件需要設(shè)置訪(fǎng)問(wèn)權(quán)限,那倒也無(wú)可厚非。問(wèn)題是我們發(fā)現(xiàn)有一個(gè)robots.txt文件中列出了有400k,多達(dá)4,000個(gè)文件。我們只是納悶看到這么多聲明,有多少Spide rs會(huì)掉頭而去。

錯(cuò)誤9―自創(chuàng)ALLOW指令

沒(méi)有ALLOW指令,只有DISALLOW指令!我們發(fā)現(xiàn)有這樣的用法:

User-agent: Spot

Disallow: /john/

allow: /jane/

正確寫(xiě)法應(yīng)為:

User-agent: Spot

Disallow: /john/

Disallow:

錯(cuò)誤10―對(duì)聲明的目錄無(wú)反斜杠標(biāo)識(shí)

例如我們發(fā)現(xiàn)有這樣的例子:

User-agent: Spot

Disallow: john

對(duì)這樣的記錄Spider該怎么反應(yīng)?按照RES標(biāo)準(zhǔn),Spider會(huì)將名為”john”的文件和名為”john”的目錄都 DISALLOW。所以要記得使用”/”來(lái)標(biāo)識(shí)所聲明的路徑(目錄)。

我們還發(fā)現(xiàn),有些網(wǎng)站的優(yōu)化工作做得真徹底,竟然在其robots.txt中也放了關(guān)鍵詞(費(fèi)解,不明白他們?cè)趺聪氲?。這 些人一定是把他們的robots.txt純文本文件當(dāng)作是html文件了。(要記住:在FrontPage下是不可能正確創(chuàng)建r obots.txt文件的)

錯(cuò)誤11―網(wǎng)絡(luò)服務(wù)器端的錯(cuò)誤配置

為什么對(duì)robots.txt文件的調(diào)用請(qǐng)求會(huì)產(chǎn)生一個(gè)二進(jìn)制文件?只有網(wǎng)絡(luò)服務(wù)器或FTP客戶(hù)端軟件錯(cuò)誤設(shè)置的情況下才可 能發(fā)生這種錯(cuò)誤。建議大家定期檢查自己的robots.txt文件(http:/www.abc.com /robots.txt)。

服務(wù)器/域名“農(nóng)場(chǎng)”

搜索引擎檢測(cè)服務(wù)器或域名“農(nóng)場(chǎng)”(即包含巨量站點(diǎn))的一個(gè)簡(jiǎn)單途徑是看它們的robots.txt。我們發(fā)現(xiàn)規(guī)模在400 到500個(gè)域名的大型域名“農(nóng)場(chǎng)”,其“庫(kù)”內(nèi)站點(diǎn)使用都是同一個(gè)robots.txt文件。seo技術(shù)去哪里可以學(xué)這也就相當(dāng)于告訴搜索引擎這些使用同一robots.txt文件的站點(diǎn)是相關(guān)聯(lián)的。

Google率先支持通配符:

Google是第一家能夠支持robots.txt中通配符文件擴(kuò)展名的搜索引擎。例如:

User-agent: googlebot

Disallow: *.cgi

不過(guò)注意了,由于目前只有Google能夠支持這種格式,所以”USER-AGENT”只能是“Googlebot”。

以上是潮人地東莞seo博客跟大家分享關(guān)于seo優(yōu)化博客:robots寫(xiě)法解析等問(wèn)題,希望能對(duì)大家有所幫助,若有不足之處,請(qǐng)諒解,我們大家可以一起討論關(guān)于網(wǎng)站seo優(yōu)化排名的技巧,一起學(xué)習(xí),以上內(nèi)容僅供參考。

閱讀全文
本文標(biāo)題"seo優(yōu)化博客:robots寫(xiě)法解析":http://www.420113.com/jsfx_10314.html
本文版權(quán)歸潮人地seo博客所有,歡迎轉(zhuǎn)載,但未經(jīng)作者同意必須在文章頁(yè)面給出原文連接,否則保留追究法律責(zé)任的權(quán)利。
標(biāo)簽:
合作伙伴
主站蜘蛛池模板: 久久久无码精品亚洲日韩按摩| 国产精品亚洲а∨无码播放麻豆| 中文人妻无码一区二区三区 | 精品无码久久久久久国产| 成人免费无码大片a毛片| 亚洲情XO亚洲色XO无码| 亚洲一本到无码av中文字幕| 中文字幕av无码专区第一页| 亚洲中文无码永久免| 无码性午夜视频在线观看| 国产精品无码一区二区在线观| 国产成A人亚洲精V品无码性色 | 十八禁无码免费网站| 日韩人妻系列无码专区| 无码人妻久久一区二区三区| 人妻少妇乱子伦无码专区| 亚洲中文无码亚洲人成影院| 熟妇人妻无码中文字幕| 中文精品无码中文字幕无码专区| 日韩A无码AV一区二区三区| 一本色道久久综合无码人妻| 无码国产色欲XXXXX视频| 国产精品无码a∨精品| 国产日产欧洲无码视频无遮挡 | 日韩精品无码一区二区三区AV | 无码av不卡一区二区三区| 无码尹人久久相蕉无码| 亚洲爆乳精品无码一区二区| 无码国产精品一区二区免费3p | 亚洲成a∧人片在线观看无码| 麻豆aⅴ精品无码一区二区| 久久无码av三级| 成人无码AV一区二区| 免费无码作爱视频| 中文字幕丰满乱孑伦无码专区| 人妻少妇AV无码一区二区| 亚洲人成无码网站| 无码人妻一区二区三区免费看| 水蜜桃av无码一区二区| AV大片在线无码永久免费| 无码日韩人妻av一区免费|