潮人地東莞seo博客小編下面跟大家分享關(guān)于SEO教程博客:關(guān)于robots.txt文件的寫法和正確使用方法等問題,希望seo專員在做seo優(yōu)化的過程中有所幫助,內(nèi)容僅供參考。

SEO教程博客:關(guān)于robots.txt文件的寫法和正確使用方法
網(wǎng)站的robots.txt文件主要用于控制seo搜索引擎對網(wǎng)站的收錄,它是針對搜索引擎爬蟲而設(shè)定的一個(gè)網(wǎng)絡(luò)協(xié)議,用來告訴網(wǎng)絡(luò)爬蟲哪些頁面可以訪問。哪些頁面不能訪問。具體可精確到某個(gè)欄目、某個(gè)頁面、某個(gè)鏈接。通過robots.txt文件,我們可以讓搜索引擎爬蟲按照自己的規(guī)劃去訪問網(wǎng)站內(nèi)容,對于不想收錄的頁面和內(nèi)容采用robots.txt文件進(jìn)行屏蔽,的好處一是減少了搜素引擎爬蟲的工作量,二是使整個(gè)頁面的權(quán)重更容易集中。
一、什么是robots.txt文件?
搜索引擎使用spider程序自動(dòng)訪問互聯(lián)網(wǎng)上的網(wǎng)頁并獲取網(wǎng)頁信息。spider在訪問一個(gè)網(wǎng)站時(shí),首先會(huì)檢查該網(wǎng)站的根域下是否有一個(gè)叫做 robots.txt的純文本文件,這個(gè)文件用于指定spider在您網(wǎng)站上的抓取范圍。您可以在您的網(wǎng)站中創(chuàng)建一個(gè)robots.txt,在文件中聲明 該網(wǎng)站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。 請注意,僅當(dāng)您的網(wǎng)站包含不希望被搜索引擎收錄的內(nèi)容時(shí),才需要使用robots.txt文件。如果您希望搜索引擎收錄網(wǎng)站上所有內(nèi)容,請勿建立robots.txt文件。
seo博客相關(guān)推薦閱讀:seo優(yōu)化方法之:網(wǎng)站被劫持如何修復(fù)
二、robots.txt文件的寫法-如何正確使用robots.txt文件
例1. 禁止所有搜索引擎訪問網(wǎng)站的任何部分User-agent: *Disallow: /
例2. 允許所有的robot訪問(或者也可以建一個(gè)空文件 “/robots.txt”)User-agent: *Disallow: 或者User-agent: *Allow: /
例3. 僅禁止Baiduspider訪問您的網(wǎng)站User-agent: BaiduspiderDisallow: /
例4. 僅允許Baiduspider訪問您的網(wǎng)站User-agent: BaiduspiderDisallow:User-agent: *Disallow: /
例5. 禁止spider訪問特定目錄在這個(gè)例子中,該網(wǎng)站有三個(gè)目錄對搜索引擎的訪問做了限制,即robot不會(huì)訪問這三個(gè)目錄。需要注意的是對每一個(gè)目錄必須分開聲明,而不能寫成 “Disallow: /cgi-bin/ /tmp/”。User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/例6. 允許訪問特定目錄中的部分urlUser-agent: *Allow: /cgi-bin/seeAllow: /tmp/hiAllow: /~joe/lookDisallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/
例7. 使用”*”限制訪問url禁止訪問/cgi-bin/目錄下的所有以”.htm”為后綴的URL(包含子目錄)。User-agent: *Disallow: /cgi-bin/*.htm
例8. 使用”$”限制訪問url僅允許訪問以”.htm”為后綴的URL。User-agent: *Allow: .htm$Disallow: /
例9. 禁止訪問網(wǎng)站中所有的動(dòng)態(tài)頁面User-agent: *Disallow: /*?*
例10. 禁止Baiduspider抓取網(wǎng)站上所有圖片僅允許抓取網(wǎng)頁,禁止抓取任何圖片。User-agent: BaiduspiderDisallow: .jpg$Disallow: .jpeg$Disallow: .gif$Disallow: .png$Disallow: .bmp$
例11. 僅允許Baiduspider抓取網(wǎng)頁和.gif格式圖片允許抓取網(wǎng)頁和gif格式圖片,不允許抓取其他格式圖片User-agent: BaiduspiderAllow: .gif$Disallow: .jpg$Disallow: .jpeg$Disallow: .png$Disallow: .bmp$
例12. 僅禁止Baiduspider抓取.jpg格式圖片User-agent: BaiduspiderDisallow: .jpg$
三、 robots.txt文件放在哪里?
robots.txt文件應(yīng)該放置在網(wǎng)站根目錄下。舉例來說,當(dāng)spider訪問一個(gè)網(wǎng)站(比如 http://www.abc.com)時(shí),首先會(huì)檢查該網(wǎng)站中是否存在http://www.abc.com/robots.txt這個(gè)文件,如果 Spider找到這個(gè)文件,它就會(huì)根據(jù)這個(gè)文件的內(nèi)容,來確定它訪問權(quán)限的范圍。
四、robots.txt文件的其他用途
1、如何禁止seo搜索引擎跟蹤網(wǎng)頁的鏈接,而只對網(wǎng)頁建索引?
如果您不想搜索引擎追蹤此網(wǎng)頁上的鏈接,且不傳遞鏈接的權(quán)重,請將此元標(biāo)記置入網(wǎng)頁的 部分:
如果您不想百度追蹤某一條特定鏈接,百度還支持更精確的控制,請將此標(biāo)記直接寫在某條鏈接上:sign in要允許其他搜索引擎跟蹤,但僅防止百度跟蹤您網(wǎng)頁的鏈接,請將此元標(biāo)記置入網(wǎng)頁的 部分:
2、如何禁止搜索引擎在搜索結(jié)果中顯示網(wǎng)頁快照,而只對網(wǎng)頁建索引?
要防止所有搜索引擎顯示您網(wǎng)站的快照,請將此元標(biāo)記置入網(wǎng)頁的部分:
要允許其他搜索引擎顯示快照,但僅防止百度顯示,請使用以下標(biāo)記:
注:此標(biāo)記只是禁止百度顯示該網(wǎng)頁的快照,百度會(huì)繼續(xù)為網(wǎng)頁建索引,并在搜索結(jié)果中顯示網(wǎng)頁摘要。
3、我想禁止百度圖片搜索收錄某些圖片,該如何設(shè)置?
禁止Baiduspider抓取網(wǎng)站上所有圖片、禁止或允許Baiduspider抓取網(wǎng)站上的某種特定格式的圖片文件可以通過設(shè)置robots實(shí)現(xiàn),請參考“robots.txt文件的寫法”中的例10、11、12。
五、robots.txt文件的適用范圍及原則
robots.txt文件適用于絕大多數(shù)的主流百度seo搜素引擎,但也不排除個(gè)別搜索引擎無視這一原則。
Robots協(xié)議是國際互聯(lián)網(wǎng)界通行的道德規(guī)范,基于以下原則建立:
1、搜索技術(shù)應(yīng)服務(wù)于人類,同時(shí)尊重信息提供者的意愿,并維護(hù)其隱私權(quán);
2、網(wǎng)站有義務(wù)保護(hù)其使用者的個(gè)人信息和隱私不被侵犯。
以上是潮人地東莞seo博客跟大家分享關(guān)于SEO教程博客:關(guān)于robots.txt文件的寫法和正確使用方法等問題,希望能對大家有所幫助,若有不足之處,請諒解,我們大家可以一起討論關(guān)于新手如何學(xué)seo 推廣的技巧,一起學(xué)習(xí),以上內(nèi)容僅供參考。