「seo專業整站優化」SEO入門：robots.txt的終極指南

發布時間：2023-09-20 08:40:01 文章出處：潮人地東莞seo博客作者：東莞seo博客閱讀數量：

潮人地東莞seo博客小編下面跟大家分享關于「seo專業整站優化」SEO入門：robots.txt的終極指南等問題，希望seo專員在做seo優化的過程中有所幫助，內容僅供參考。

robots.txt文件是告訴搜索引擎在您網站上的頁面哪些可以進入哪些不能進入的主要方式之一。所有主要的搜索引擎都支持其提供的基本功能。今天我們的文章將涵蓋了ro

robots.txt文件是告訴搜索引擎在您網站上的頁面哪些可以進入哪些不能進入的主要方式之一。所有主要的搜索引擎都支持其提供的基本功能。今天我們的文章將涵蓋了robots.txt在網站上使用的所有方式。盡管看起來很簡單，但您在網站上犯的任何robots.txt錯誤都會嚴重損害您的網站，因此請務必先理解本文再進行實踐。

什么是robots.txt文件？

seo博客相關推薦閱讀：seo學習：光澤專業seo技術(光澤在線最新招聘)

該robots.txt文件做什么？

我應該在哪里存放robots.txt文件？

使用robots.txt的利與弊

管理抓取預算

缺點：不從搜索結果中刪除頁面

缺點：不傳播鏈接價值

robots.txt語法

User-agent指令

搜索引擎蜘蛛最常見的User-agent

Disallow指令

如何使用通配符/正則表達式

非標準robots.txt搜尋指令

Allow指令

host指令

crawl-delay指令

sitemapXML Sitemaps 的指令

什么是robots.txt文件？

抓取指令

robots.txt文件是一個由搜索引擎蜘蛛讀取并遵循嚴格的語法內容所組成的文本文件。文件的語法很嚴格，僅因為它必須是計算機可讀的。這意味著這里沒有錯誤的余地。

robots.txt文件也稱為“機器人排除協議”，是早期搜索引擎蜘蛛開發人員達成共識的結果。它不是任何標準組織制定的官方標準，但是所有主要的搜索引擎都遵守它。

robots.txt文件做什么？

搜索引擎通過抓取頁面，跟隨鏈接從站點A到站點B再到站點C的方式對網頁進行索引。在搜索引擎搜索遇到新網站時，它將打開該網站的robots.txt文件，該文件告訴搜索引擎允許該站點上的哪些URL進行索引。

搜索引擎通常會緩存robots.txt的內容，但通常會每天刷新幾次，因此更改會很快反映出來。

我應該在哪里存放robots.txt文件？

robots.txt文件應始終位于域的根目錄。因此，如果您的域名為，則應位于https://www.example.com/robots.txt。

robots.txt編寫的內容也很重要。內容區分大小寫，因此請正確編寫，否則將無法使用。

使用robots.txt的利與弊

管理抓取預算

眾所周知，搜索蜘蛛會以預定的“準則”進入網站，以獲取要爬取的頁面數（根據網站的權限/大小/聲譽得出的抓取頁面數）， SEO將此稱為抓取預算。這就意味著，如果您阻止網站的某些部分的抓取，搜索蜘蛛就會抓取其他部分來補充頁面數。

一般來說，阻止搜索引擎抓取您網站有問題的部分是非常有益，特別是在必須進行大量SEO清理的網站上。整理完所有內容后，您就可以解除阻止。

有關阻止查詢參數的說明

特別重要的一種robots.txt應用是：您的站點使用大量參數進行查詢。假設您有10個不同的查詢參數，每個參數都可能有不同的值而生成不同的URL，這將導致數百甚至數千個毫無意義的URL。阻止所有查詢參數頁面的抓取將有助于確保搜索引擎僅收錄您網站的主要URL，而不會陷入一個巨大陷阱。

此行阻止您網站上包含查詢字符串的所有URL：

Disallow:/*？*

缺點：不從搜索結果中刪除頁面

即使您可以使用該robots.txt文件告訴搜索蜘蛛不能在網站上訪問的位置，也不能使用它告訴搜索引擎哪些URL不在搜索結果中顯示。換句話說，阻止它不會阻止它被索引。搜索引擎仍然會在搜索結果中顯示，但不顯示其內容。

如果要阻止頁面顯示在搜索結果中，則需要使用meta robots noindex標簽。這意味著，為了找到noindex標簽，搜索引擎必須能夠訪問該頁面，因此請不要通過robots.txt阻止搜索蜘蛛訪問該頁面。

Noindex指令

過去可以在robots.txt中添加“ noindex”指令，從搜索結果中刪除網址，并避免出現這些“碎片”。如今已經不再支持，請不要使用。

缺點：不傳播鏈接價值

如果搜索引擎無法抓取頁面，則無法在該頁面上的鏈接之間散布鏈接值。當頁面通過robots.txt被阻止時，這是死路一條。任何可能流到（并通過）該頁面的鏈接值都會丟失。

robots.txt 句法

該User-agent指令

每個指令塊的第一位是User-agent，它標識特定的蜘蛛。User-agent字段與該特定Spider（通常更長）的User-agent匹配，因此，例如，來自Google的最常見的Spider具有以下User-agent：

Mozilla / 5.0（兼容； Googlebot / 2.1； + http：//www.google.com/bot.html）

因此，如果您想告訴這只蜘蛛做什么，一條相對簡單的User-agent: Googlebot就可以解決問題。

大多數搜索引擎都有多個蜘蛛。他們將使用特定的Spider作為其正常索引，廣告程序，圖像，視頻等。

搜索引擎將始終選擇他們可以找到的最具體的指令塊。假設您有3組指令：一組用于*，一組用于Googlebot和Googlebot-News。如果漫游器由其User-agent來自Googlebot-Video，它將跟隨Googlebot restrictions。具有User-agent的漫游器Googlebot-News將使用更具體的Googlebot-News指令。

搜索引擎蜘蛛最常見的User-ag專業seo整站優化推廣ent

以下是您可以在robots.txt文件中使用的User-agent列表，以匹配最常用的搜索引擎：

搜索引擎領域User-agent百度一般baiduspider百度圖片baiduspider-image百度移動baiduspider-mobile百度新聞baiduspider-news百度視頻b豐都專業seo整站優化aiduspider-video必應一般bingbot必應一般msnbot必應圖片和視頻msnbot-media必應廣告adidxbot谷歌一般Googlebot谷歌圖片Googlebot-Image谷歌移動Googlebot-Mobile谷歌新聞Googlebot-News谷歌視頻Googlebot-Video谷歌AdSense的Mediapartners-Google谷歌AdWords的AdsBot-G蘭州專業整站優化seooogle雅虎一般slurpYandex的一般yandex

Disallow指令

任何指令塊中的第二行是Disallow行。您可以有一個或多個這些行，以指定指定的Spider無法訪問站點的哪些部分。空Disallow行表示您不Disallow任何操作，因此從根本上講，它意味著爬蟲可以訪問您網站的所有部分。

下面的示例將阻止所有“監聽”到的搜索引擎robots.txt抓取您的網站。

User-agent:*

Disallow:/

下面的示例僅需少一個字符，即可允許所有搜索引擎抓取您的整個網站。

User-agent:*

Disallow:

以下示例將阻止Google抓取Photo您網站上的目錄及其中的所有內容。

User-agent:googlebot

Disallow:/Photo

這意味著該目錄的所有子目錄/Photo也不會被擴展。由于這些行區分大小寫，因此不會阻止Google抓取/photo目錄。

同時含有/Photo的網址也同樣會被阻止訪問，比如/Photography/。

如何使用通配符/正則表達式

從規范化來說，robots.txt標準不支持正則表達式或通配符，但是，所有主要的搜索引擎都可以理解它。這意味著您可以使用以下行來阻止文件組：

Disallow:/*.php

Disallow:/copyrighted-images/*.jpg

在上面的示例中，*將擴展為它匹配的任何文件名。請注意，該行的其余部分仍然區分大小寫，因此上面的第二行不會阻止/copyrighted-images/example.JPG被抓取。

某些搜索引擎（例如Google）允許使用更復雜的正則表達式，但是請注意，某些搜索引擎可能不理解此邏輯。它添加的最有用的功能是$，它指示URL的結尾。在以下示例中，您可以看到它的作用：

Disallow:/*.php$

這意味著/index.php無法索引，但/index.php?p=1可以。當然，這僅在非常特定的情況下有用，并且非常危險，請謹慎使用。

非標準robots.txt搜尋指令

除了Disallow和User-agent指令外，您還可以使用其他幾個爬網指令。所有搜索引擎爬蟲程序都不支持這些指令，因此請確保您了解它們的局限性。

Allow指令

盡管不在最初的“規范”中，對于allow指令大多數搜索引擎都了解它，并且允許使用簡單且可讀性強的指令，例如：

Disallow:/wp-admin/

Allow:/wp-admin/admin-ajax.php

在沒有allow指令的情況下獲得的結果就是阻止wp-admin文件夾中的每個文件的抓取。

Host指令

由Yandex（不受Google支持）支持，該指令可讓您決定是否要顯示搜索引擎example.com或。只需像這樣指定就可以了：

Host:example.com

以上是潮人地東莞seo博客跟大家分享關于「seo專業整站優化」SEO入門：robots.txt的終極指南等問題，希望能對大家有所幫助，若有不足之處，請諒解，我們大家可以一起討論關于網站seo優化排名的技巧，一起學習，以上內容僅供參考。

閱讀全文

本文標題"「seo專業整站優化」SEO入門：robots.txt的終極指南"：http://www.420113.com/cjwt_29332.html

本文版權歸潮人地seo博客所有，歡迎轉載，但未經作者同意必須在文章頁面給出原文連接，否則保留追究法律責任的權利。

標簽：

上一篇：「seo專業整站優化」如何改善您的移動端網站SEO呢？

下一篇：「seo專業整站優化」教你如何在產品頁面“講故事”

潮人地seo

「seo專業整站優化」SEO入門：robots.txt的終極指南

「seo專業整站優化」把網站外包給第三方網站建設公司做需要注意些怎

「seo專業整站優化」門戶網站建設公司制作的網站都有那幾種部分組成

「seo專業整站優化」都有那幾種方法可以提升網站SEO優化排名？

「seo專業整站優化」SEO規范導航的時候需要注意怎樣呢？

「seo專業整站優化」php代碼式的301重定向跳轉

「seo專業整站優化」網站外鏈優化，如何進行網站外鏈優化