潮人地東莞seo博客小編下面跟大家分享關于seo技術:如何使用robots(robots文件的作用)等問題,希望seo專員在做seo優化的過程中有所幫助,內容僅供參考。
網站上添加robots.txt協議文件有什么作用?
在我們做網站優化的時候,都會給網站做robots協議,什么是robots協議呢?其實說白了就是一個txt文本,那么這個txt文本有什么用處呢?今天搜到老張來給大家說一下。
什么是robots協議?
robots是網站和搜索引擎之間的一個協議。用來防止一些不想被搜索引擎索引的頁面或內容的抓取,而且可以吧sitemap抖音短視頻排名seo地圖的路徑放在robots協議中,這樣有助于網站地圖的抓取。能夠有效提高網站的健康度、純凈度,降低網站垃圾內容收錄
seo博客相關推薦閱讀:seo優化推廣:seo外包技術分享(seo外包)

robots協議怎么寫?
robots的常用的命令一般有:
User-agent:*(這里的*代表的所有的搜索引擎種類,這句話表示可以讓所有的搜索引擎都可以訪問抓取這個網站。)
Disallow:(這個表示禁止的意思,一些不想讓搜索引擎訪問的頁面可以把路徑寫下來。)
Allow:(這個表示允許的意思,想要搜索引擎訪問頁面可以把路徑寫下來。)
robots協議的作用
通過我們上面的內容,我們對robots也有了了解。當搜索引擎王文網站時,會優先訪問網站的robots協議,從中來獲取信息來抓取網站。那么如果沒有robots協議會對網站有什么影響呢?
1、如果沒有robots,搜索引擎蜘蛛訪問網站時依舊會先訪問robots.txt,沒有的話會返回404頁面,影響雖然不大,但是也決對不好。
2、沒有robots,搜索引擎蜘蛛默認抓取所有內容。這一點影響不是很大,但是還是取決于網站的內容,如果存在很多低質量的內容,建議還是使用robots進行限制比較好。
綜合上面所說的內容,robots協議還是加上比較好,沒有很麻煩,我們一般會把robots放在FTP的根目錄下,有助于蜘蛛的抓取。
robots.txt文件具體用途有哪些robots.txt文件是引導搜索引擎Spider抓取網站的文件,合理地使用robots.txt文件可以防止自己網站內諸如后臺登入之類的秘密頁面被搜索引擎抓取和公布,還可以屏蔽搜索引擎對網站非內容頁面的抓取,只讓搜索引擎抓取和收錄能夠帶來排名和流量的頁面,在robots.txt文件的使用中有下面幾個問題值得討論下。
1. 要不要使用robots.txt
對于有需要屏敝Spider抓取的內容的網站,當然是需要robots.txt文件的。如果希望把內容全部開放Spider的網站來說rbotstxt就沒有意義了,那么此時還需不需要這個robots.txt文件呢?
robots的作用有哪些
2012年11月1日,百度、360和搜狗等國內主流搜索引擎簽署了(互聯網搜索引擎服務自律公約》,表態全部支持robots協議。搜索引擎支持robos協議, 也就是在抓取網站內容之前需要先抓取網站的robots.xt文件。
如果網站不設置robots文件,正常情況下服務器會返回404代碼,但有些服務器會返回200或者其他錯誤。針對返同404狀態碼的服務器,就不需要做特別處理了。因為搜索引擎抓取一兩次都 發現網站并沒有設置robots.txt文件,在一定周期內就不會再進行抓取了,而是正常的抓取網站內容。對于返回404狀態的之外的信息的服務器,最好重新配置下服務器,設置為對訪問服務器上不存在的URL或文件的用戶返回404狀態碼。如果不能進行配置,那么就在網站根目來下放一個空設置或允許抓取全部內容設置的robots.txt文件,以防止服務器對Spdie做出錯誤的引導。
有些人認為如果允許Spider抓取全站內容,還在服務器上放個robots.txt文件有可能會很浪費Spider 的抓取次數,畢竟spder對個網站的抓取次數是有限的。 其實這種擔心是不必要的,不論你設置不設置robos.txt文件,搜索引擎都會頻繁地抓取這個文件,因為搜索引繁并不知道你以后是不是要設置或者更新這個文件,為了遵守互聯網協議,就只能頻繁地對此文件進行抓取。并且搜索引擎每天只抓幾次robots.txt文件,并不會造成對網站抓取次數的浪費。
2. robots.txt可以聲明網站地圖
robots.txt文件除了有限制搜索引擎抓取的功能外,還可以聲明網站地圖的位置。這其實是Google所支持的一個功能,站長可以通過Google Webmaster直接向Google提交XML版本或純文本的網站地圖。
該聲明和限制搜索引擎抓取的語句沒有關系,可以放到文件中的任何位置。不過暫時只有Google支持,百度搜索工程師曾經表示不支持,并且現在百度在站長平臺中有了專門的Sitemap提交入口,所以這個聲明對百度不一定有效。不過由于robots.txt文件的特性,搜索引擎都必須頻繁抓取此文件,所以在robots.txt文件中聲明下網站地圖,單從促進搜索引擎對網站抓取方面來看,只會有益無害。
3. robots meta標簽的使用
robots協議除可以在網站根目錄使用os.cit文件外,還可以使用meta標簽。其體寫法如下:
nofollow(相關閱讀:鄭州seo:nofollow的爭議及使用方法)會在后面進行詳細的介紹,noarchive是禁止顯示快照的意思,也就是當網友搜索到你的網站時,只能進入你的網站瀏覽內容,不能通太原網絡營銷抖音seo排名過搜索引擎的快照查看你的網站內容。使用meta標簽中的nofollow可以使得搜索引擎不跟蹤頁面中的鏈接。值得一提的是在網絡上和其他SEO書籍中提及的,百度是不支持的,在針對百度進行設置時,應該了解并注意到這點, 現在禁止百度收錄某個頁面只能使用robots.txt來實現,或者針對百度Spider 返回404狀態碼,robots meta暫時還不可以,不過百度官方表示已經在計劃支持noindex.
4. robots .txt的具體用途
一般來說可以使用robots.txt文件來屏敞不想被搜索引擎抓取的頁面,但是這些“不想被抓取的頁面”通常都會有哪些呢? 下面來舉幾個簡單的例子。
(1)多版本URL情況下,非主顯URL的其他版本。比如網站鏈接偽靜態后就不希望搜索引擎抓取動態版本了,這時就可以使用robots.xt屏敝掉站內所有動態鏈接。
(2)如果網站內有大量的交叉組合查詢所生成的頁面,肯定有大量頁面是沒有內容的,對于沒有內容的頁面可以單獨設置個URL特征,然后使用robots.xt進行屏敝,以防被搜索引擎認為網站制造垃圾頁面。
(3)如果網站改版或因為某種原因突然刪除了大量頁面,眾所周知,網站突然出現大量死鏈接對網站在搜索引擎上的表現是不利的。雖然現在可以直接向百度提交死鏈接,但是還不如直接屏蔽百度對死鏈接的抓取,這樣理論上百度就不會突然發現網站多了太多死鏈接,或者兩者同時進行。當然站長自己最好把站內的死鏈接清理干凈。
(4)如果網站有類似UGC的功能,且為了提高用戶提供內容的積極性并沒有禁止用戶在內容中間夾雜鏈接,此時為了不讓這些鏈接浪費網站權重或牽連網站, 就可以把這些鏈接做成站內的跳轉鏈接,然后使用robots.txt進行屏蔽,現在有不少論壇已經這樣操作了。
(5)常規的不希望被搜索引擎索引的內容,比如隱私數據、用戶信息、管理后臺頁面等都可以使用robots.txt進行屏蔽。
以上就是robotstxt常見的功能。合理地使用robots.txt,不僅可以保護網站的隱私數據,還可以只給搜索引擎展現網站高質量的一面,同時也可以使得搜索引擎多多抓取其他允許抓取的頁面。不過,站長和SEO人員要慎重考慮是否需要把后臺地址寫到robots.txt文件中,現在很多黑客都在頻繁地掃描各個網站的后臺地址,如果直接把后臺地址寫入到robots.txt中, 也就相當于直接告訴黑客網站的后臺地址了。還有,現在只是Google 支持robots.txt文件聲明Sitemap地址,百度并不支持,并且站長現在完全可以通過google webmaser提交Sitemap,所以使用robots.txt文件聲明XML地圖位置并沒有太大的必要性。現在有不少做采集的人都會通過robots.txt文件尋找網站的sitemap,然后批量地提取目標內容的URL,如果站內有比較有價值的資源(例如關鍵詞庫等),就很許易被競爭對手鉆空子。所以在制作robots.txt文件時一定要綜合考慮都需要寫什么,而不能只站在SEO的角度思考問題。
另外,SEO人員不要被robots.txt文件本身原始的作用所限制, 要將思維擴散個下,比如為防止搜索引擎抓到把柄,不讓搜索引擎抓取透露網站 弊端的頁面鏈接;為提升網站在搜索引擎眼中的整體質量等,不讓搜索引擎抓取無搜索價值的頁面。
以上是潮人地東莞seo博客跟大家分長期不更新seo排名穩定享關于seo技術:如何使用robots(robots文件的作用)等問題,希望能對大家有所幫助,若有不足之處,請諒解,我們大家可以一起討論關于網站seo優化排名的技巧,一起學習,以上內容僅供參考。