潮人地東莞seo博客小編下面跟大家分享關于seo技術博客分享:網站robots應該如何寫?等問題,希望seo專員在做seo優化的過程中有所幫助,內容僅供參考。
一般來說,網站或多或少都存在一些對排名沒意義甚至有害的頁面。對于站長來說是不希望被搜索引擎檢索的。而robots.txt文件則承擔了
站長這個意愿的表達功能。當蜘蛛訪問網站會優先抓取robots.txt,遵循站長配置的規則不再抓取不利于SEO的內容。

seo博客相關推薦閱讀:seo網站優化方法之百度seo搜索引擎優化有哪些規則?
robots.txt文件位置
robots文件往往放置于根目錄下
robots.txt文件格式
Disallow:該項的值用于描述不希望被訪問的一組URL
Allow:技術型seo是什么意思該項的值用于描述希望被訪問的一組URL
User-agent:該項的值用于描述搜索引擎robot的名字
例如:
User-Agent:YisouSpider // 配置YisouSpider
Disallow: / // 不允許YisouSpider抓取網站任何內容
User-Agent:* // 配置所有搜索引擎
Allow: / // 允許抓取網站任何內容
更多
Disallow: /abc //禁止抓取含abc目錄及子目錄的所有頁面
注意:有些地方注釋為“禁止抓取abc目錄及子目錄中的內容”百度官方有舉例,"Disallow:/help"禁止robot訪問/help.html、/helpabc.html、/help/index.html
Disallow: /abc/ //禁止抓取含abc目錄的所有頁面
百度官方有舉例,"Disallow:/help/"則允許robot訪問/help.html、/helpabc.hseo涉及到的技術tml,不能訪問/help/index.html。
robots.txt通配符的使用
"*" 匹配0或多個任意字符
"$" 匹配行結束符。
舉例:
Disallow: /*?* //禁止抓取網站中所有的動態頁面
Disallow: /*.htm$ // 禁止抓取所有以.htm為后綴的URL頁面 /abc.htm/index 不匹配
區別于Disallow: /*.htm // /abc.htm/index 也匹配
更多robots.txt,可以參照百度站長站長平臺關于robots.txt
網站哪些內容不建議被抓取
對于這個思想這個小白也懂的不多,一般取決于內容是否利于SEO的原則。例如,我博客的搜索結果頁,沒做好優化的tags頁都禁止抓取了。而對于企業站來說,如果不打算可以優化公司名稱的關鍵詞,關于、聯系、企業新聞等一些內容都可以seo搜索技術詳解考慮禁止
還有一點值得注意的事,有很多站長反饋說百度不遵循robots.txt協議,抓取不該抓取的內容。小編也感覺不是很靠譜,所以也可以考慮在一些頁面設置meta name="robots"
百度的解釋理解起來或許有所偏差,如果有不對,大家可以指正、交流
以上是潮人地東莞seo博客跟大家分享關于seo技術博客分享:網站robots應該如何寫?等問題,希望能對大家有所幫助,若有不足之處,請諒解,我們大家可以一起討論關于網站seo優化排名的技巧,一起學習,以上內容僅供參考。