紫书SEO详解:百度搜索robots协议全新升级公告

时间:2018-10-21 21:20:28 阅读:194次

相信不少朋友都听说过robots协议,robots的作用就是设置网站那些内容可以被蜘蛛抓取,那些内容不可以被蜘蛛抓取,如果设置的不合理就有可能造成网站不被收录等问题,在2018年9月13日,在站长平台有推出了robots全新公告,下面就为大家分析一下网站robots!

百度搜索robots协议全新升级公告

详细地址可以参考:https://ziyuan.baidu.com/wiki/2579

1、此次升级针对的是网站视频的抓取,现在自媒体,各种短视频非常火爆,因此许多站长自己开始搭建短视频网站!

2、此次升级将会把短视频资源升级为视频极速体验页,对于网站的长视频来说,只会收录网页URL!

3、什么是视频极速体验页呢?道理和mip页面时一样的,就是为了加速网页的加载速度,为用户提供更加稳定、清晰、快速的视频体验!

网站设置robots有什么作用

1、针对已经设置robots的路径,将不会被抓取;

2、网站上的短视频将不会在被索引,不会再展现网站的视频内容

3、已经索引的资源也会被屏蔽,如果不想被屏蔽,千万不要设置robots

网站如何正确设置robots

1、robots的位置在哪

网站的robots文件都是放在网站根目录的,如果自己的网站没有,那么可以新建一个记事本,保存为robots.txt,长传到网站根目录!

2、robots的书写格式:


robots的书写,是有很多行的,一行代表一条记录,格式通常为:

# 这是注释说明的作用
User-agent: Baiduspider
Disallow: /baidu
Disallow: /s?
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Allow: /

详细解释每一项的意思:


User-agent:这句话的作用就是用来描述搜索引擎robots的名字,我们常见的robots有,baiduspider、Googlebot等如上图所示

Disallow:这句话的意思就是描述不能被抓取的值,这个值通常是不允许被抓取的,例如织梦网站后台/dede,/plus 等文件

Allow:这句话的意思就是允许蜘蛛抓取的值,比如Allow: /seo  就是允许抓取seo这个目录

“*”和“$”通配符:这句话的意思就是允许匹配多个值,常见用法,User-agent:*允许多有搜索引擎   Disallow: /$.php  不允许抓取后缀为.PHP的文件

什么时候要设置网站robots文件

1、网站的一些js,css文件,只是自己的网站使用,并不需要展示给别人,就可以把它屏蔽掉!

2、一些动态路径和静态路径同时存在的时候,需要屏蔽动态路径,比如,常见的wordpress主题,没有设置伪静态的话,就是动态路径,还有常见的搜索页面也是动态路径,形式如下:网址/search/?q=蜘蛛 ,如果设置了伪静态,但是动态路径还是能打开,就相当于两个链接,为了更好的让蜘蛛抓取,集中网页权重,就需要屏蔽动态路径!

3、网站的模板文件,网站的模板文件是我们自己使用的,不需要展示给用户,可以屏蔽掉!

4、网站的一些死链接,在文章删除后,没有及时提交404的话, 需要设置一下robots不让蜘蛛抓取,有的朋友就问了,对于没有收录的网站提交404和设置robots操作一样不就行了吗?是这样的,我们发布一些文章后,蜘蛛可能就已经抓取了我们的网页,进行了缓存,虽然没有显示收录,我们没有处理的话, 可能过几天,这个文章就又出来了,这也是非常常见的问题,大家可以了解以下【搜索引起的工作原理】

5、网站的后台,不需要抓取,比如织梦的后台地址是/dede,后台地址知道的人越少越好,需要及时更改!

总之:只要我们不想被蜘蛛抓取的页面都是需要这是robots的!

网站设置robots需要注意哪些细节

1、有些朋友还没有做好网站就直接上线了,然后想要修改网站又怕影响蜘蛛抓取,于是就设置了robots文件,限制了蜘蛛抓取,这样的做法是非常错误的,有可能导致你的网站将很长时间不会再被抓取!

2、设置网站robots是很重要的,如果设置错误,将会损失严重,而且有朋友存在误封的情况,一定要定期检测一下robots是否有问题!

3、设置好后可以去站长平台的robots工具进行提交和更新!

本文由紫书SEO整理编辑发布:紫书SEO详解:百度搜索robots协议全新升级公告

文章地址:https://www.taiyuanseo.top/109.html,转载请注明出处!