做SEO这些年遇到过形形色色的robots协议的写法,有的站长还会利用botots屏蔽对方的友情连接,不是没有而是你还没遇到,或许有一天你会无意间发现。robots协议做为SEO基础知识是一个告诉搜索引擎蜘蛛或机器人来到网站内,哪些内容是可以检索,哪些内容是禁止抓取的。
任何一个网站都必须有robots协议,不仅可以保证蜘蛛来一趟能够很好的检索你想暴漏的内容,还会减轻蜘蛛不必要的工作量,一个合格robots协议蜘蛛还是很喜欢的,原因很简单蜘蛛的来访第一个爬行的就是你的robots文件。
说的直白一点robots协议就是放出你想放出的内容,禁止你要禁止的内容。对于新人刚接触到SEO,刚认识到robots都不清楚如何编写,这里seo秀才给大家具体分析一下robots的编写格式与方式。
就以本博客的robots协议来做个简单的介绍:
User-agent: * 这个口令的意思是说允许所有搜索引擎来访抓取。
Disallow: /wp-* 由于wordpress内wp开头的文件和文件夹交多,这里是禁止抓去以wp开始或者wp目录下的内容。
Allow: /wp-content/uploads/ 由于这个目录下有一些站内的图片,大家都知道百度图片也是 可以被收录并有所排名,所以我把这一块想的放出来,意思是允许抓去这个目录下的内容。
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.js$
Disallow: /*.css$
这些是禁止抓去所有以这些格式结尾的文件。
Disallow: /?* 禁止抓取?后一些以来源的RUL,减少重复收录。
Disallow: /feed
Disallow: /*/feed 订阅页面禁止抓去收录。
Disallow: /rukou.htm 禁止蜘蛛爬行这个页面 ,由于里面写入了大量的Nofollow,并且页面 也无关键词切入。
Sitemap: https://xiaoxiaomayi.com/sitemap.xml 提示蜘蛛抓取网站地图。
robots的运用关系网站的安全性,上次就遇到一个,一个网友在网上投的简历竟然被释放出来,从而被百度收录,这是一个极度需要安全的页面,该招聘网站这里就不说了,总之我是不会去那个网站去投简历找工作的。连最基本的robots协议都不写好,还造成用户的个人信息流到网上。robots协议对于一个网站是非常重要的,做的好会有效的屏蔽保密或者不想被搜索抓取的页面,从而也可以促进我们网站的关键词排名。
做得好的可以有效的屏蔽那些我们不想让搜索引擎抓取的页面,也就是对用户体验不高的页面,从而将有利于关键词排名的内页充分展示个客户,获得搜索引擎对站内页面的权重,从而有利于我们将关键词排名做的更好。