快好知 kuaihz

网站根目录下的robots.txt写法和robots txt协议规则

robots txt文件的作用:

网站根目录下的robots txt文件是写给搜索引擎“看”的,用户网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。例如网站后台管理系统,或者涉及到隐私的内容,或者秘密内容,或者仅限小范围传播的内容。虽然此文件没有任何外部的链接,但是一般情况下,搜索引擎还是会定期自动检索网站的根目录是否存在此文件。

如果您想让搜索引擎抓取收录网站上所有内容,请设置网站根目录下的robots.txt文件内容为空,或者删除网站根目录下的robots.txt文件。

robots txt文件的起源:

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol)。

robots.txt并不是某一个公司制定的,真实Robots协议的起源,是在互联网从业人员的公开邮件组里面讨论并且诞生的。1994年6月30日,在经过搜索引擎人员以及被搜索引擎抓取的网站站长共同讨论后,正式发布了一份行业规范,即robots.txt协议。慢慢的,这一协议被几乎所有的搜索引擎采用,包括中国的搜索引擎公司。

robots txt的写法:

1.禁止所有搜索引擎访问网站的任何部分

User-agent: *

Disallow: / (*为通配符,/为目录)

2.禁止某个搜索引擎的访问

User-agent: BadBot

Disallow: /

3.允许某个搜索引擎的访问

User-agent: Baiduspider

allow:/

4.使用 $ 匹配网址的结束字符

Disallow: /*.asp$

5.禁止爬寻admin目录下面的目录

Disallow: /admin/ 

6.禁止访问/abc/目录下的所有以".htm"为后缀的URL(包含子目录)

Disallow: /abc/*.htm 

7.禁止访问网站中所有包含问号 (?) 的网址

Disallow: /*?* 

8.禁止抓取网页所有的.jpg格式的图片

Disallow: /.jpg$ 

9.禁止爬取user文件夹下面的mimi.html文件。

Disallow:/user/mimi.html (例如商业机密或隐私内容)

10.这里定义是允许爬寻mimi目录下面的目录

Allow: /mimi/

11.允许爬寻tmp的整个目录

Allow: /tmp 

12.仅允许访问以".htm"为后缀的URL。

Allow: .htm$ 

13.允许抓取网页和gif格式图片

Allow: .gif$ 

本站资源来自互联网,仅供学习,如有侵权,请通知删除,敬请谅解!
搜索建议:robots  robots词条  根目录  根目录词条  写法  写法词条  txt  txt词条  规则  规则词条  
优化

 网络优化市场现状解析

 【三明SEO】网络优化市场现状解析  今天我们就来谈一谈SEO,网络时代是一个习惯,传统的SEO优化方式,主要就是网站内部和外部的调整优化,使网站满足搜索引擎...(展开)

优化

 seo优化如何选取网站关键词

 【泊君seo】seo优化如何选取网站关键词  我们知道,seo优化是网站推广的方式之一,其主要形式来源于网站关键词排名,什么是关键词排名这里不多说,已经聊过了...(展开)

优化

 解决网站跳出率的办法?

 【聊城SEO】解决网站跳出率的办法?   网站跳出率是衡量网站内容有好坏的重要指标,那么多少跳出率才是正常的?每一个企业的网站性质都是不一样的,聊城...(展开)