Google开源robots.txt解析器_存档_智家

大概这是七月初最重要的一条有关搜索引擎行业的新闻，Google公司，力推REP为互联网标准，并且把自己的robots.txt解析器在Github上开源了。

robots.txt，源自于1994年的时候，Martijn Koster(一个网站站长)在被蜘蛛过度抓取网站后，自行创建的一个初始标准，随着越来越多的网站站长的补充，追随，Rebots Exclusion Protocol (REP)，就诞生了，随着各大搜索引擎同站长们的良性互动，它们也都采用了这个标准。然而这个REP，始终没有成为一个互联网标准。

现在Google联合其他的几个巨头，力图把REP推动成为一个互联网标准。

在把REP作为标准的路上，其实还是同平时站长们的使用还是有一点小小变化的，具体的表现在robots.txt不止可以用于HTTP，还包括了FTP等基于URI的传输协议;解析器的开发者需要至少解析robots.txt的前500KB内容;还有缓存时间等等一些新的标准内容。

网站站长们如果对此有建议，有问题，等等，都可以到Webmaster Community或者twitter上联系。

就我个人的看法，这是推动站长以及搜索引擎规范化的进步，站长们有规范可遵循，搜索引擎也需要遵守，包括各种内容抓取者都需要遵守。

作者: David Yin

快好知 kuaihz

Google开源robots.txt解析器

华尔街日报：小米上市一味炒作物非...

乘势而起，走进2019年风口“边...

神反转又有程序员要被祭天了，腾讯...

最新