快好知 kuaihz

分享解决搜索引擎蜘蛛不抓取或者抓取失常的方法

一些网站内容质量,用户也可以正常访问,但搜索引擎蜘蛛不能访问和抓取,导致搜索结果覆盖面的损失,搜索引擎网站都是一个损失,百度称这种情况为“抓取异常”。大量的内容不能爬行网站,百度搜索引擎会认为该网站用户体验的缺陷,和减少网站的评估,在爬,指数将在一定程度上受到影响,最终影响百度的网站流量。  

服务器连接异常  

服务器连接异常有两种情况:一是站点不稳定,搜索引擎蜘蛛试图连接到您的站点服务器时出现暂时无法连接的情况;一个是搜索引擎爬行器无法连接到您的web服务器。  

不正常的服务器连接通常是由您的网站服务器运行过大、过载造成的。也有可能您的网站没有正常运行。请检查网站的web服务器(如apache和iis)是否安装正常运行,并使用浏览器检查主页是否可以正常访问。您的网站和主机也可能会阻止搜索引擎蜘蛛的访问,您需要检查网站和主机的防火墙。  

网络运营商异常  

网络运营商分为电信和联通两种,搜索引擎蜘蛛不能通过电信或网通访问您的网站。如果是这种情况,您需要联系网络服务提供者,或者购买空间来拥有双重服务,或者购买CDN服务。  

DNS异常  

搜索引擎蜘蛛无法解析您的站点IP时,将发生DNS异常。可能是您的网站IP地址错误,或域名服务提供商向搜索引擎蜘蛛禁用。请使用WHOIS或host检查您的网站的IP地址是否正确和可解析。如果是错误的或无法解决,请联系域名注册商更新您的IP地址。  

IP禁止  

IP块用于:限制网络导出IP地址,禁止对IP段的用户内容进行访问,这里具体指搜索引擎拦截的蜘蛛IP。此设置仅在您的网站不希望搜索引擎爬行器访问时才需要。如果您希望搜索引擎蜘蛛访问您的网站,请检查搜索引擎蜘蛛IP是否在相关设置中添加错误。也有可能,您的网站所在的空间服务提供商已经封锁了百度IP。此时,您需要联系服务提供者来更改设置。  

UA禁止  

UA是用户代理,服务器通过UA标识访问者的身份。如果网站返回一个异常页面(例如403500)或为特定的UA访问重定向到另一个页面,则UA将被禁止。只有当您的网站不希望搜索引擎爬行器访问您的网站时,才需要此设置。如果您希望搜索引擎爬行器访问您的网站,请检查useragent的相关设置中是否包含搜索引擎爬行器UA,并及时修改。  

死亡之链  

页面已无效,无法向用户提供任何有价值的信息页面是死链接,包括协议死链接和内容死链接两种形式。  

交易死链  

页面TCP协议状态/HTTP协议状态由死链显式表示,常见的有404、403、503状态。  

内容死链:服务器返回状态正常,但内容已被更改为不存在、删除或需要权限等与原始内容无关的信息页面。  

对于死链,我们建议网站使用协议死链,并通过百度站长平台——死链工具提交给百度,让百度更快的找到死链,减少死链对用户和搜索引擎造成的负面影响。  

异常的跳  

将网络请求重定向到另一个位置是一个跳转。非正常跳变是指以下情况:  

1)当前页面是无效页面(内容已被删除、死链等),直接跳转到前一个目录或首页,百度建议站长删除无效页面的入口超链接  

跳转到错误或无效页面  

注:对于长时间跳转到其他域名,如网站更改域名,百度建议使用301跳转协议进行设置。  

其他异常:  

1)针对百度的异常引用:网页是指百度返回的不同于正常内容的行为。  

2)百度ua异常:页面返回到百度ua与页面原始内容不同。  

3)JS跳转异常:页面加载了百度无法识别的JS跳转代码,导致用户通过搜索结果进入页面后跳转。  

4)压力过大造成意外堵塞:百度会根据场地大小、交通等信息自动设置合理的抓取压力。但是,在异常情况下,如压力控制异常,服务器会根据自身负载进行保护性意外阻塞。在这种情况下,请在返回代码中返回503(意思是“服务不可用”),因此搜索引擎爬行器稍后将尝试获取链接。如果网站是空闲的,它将被成功抓取。

本站资源来自互联网,仅供学习,如有侵权,请通知删除,敬请谅解!
搜索建议:抓取  抓取词条  失常  失常词条  蜘蛛  蜘蛛词条  或者  或者词条  搜索引擎  搜索引擎词条