sitemap文件如果较大超过了官网给出的限制:
一个Sitemap文件包含的网址不得超过 5 万个,且文件大小不得超过 10 MB。如果您的Sitemap超过了这些限值,请将其拆分为几个小的Sitemap。这些限制条件有助于确保您的网络服务器不会因提供大文件而超载。
还有一点就是可以压缩sitemap,提高对sitemap的抓取速度,那么问题来了,如何压缩XML格式的sitemap呢?
使用GZIP压缩,大部分的压缩软件都有这个压缩方法,我使用的是7-zip,选号sitemap文件,右键添加到压缩包,设置如下图:
压缩之后的大小对比:
中间的压缩文件是爱站工具自动生成的,下面的sitemap.xml.xml.gz是我使用7-zip压缩软件的GZIP压缩中“极限压缩”方式压缩之后结果,效果是不是挺明显的?
其实我自己是使用的爱站工具自动生成的压缩格式,爬完整站之后会生成一个索引文件和一个sitemap压缩文件,把这两个文件传到根目录就可以了,在首页做上sitemap的链接以及robots里面添加:Sitemap:网站地图链接。
sitemap索引格式官方版:
3.第三种格式样例:Sitemap索引格式
如需提交大量sitemap文件,则可将其列在sitemap索引文件中,然后将该索引文件提交。您无需分别提交每个文件。
<!–必填,以
<!–必填,以
有多个Sitemap,按上述格式重复