解决 Google Search Console 站点地图无法抓取的问题

在Google Search Console(简称GSC)中提交Sitemap时,正常情况下能提交成功,状态显示为“成功”。比如提交像“域名/sitemap.xml”这样的站点地图,提交后会显示已提交的网址数、上次读取时间、已发现的视频和网页数量等信息。不少人会遇到站点地图无效或无法抓取的问题,下面详细说说可能的原因及解决办法。

在GSC提交Sitemap时,若提示无法抓取,可按以下几种情况排查并解决:

1、提交了错误地址:将网页地址当作Sitemap地址提交了,修改成正确的Sitemap地址就能解决。

2、Sitemap地址无法访问:可能是Sitemap文件没放在网页根目录,而是放在了代码根目录。这时按代码框架的要求进行设置就行。

3、Sitemap文件格式错误:可以让AI帮忙修复,也能找个模板重新编写。

4、域名不一致:GSC上设置的域名与Sitemap网址的域名不一样,改成一致即可。类似地,如果在GSC后台添加的是网址前缀,而Sitemap网址和该前缀不一致,也需调整成一致。

5、特定域名后缀问题:像cc域名,有很多人反映即使Sitemap网址可访问、格式也正确,还是会提示无法抓取。有测试发现,将其放在下级目录,比如“/sitemap/”目录下,完整地址为“域名/sitemap/sitemap.xml”,就有可能被抓取到。

遇到Sitemap无法抓取的问题,按上面这些情况排查,通常就能解决。

除了XML格式的Sitemap,还有HTML格式的Sitemap。

XML格式的Sitemap:仅供搜索引擎爬虫查看。当网站网址数量很多时,可以分放在多个XML格式的Sitemap文件中,并且在robots.txt文件里一一列出。比如eBay就将不同类型的内容分别放在多个XML Sitemap文件中,像AUCTION、BROWSE、KWSRP等类别的Sitemap,并在robots.txt里进行了标注。

HTML格式的Sitemap:既能让爬虫查看,也能供用户查看,还承担着站点内部页面导航的作用。它会按照分类列出所有重要页面。以eBay为例,其footer中有一个HTML格式的Sitemap,网址是https://pages.ebay.com/sitemap.html,打开后能看到按不同类别整理的各类页面链接。

我的笔记