关于我
 

xjpvictor's Blog
小老鼠,上灯台,两只耳朵竖起来

关于 sitemap 文件名的观察


各种折腾·googleweb

本文最后编辑于超过615天以前,部分内容可能已经失效

Update 02/02/2023:

这篇在 2021 年写完就放在草稿箱里,然后就忘记了,不知道现在是不是仍然是这样,但还是放出来吧。

原文

一个观察,不一定对,Google 对于文件名不包含 "sitemap" 这个词的 sitemap,好像不是很喜欢。

我有一个站,因为页面多,所以会把特定类别的页面放进一个单独的 sitemap 里,于是会有很多的 xml 文件作为 sitemap,同时我会把这些 xml 文件以他们所代表的类别的 id 来命名,比如 12345678.xml,之后会把所有的 sitemap 列在一个根目录下的 sitemap.xml 中,并且把这个 sitemap.xml 提交给 Google。

然而在 Google webmaster tools 中可以看到,根目录的 sitemap.xml 会被正常读取,但是里面列出的 sitemap 并不会被进一步处理,也就是说 Google 完全跳过了那些 12345678.xml。

我尝试直接添加 12345678.xml 作为 sitemap,这时 Google 会直接给出一个 "Couldn't fetch" 的信息。但是我在 URL inspection 里面可以确认 Google 可以获取到 12345678.xml 的内容。

本来以为这可能是 Google 的 bug,但是很久也没见到改善,反而收录的页面数一直在降,所以我就想尝试着把所有 sitemap 都改为 sitemap.xml,同时放在 12345678/ 目录下,所以地址就成为了 12345678/sitemap.xml。当我把这个地址提交到 Google 后,Google 立刻显示成功从这个 sitemap 中获取了网页地址。

这样做了一段时间后,Google 慢慢的又添加了我的所有 sitemap,而网页收录也在回升。

我的博客安装的插件自动生成的 sitemap 也是采用了 sitemapindex 加 urlindex 的模式,然而所有的 sitemap 文件的文件名里都包含 "sitemap" 这个词,所以并没有遇到任何问题。

所以我推测是 Google 直接忽略了文件名中不包含 "sitemap" 这个词的 sitemap 文件。

另外,这个问题在 Bing 是不存在的,Bing 一直都可以正常获取并且读取所有的 sitemap 文件,并正常收录网页。

本文 "关于 sitemap 文件名的观察" 由 K. Huang 首先发表于 xjpvictor's Blog 并以 CC BY-NC 4.0 许可证发布 © 2023
转载注明引用来源 https://blog.xjpvictor.info/2023/02/observations-on-sitemap-filename/


推广:个人专属 VPN,独立 IP,无限流量,多机房切换,还可以屏蔽广告和恶意软件,每月最低仅 5 美元

打赏我

评论

你的邮箱地址不会被公开。必填项以 * 标出

无意义或不相关评论将被删除

允许使用以下html标签:<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

你可以上传文件,粘贴代码或长文至 Drop.it.r

本博客是言论不自由博客,评论只接受询问及赞同,不同观点请出门左转微博/发表于自己的博客。谢谢合作!

评论意味着你 同意 上传部分私人数据,包括邮箱和 IP, 这些数据不会被分享给第三方,不会用于商业用途或再推广用途。

更多相似文章