2022 年 6 月 28 日,星期二,Google 发布了有关 Googlebot 的文档更新,其中澄清了 Googlebot 在获取某些文件类型时只能“看到”前 15 兆字节。这个限制已经存在很多年了,但最近才被添加到文档中,以帮助那些调试。应该注意的是,此限制仅适用于 Googlebot 发出的初始请求,而不适用于页面中引用的资源(例如,如果 HTML 页面引用了 JavaScript 文件,Googlebot 仍将能够查看和获取该 JavaScript 文件)。 Googlebot 新的 15 MB 限制很可能不会产生太大影响,因为互联网上很少有页面更大。但是,如果您碰巧拥有超过 15 MB 的 HTML 页面,您可以尝试将一些内联脚本和 CSS 移动到外部文件中。前 15 MB 之后的内容被 Googlebot 删除,只有前 15 MB 被转发到索引。这适用于 Googlebot(Googlebot 智能手机和 Googlebot 桌面)在提取 Google 搜索支持的文件类型时进行的提取。不会。Googlebot 会提取 HTML 中使用 URL 引用的视频和图片(例如,<img src="https://example.com/images/puppy.jpg" alt="可爱的小狗看起来很失望" />
与连续提取分开。是的。使用 数据 URI{rel="nofollow"} 会增加 HTML 文件的大小,因为它们位于 HTML 文件中。有很多方法,但最简单的可能是使用您自己的浏览器及其开发人员工具。像往常一样加载页面,然后启动开发人员工具并切换到网络选项卡。重新加载页面,您应该会看到浏览器为呈现页面而必须发出的所有请求。最上面的请求就是您要查找的内容,页面的字节大小在 Size 列中。例如,在 Chrome 开发者工具{rel="nofollow"} 中可能看起来像这样,大小列中有 150 kB:如果你想要要检查 Googlebot 在抓取您的网站时下载了多少数据,您可以使用 Chrome 开发人员工具中的“网络”选项卡或从命令行使用 cURL。要使用 cURL,请输入以下代码: curl \ -A "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36" \ -so /dev /null https://example.com/puppies.html -w '%{size_download}' 将“https://example.com/puppies.html”替换为您要检查的页面的 URL。如果您对此过程有更多疑问,可以在 Twitter 和搜索中心论坛上找到更多信息。如果您需要更多说明,也可以在文档页面上留下反馈。