新的开源 Robots.txt 项目

September 21, 2020

去年,Google 向开源世界发布了其 robots.txt 解析器和匹配器。从那时起,人们使用它来构建新工具、为开源库做出贡献并发布新的语言版本(如 golangrust)。

随着谷歌实习生赛季的结束,他们想强调两个与 robots.txt 相关的新版本,这两个版本是由在搜索开源团队工作的两名实习生完成的:Andreea DutulescuIan Dolzhanskii

首先,他们正在为由 Andreea 创建的 robots.txt 解析器开发人员发布 测试框架。该项目提供了一个测试工具,可以验证 robots.txt 解析器是否遵循机器人排除协议,或者在何种程度上遵循。目前还没有官方和彻底的方法来评估解析器的正确性,因此 Andreea 构建了一个可用于创建遵循协议的解析器的工具。

Google 发布了其流行的 C++ robots.txt 解析器的 Java 端口。该解析器是 C++ 解析器在功能和行为方面的一对一翻译,并且已经针对大量 robots.txt 规则进行了彻底的奇偶校验测试。团队已经计划在 Google 生产系统中使用 Java robots.txt 解析器,公司欢迎您为这些项目做出贡献。

我们真的很高兴接待 Andreea 和 Ian,我们很遗憾他们的实习即将结束。他们的贡献有助于使互联网变得更美好,我们希望将来我们可以欢迎他们回到 Google。

Googlebot 即将支持 HTTP/2
从 2020 年 11 月开始,Google 将开始通过 HTTP/2 抓取一些网站。这是 HTTP 的下一个主要版本,它比其前身更健壮、更高效、更快。此更改将使要求 Googlebot 支持通过 HTTP/2 进行抓取的网络专业人士受益。有关 HTTP/2 的更多信息,请阅读有关 HTTP/2 主题的长文。 Google 正计划逐步切换到通过 HTTP/2 爬取网站,这在服务器资源使用方面更有效...
阅读更多
Schema.org 上对零售商运输数据的新支持
从今天开始,Google 支持 shippingDetails schema.org 标记,作为零售商有资格在 Google 搜索结果中获取送货详细信息的替代方式。这一变化是在谷歌允许零售商在 2020 年 6 月在不同的谷歌平台上发布他们的产品而无需付款之后发生的。 运输细节,包括成本和预计交货时间,通常是用户做出购买决定的关键考虑因素。在我们自己的研究中,我们听说用户因为无法预见或不确定的运费...
阅读更多