去年,Google 向开源世界发布了其 robots.txt 解析器和匹配器。从那时起,人们使用它来构建新工具、为开源库做出贡献并发布新的语言版本(如 golang 和 rust)。
随着谷歌实习生赛季的结束,他们想强调两个与 robots.txt 相关的新版本,这两个版本是由在搜索开源团队工作的两名实习生完成的:Andreea Dutulescu 和 Ian Dolzhanskii。
首先,他们正在为由 Andreea 创建的 robots.txt 解析器开发人员发布 测试框架。该项目提供了一个测试工具,可以验证 robots.txt 解析器是否遵循机器人排除协议,或者在何种程度上遵循。目前还没有官方和彻底的方法来评估解析器的正确性,因此 Andreea 构建了一个可用于创建遵循协议的解析器的工具。
Google 发布了其流行的 C++ robots.txt 解析器的 Java 端口。该解析器是 C++ 解析器在功能和行为方面的一对一翻译,并且已经针对大量 robots.txt 规则进行了彻底的奇偶校验测试。团队已经计划在 Google 生产系统中使用 Java robots.txt 解析器,公司欢迎您为这些项目做出贡献。
我们真的很高兴接待 Andreea 和 Ian,我们很遗憾他们的实习即将结束。他们的贡献有助于使互联网变得更美好,我们希望将来我们可以欢迎他们回到 Google。