Google更新Googlebot文件大小限制文档

近期发现Google更新了Googlebot文档，澄清了文件大小限制，并将适用于所有爬虫的默认限制与Googlebot特有的详细信息区分开来。通俗来说，Googlebot可以按文件类型和格式消耗量进行限制，例如默认网页大小限制为15MB，支持的文件类型为2MB，抓取Google搜索时PDF文件为64MB等。

由于默认值现在已移至爬虫文档中，Google更新了Googlebot页面，以更精确地描述Googlebot的具体文件大小限制。

爬虫基础架构文档列出了Google爬虫和抓取工具限制：

默认文件和网页大小限制为15MB
支持的文件类型为2MB
PDF文件为64MB

爬虫概述描述了Google爬虫基础架构的默认限制，而Googlebot页面则描述了Google搜索特有的Googlebot限制。HTML中引用的每个资源，例如CSS和JavaScript，都会被单独抓取。

本次更新符合谷歌自2025年底以来一直在推行的策略。去年11月谷歌将其核心抓取文档迁移到一个独立网站，使其与搜索中心分离。原因是谷歌的抓取基础设施服务于搜索以外的产品，包括购物、新闻、Gemini和AdSense。12月，谷歌发布了更多文档，包括分面导航指南和抓取预算优化。

最新的更新延续了这一重组。15MB的文件大小限制最早于2022年被记录在案，当时谷歌将其添加到Googlebot帮助页面。穆勒当时证实，该限制并非新规，而是已经生效多年。谷歌只是将其正式记录下来。

以下是谷歌在其帮助文档中发布的完整内容：

“默认情况下，Google的抓取工具和抓取工具仅抓取文件的前15MB。超出此限制的任何内容都会被忽略。各个项目可能会为其抓取工具和抓取工具以及不同的文件类型设置不同的限制。例如，Google抓取工具可能会为PDF设置比HTML更大的文件大小限制。”

“在抓取Google搜索时，Googlebot会抓取受支持文件类型的前2MB和PDF文件的前64MB。从呈现的角度来看，HTML中引用的每个资源（例如CSS和JavaScript）都是单独获取的，每个资源获取都受到适用于其他文件（PDF文件除外）的相同文件大小限制的约束。一旦达到截止限制，Googlebot就会停止获取，只发送文件中已下载的部分以供索引考虑。文件大小限制适用于未压缩的数据，例如GooglebotVideo和GooglebotImage，可能有不同的限制。”