亚马逊云科技

广告

安信SSL证书

广告

Cloudflare发布年度报告:Googlebot占据AI爬虫流量榜首

美国云服务器推荐

近期Cloudflare发布了第六份年度回顾报告,全面梳理了2025年全球互联网流量、网络安全以及AI爬虫活动的相关情况。表示Googlebot抓取的网页数量是PerplexityBot的200倍。全球互联网流量增长了19%。

该报告的数据来源于Cloudflare的全球网络,该网络覆盖125个国家的330多个城市,平均每秒处理超过8100万次HTTP请求。

其中关于AI爬虫的发现尤为引人注目。Googlebot抓取的网页数量远超其他任何AI爬虫,反映出Google的双重抓取策略既为搜索索引抓取内容,也为AI训练收集数据。

Googlebot登顶AI爬虫流量榜

Cloudflare分析了2025年10月至11月期间,主流AI爬虫成功请求HTML内容的数据。结果显示,在样本中Googlebot覆盖了11.6%的独特网页。这个比例是OpenAI旗下GPTBot(3.6%)的三倍多,更是PerplexityBot(仅0.06%)的近200倍。Bingbot以2.6%的占比位居第三,紧随其后的是Meta-ExternalAgent和ClaudeBot,两者占比均为2.4%。

报告指出,由于Googlebot同时为搜索索引和AI模型训练抓取内容,网站发布者陷入了两难境地:阻止Googlebot用于AI训练的抓取行为,可能会影响自身网站在搜索引擎中的曝光度。

Cloudflare在报告中写道(翻译):

“鉴于Googlebot既用于搜索索引抓取,也用于AI模型训练,且Google在搜索领域长期占据主导地位,网站运营者实际上无法在不影响搜索曝光的前提下,单独阻止Googlebot为AI训练进行的抓取。”

相关阅读:《网站robots.txt文件全面解析

AI爬虫占HTML请求量的4.2%

2025一整年,在Cloudflare的客户群体中,AI爬虫(不含Googlebot)的HTML请求量平均占比为4.2%,在4月初低至2.4%,6月末则升至6.4%,呈现波动状态。

仅Googlebot一款爬虫的HTML请求量占比就达4.5%,略高于其他所有AI爬虫的总和。

2025年初,人类生成的HTML流量占比比非AI爬虫低7个百分点。到9月,部分日期的人类流量已超过非AI爬虫流量。截至12月2日,人类生成的HTML请求占比为47%,非AI爬虫则为44%。

抓取到推荐的比率差异巨大

Cloudflare追踪了各大AI平台和搜索平台的“抓取-引荐比”——即平台抓取网站的频率与向网站导流的频率之比。比值越高说明平台大量抓取内容,却很少为源网站带来用户流量。

在AI平台中,Anthropic的比值最高。经过上半年的波动后,该平台下半年的抓取-引荐比稳定在约25,000:1至100,000:1之间。

OpenAI的比值在3月曾高达3,700:1。而在主流AI平台中,Perplexity的比值最低,整体低于400:1,9月以后更是降至200:1以下。

作为对比,Google搜索的抓取-引荐比全年都低得多,基本维持在3:1至30:1之间。

用户触发式抓取量增长超20倍

并非所有AI抓取都是为了模型训练。“用户触发式抓取”是指当用户向聊天机器人提问时,爬虫响应请求访问相关网站获取信息的行为。

这一类型的抓取在2025年实现了最快增长。从1月到12月初,用户触发式抓取量增长了15倍以上。从2月中旬开始,这类抓取呈现出每周周期性波动的特征,这表明其在学校和工作场所的使用量有所增加。6月至8月期间,由于学生放假、职场人士休假,相关活动量出现下降。

AI爬虫成robots.txt文件最常拦截对象

Cloudflare分析了全球Top 10,000域名中近3,900个域名的robots.txt文件,发现AI爬虫是最常被拦截的用户代理。

GPTBot、ClaudeBot和CCBot收到的“完全禁止”指令数量最多,这类指令会禁止爬虫访问整个网站。

Googlebot和Bingbot的情况则不同。它们收到的禁止指令多为“部分拦截”,大概率是针对登录入口、非内容区域等特定页面,而非整个网站。

其他关键发现

Cloudflare的报告还包含了关于流量、安全和网络连接的多项额外发现:

1、全球互联网流量同比增长19%。4月中旬前增长相对平缓,8月中旬后增速加快;

2、后量子加密技术目前保护着52%的人类访问Cloudflare的流量,较年初的29%近乎翻倍;

3、Starlink流量在2025年翻倍,其服务已在20多个新国家上线;

4、全球观察到的174起重大互联网中断事件中,近半数由政府指令性关闭导致。光缆中断引发的 outage 下降了近50%,而电力故障导致的 outage 则翻了一番;

5、欧洲国家在互联网质量指标中占据主导地位。西班牙的整体互联网质量位居榜首,平均下载速度超过300 Mbps。

Cloudflare的这些发现有什么用?

AI爬虫相关数据会改变你对爬虫访问权限和网站流量的认知。

Google的双重用途爬虫使其具备了竞争优势:可以拦截其他AI爬虫,同时保留Googlebot的访问权限以保障搜索曝光,但无法将Google的搜索抓取与AI训练抓取区分开来单独处理。

抓取与推荐的比率有助于量化出版商早已怀疑的情况:人工智能平台抓取量巨大,但回流的流量却很少。不同平台的抓取与推荐之间的差距差异很大。

Cloudflare预计,随着AI领域的持续发展,相关指标将会发生变化。该公司在今年的报告中新增了多个往年未涵盖的AI相关数据集。

随着AI平台调整其搜索功能和导流行为,抓取-引荐比可能会发生变化。

在robots.txt管理方面,数据显示大多数发布者选择对主流搜索爬虫进行部分拦截,同时完全拦截纯AI爬虫。年末这些指令的状态,将为追踪2026年发布者政策的演变提供基准。

相关阅读:

Cloudflare配置:Cloudflare免费CDN配置全指南》、《WordPress网站的十个关键Cloudflare配置

新闻:Google推出2025年12月核心更新 对排名系统全面调整》、《Google更新:Search Console Insights可直接分析社交渠道数据

(本文由美国主机侦探原创,转载请注明出处“美国主机侦探”和原文地址!)

主机侦探企业微信

微信扫码加好友进群

主机优惠码及时掌握

主机侦探QQ群

QQ群号:938255063

主机优惠发布与交流

温馨提示:

1、本站部分图片来源于互联网,如有侵权请联系删除。邮箱:2942802716#qq.com(#改为@)

2、本文评论没有专人回复,如果您有问题请到美国主机侦探论坛提问!

3、美国主机侦探免费为您提供美国主机购买咨询。

RAKsmart美国服务器
下一篇
Cloudflare
已经没有了
返回顶部