Cloudflare将默认屏蔽广告页面的混合用途AI爬虫

Cloudflare正在加大AI公司免费抓取开放网络的难度。从2026年9月15日起，该公司的默认设置将屏蔽”混合用途”爬虫,,既为搜索索引内容又为AI训练或代理服务收集内容的机器人,,来自任何托管广告的页面。

这一政策变化默认影响新Cloudflare客户、现有客户设置的新网站以及所有现有免费层客户。网站所有者可以选择允许混合用途爬虫，但负担已经转移：对AI爬虫保持开放现在是一种选择，而非默认。

为何现在行动

Cloudflare联合创始人兼首席执行官马修·普林斯将此举措定性为对互联网结构性变化的回应。”既然互联网上的大部分流量是非人类流量，我们必须更进一步、更快行动，以便可持续的生态系统能够出现，”他在一份声明中表示。

该公司数据显示，机器人首次超过了在线人类流量，这一里程碑原本预计到2027年才会到来。在机器人流量中，超过50%的AI爬虫活动涉及重新获取未发生变化的页面，浪费了出版商的带宽和计算资源。

谷歌的优势

Cloudflare的公告直接针对谷歌的集成爬虫设置。谷歌提供名为Google Extended的独立机器人，让出版商可以选择退出AI训练和代理使用而不影响其搜索可见性。但Cloudflare认为，谷歌的默认配置使其获取的数据量大约是竞争AI公司的两倍，因为出版商无法在不失去搜索排名的情況下轻松屏蔽谷歌的主爬虫。

“谷歌获取的信息比其他AI公司多2倍，”普林斯指出，呼吁混合用途爬虫将搜索与代理使用和训练分开。

按使用付费模式

新政策建立在Cloudflare早期为出版商提供对AI公司谈判筹码的努力之上。2024年，该公司推出了屏蔽未授权AI机器人的工具。2025年，它引入了一个网站可以收取爬取费用的市场，称之为”按爬取付费”。新政策将其发展为”按使用付费”模式，出版商不仅在内容被获取时获得补偿，而且在内容在AI产品中创造价值时也能获得补偿。

初始合作伙伴包括Ceramic.ai（当出版商的内容出现在其AI搜索结果中时向其付费）和You.com（为获取优质内容付费）。

对AI公司的意义

9月15日的截止日期给AI公司大约两个半月的时间来分离其搜索索引爬虫与训练和代理爬虫，否则将失去对广告支持网络的很大一部分的访问权限。不合规的公司将发现其爬虫在Cloudflare的网络上被默认屏蔽，该网络覆盖了大约20%的网络。

来源：Cloudflare的新政策推动AI公司支付出版商内容费用（TechCrunch，2026年7月1日）

婷翻译