
Cloudflare正在加大AI公司免费抓取开放网络的难度。从2026年9月15日起,该公司的默认设置将屏蔽”混合用途”爬虫,,既为搜索索引内容又为AI训练或代理服务收集内容的机器人,,来自任何托管广告的页面。
这一政策变化默认影响新Cloudflare客户、现有客户设置的新网站以及所有现有免费层客户。网站所有者可以选择允许混合用途爬虫,但负担已经转移:对AI爬虫保持开放现在是一种选择,而非默认。
为何现在行动
Cloudflare联合创始人兼首席执行官马修·普林斯将此举措定性为对互联网结构性变化的回应。”既然互联网上的大部分流量是非人类流量,我们必须更进一步、更快行动,以便可持续的生态系统能够出现,”他在一份声明中表示。
该公司数据显示,机器人首次超过了在线人类流量,这一里程碑原本预计到2027年才会到来。在机器人流量中,超过50%的AI爬虫活动涉及重新获取未发生变化的页面,浪费了出版商的带宽和计算资源。
谷歌的优势
Cloudflare的公告直接针对谷歌的集成爬虫设置。谷歌提供名为Google Extended的独立机器人,让出版商可以选择退出AI训练和代理使用而不影响其搜索可见性。但Cloudflare认为,谷歌的默认配置使其获取的数据量大约是竞争AI公司的两倍,因为出版商无法在不失去搜索排名的情況下轻松屏蔽谷歌的主爬虫。
“谷歌获取的信息比其他AI公司多2倍,”普林斯指出,呼吁混合用途爬虫将搜索与代理使用和训练分开。
按使用付费模式
新政策建立在Cloudflare早期为出版商提供对AI公司谈判筹码的努力之上。2024年,该公司推出了屏蔽未授权AI机器人的工具。2025年,它引入了一个网站可以收取爬取费用的市场,称之为”按爬取付费”。新政策将其发展为”按使用付费”模式,出版商不仅在内容被获取时获得补偿,而且在内容在AI产品中创造价值时也能获得补偿。
初始合作伙伴包括Ceramic.ai(当出版商的内容出现在其AI搜索结果中时向其付费)和You.com(为获取优质内容付费)。
对AI公司的意义
9月15日的截止日期给AI公司大约两个半月的时间来分离其搜索索引爬虫与训练和代理爬虫,否则将失去对广告支持网络的很大一部分的访问权限。不合规的公司将发现其爬虫在Cloudflare的网络上被默认屏蔽,该网络覆盖了大约20%的网络。
来源:Cloudflare的新政策推动AI公司支付出版商内容费用(TechCrunch,2026年7月1日)
婷 翻译

