Cloudflare重拳出击，一键封禁AI机器人，守护内容创作者权益

导语
生成式 AI 的浪潮席卷全球,催生了对海量训练数据的巨大需求。部分公司利用 AI 机器人肆意抓取网络内容,严重侵犯了原创内容的权益,对网络安全构成威胁。为保护内容创作者的合法权益,网络安全和性能领域的领军企业 Cloudflare 近日宣布,推出全新一键封禁功能,帮助用户轻松抵御 AI 机器人的恶意抓取。
AI 机器人带来的挑战
生成式 AI 的蓬勃发展离不开海量数据的训练,这使得利用 AI 机器人进行网络抓取的行为日益猖獗。一些公司为了获取训练 AI 模型所需的海量数据,不惜铤而走险,利用 AI 机器人盗取网站内容。尽管部分公司会明确标识其网络抓取机器人,但仍有许多公司选择隐瞒身份,暗中窃取网站内容。例如,据报道,谷歌每年斥资 6000 万美元购买 Reddit 用户生成内容的授权,而 AI 公司 Perplexity 也被指控通过伪装用户身份抓取网站内容。显而易见,原创内容的价值在 AI 时代水涨船高,同时也面临着前所未有的挑战。
Cloudflare 去年曾宣布允许用户轻松阻止行为良好的 AI 机器人,这些机器人遵守 robots.txt 协议,不使用未经授权的内容训练模型,也不会抓取网站数据进行 RAG 应用推理。然而,即使是这类“守规矩”的 AI 机器人,绝大多数 Cloudflare 用户也选择将其拒之门外。
Cloudflare 全新一键封禁功能
为了帮助用户有效抵御 AI 机器人,尤其是那些不诚信的机器人的侵害,Cloudflare 全新推出一键封禁功能,允许所有用户,包括免费用户,轻松便捷地屏蔽所有 AI 机器人。用户只需在 Cloudflare 仪表板中依次选择“安全”>“机器人”,然后开启“AI 抓取工具和爬虫”开关,即可启用该功能。

Cloudflare 将持续监控并识别新型 AI 机器人的特征,不断更新该功能,确保其有效性。为了全面了解 AI 爬虫的活动模式,Cloudflare 对其网络流量进行了深入分析。
AI 机器人活动现状分析
Cloudflare 分析了过去一年中网络上常见的 AI 爬虫用户代理,并根据请求数量排名,发现 Bytespider、Amazonbot、ClaudeBot 和 GPTBot 是最活跃的四大 AI 爬虫。其中,Bytespider 由 TikTok 母公司字节跳动运营,据悉主要用于为其大语言模型收集训练数据,包括支持其 ChatGPT 竞品 Doubao 的模型。 Amazonbot 则用于为 Alexa 的问答功能建立索引,其请求数量排名第二。 ClaudeBot 用于训练 Claude 聊天机器人,其请求量近期也呈现增长趋势。
在所有 AI 机器人中,Bytespider 不仅请求数量最多,其爬取的网站范围也最广,被阻止的频率也最高。由 OpenAI 运营的 GPTBot 在爬取范围和被阻止频率方面紧随其后,该机器人主要用于为 ChatGPT 等 AI 产品背后的 LLM 收集训练数据。
下表展示了 Cloudflare 分析的部分 AI 机器人所访问的受 Cloudflare 保护的网站的比例：

AI 机器人
访问的网站份额

Bytespider
40.40%

GPTBot
35.46%

ClaudeBot
11.17%

ImagesiftBot
8.75%

CCBot
2.14%

ChatGPT-User
1.84%

omgili
0.10%

Diffbot
0.08%

Claude-Web
0.04%

PerplexityBot
0.01%

虽然上述分析揭示了请求量和网站访问量方面最活跃的 AI 爬虫,但许多网站运营者很可能尚未意识到,他们的网站正被更流行的 AI 爬虫暗中访问。 Cloudflare Radar 团队对排名前 10000 的网站的 robots.txt 文件进行分析后发现,GPTBot、CCBot 和 Google 是被网站禁止访问最多的 AI 爬虫,而像 Bytespider 和 ClaudeBot 这样的热门 AI 爬虫却很少被网站明确禁止。
随着 AI 机器人泛滥成灾,Cloudflare 对网站运营商的应对措施进行了调查。数据显示,6 月份,访问排名前 100 万的网站（使用 Cloudflare 服务的网站）的 AI 机器人数量占比约为 39%,但仅有 2.98% 的网站采取了阻止或挑战这些请求的措施。此外,网站排名越高,越容易成为 AI 机器人的目标,相应地,这些网站也更有可能选择阻止 AI 机器人访问。

Cloudflare 看到的前 N 个互联网财产（按访客数量）
AI 机器人访问的百分比
阻止 AI 机器人的百分比

10
80.0%
40.0%

100
63.0%
16.0%

1,000
53.2%
8.8%

10,000
47.99%
8.92%

100,000
44.53%
6.36%

1,000,000
38.73%
2.98%

许多网站运营商选择使用 robots.txt 文件阻止 AI 爬虫访问其网站。然而,这种方式的有效性取决于 AI 机器人运营商是否遵守 robots.txt 协议和 RFC9309 标准,诚实地公开其身份。然而,修改用户代理对 AI 机器人运营商来说易如反掌。
Cloudflare 如何识别伪装的 AI 机器人
令人遗憾的是,一些 AI 机器人运营商会使用虚假用户代理,将自己伪装成真实浏览器,试图蒙混过关。 Cloudflare 一直在密切关注此类行为,其全球机器学习模型能够有效识别 AI 机器人,即使它们刻意隐瞒真实身份。
以某个试图隐藏其活动的 AI 机器人为例,Cloudflare 对其流量进行了分析。结果显示,该机器人的所有机器人分数都远低于 30,这意味着 Cloudflare 的评分系统认为,这些流量很可能来自 AI 机器人。
任何将 WAF 规则设置为挑战机器人分数低于 30（Cloudflare 推荐）的网站都能够自动阻止所有来自该 AI 机器人的流量,无需采取任何额外操作。对于未来采用类似手段隐藏身份的 AI 机器人,情况也是如此。
Cloudflare 利用其全球网络信号计算机器人分数,能够准确识别 AI 机器人并将其标记为“可能是机器人”。
恶意行为者通常使用特定工具和框架大规模抓取网站,而 Cloudflare 能够识别这些工具和框架的特征,并根据其每秒处理超过 5700 万个请求的全球网络判断其可信度。 Cloudflare 的模型基于这些信号的全局聚合数据,能够精准识别并标记来自像上述 AI 机器人这类规避性机器人的流量。
得益于这些全局聚合数据,Cloudflare 能够在无需手动识别机器人特征的情况下,快速检测新型抓取工具及其行为,确保用户免受新型 AI 机器人的侵害。
如何举报行为不端的 AI 机器人
如果您发现任何行为异常的 AI 机器人,可以通过以下两种方式向 Cloudflare 举报：

企业机器人管理客户可以通过机器人分析功能提交误报反馈循环报告,只需选择出现异常行为的流量部分即可。

所有 Cloudflare 用户,包括免费用户,均可通过专用举报工具举报未经授权抓取网站内容的 AI 机器人。

Cloudflare 预测,部分 AI 公司未来可能会持续改进技术手段,以期绕过机器人检测机制,获取网站内容。 Cloudflare 将持续关注此类行为,不断更新其 AI 抓取工具和爬虫规则,改进机器学习模型,维护网络安全,保障内容创作者的权益,为 AI 时代的网络安全保驾护航。