Cloudflare 推出对抗 AI 机器人的工具可一键阻止所有 AI 机器人、抓取工具和爬虫

为了帮助内容创作者维护安全的互联网，Cloudflare 推出了全新的一键按钮： “easy button” 来阻止所有 AI 机器人。这项功能适用于所有客户，包括免费用户。

随着生成式 AI 的流行，内容用于训练模型或进行推理的需求激增。尽管一些 AI 公司明确标识了它们的网络抓取机器人，但并不是所有公司都保持透明。部分公司如 Reddit 和 OpenAI 已因未经许可使用内容和声音而被报道。
Cloudflare 发现客户普遍希望阻止 AI 机器人访问他们的网站，尤其是不诚实的机器人。因此，推出了一键阻止所有 AI 机器人的功能。

该功能的主要特点和作用：

简便易用：
- 网站运营者只需在 Cloudflare 仪表板中导航至“安全 -> 机器人”部分，并启用标有“AI 抓取工具和爬虫”的开关，即可一键阻止所有 AI 机器人。
适用范围广泛：
- 该功能适用于所有 Cloudflare 客户，包括免费用户，无需额外付费即可使用。
自动更新：
- 该功能会根据 Cloudflare 的网络流量分析和新发现的 AI 机器人特征自动更新，不断识别和阻止新的恶意抓取工具和爬虫。
全网覆盖：
- Cloudflare 通过分析全球网络流量，识别并标记大量常见的 AI 机器人，确保提供全面的保护。当前最常见的抓取工具包括 Bytespider、Amazonbot、ClaudeBot 和 GPTBot。
机器学习支持：
- Cloudflare 利用机器学习模型和全球信号计算，准确识别和阻止假装是真实浏览器的恶意 AI 机器人，即使它们尝试伪装成合法用户。
增强的内容保护：
- 通过阻止未经许可的 AI 机器人访问网站内容，保护内容创作者的原创作品，防止其被未经授权的 AI 模型用于训练和推理。

功能启用步骤

登录 Cloudflare 仪表板。
导航至“安全 -> 机器人”部分。
找到并启用“AI 抓取工具和爬虫”开关。

详细内容：https://blog.cloudflare.com/declaring-your-aindependence-block-ai-bots-scrapers-and-crawlers-with-a-single-click

为了帮助内容创作者保护安全的互联网，我们刚刚推出了一款全新的“简单按钮”，可以阻止所有AI机器人。所有客户都可以使用，包括免费套餐用户。

生成式AI的流行使得用于训练模型或运行推理的内容需求急剧增加，尽管一些AI公司明确标识了它们的网络爬虫机器人，但并不是所有AI公司都透明。报道称，Google每年支付6000万美元向Reddit购买用户生成的内容，Scarlett Johansson声称OpenAI未经她同意使用了她的声音来开发新的个人助手，最近，Perplexity被指控冒充合法访客以抓取网站内容。大批量原创内容的价值从未如此之高。去年，Cloudflare宣布客户可以轻松阻止表现良好的AI机器人。这些机器人遵循robots.txt，不使用未经许可的内容来训练它们的模型或为使用网站数据的RAG应用程序运行推理。尽管这些AI机器人遵循规则，但Cloudflare的客户还是普遍选择阻止它们。

我们清楚地听到客户不希望AI机器人访问他们的网站，尤其是那些不诚实的机器人。为此，我们增加了一个全新的“一键阻止所有AI机器人”功能。所有客户都可以使用，包括免费套餐用户。要启用它，只需导航到Cloudflare仪表板的安全 > 机器人部分，点击标记为AI Scrapers and Crawlers的切换开关。

随着我们发现新的广泛抓取网络用于模型训练的机器人指纹，这一功能将自动更新。为了确保我们全面了解所有AI爬虫活动，我们调查了我们网络中的流量。

今日AI机器人活动

下图展示了在Cloudflare网络上按请求量计算的最受欢迎的AI机器人。我们查看了常见的AI爬虫用户代理，并汇总了过去一年中这些AI用户代理在我们平台上的请求数量：

在查看向Cloudflare站点发送的请求数量时，我们看到_Bytespider_、Amazonbot、_ClaudeBot_和_GPTBot_是前四名AI爬虫。_Bytespider_由拥有TikTok的中国公司字节跳动运营，据称用于收集其大语言模型(LLM)的训练数据，包括支持其ChatGPT竞争对手“逗宝”的模型。_Amazonbot_和_ClaudeBot_的请求量紧随其后。_Amazonbot_据称用于为Alexa的问题回答索引内容，发送的请求量位居第二，_ClaudeBot_用于训练Claude聊天机器人，最近请求量有所增加。

在我们看到的顶级AI机器人中，Bytespider_不仅在请求数量上领先，而且在其互联网属性爬取的范围和被阻止的频率上也是如此。紧随其后的是_GPTBot，它在爬取和被阻止方面排名第二。_GPTBot_由OpenAI管理，收集其LLM的训练数据，这些模型支撑着ChatGPT等AI驱动的产品。下表中的“访问的网站比例”指的是被命名的AI机器人访问的由Cloudflare保护的网站的比例。

AI Bot	访问的网站比例
Bytespider	40.40%
GPTBot	35.46%
ClaudeBot	11.17%
ImagesiftBot	8.75%
CCBot	2.14%
ChatGPT-User	1.84%
omgili	0.10%
Diffbot	0.08%
Claude-Web	0.04%
PerplexityBot	0.01%

虽然我们的分析确定了在请求量和访问的互联网属性数量方面最受欢迎的爬虫，但许多客户可能不知道这些最受欢迎的AI爬虫正在积极爬取他们的网站。我们的雷达团队对前10,000个互联网域名的robots.txt条目进行了分析，以确定最常用的AI机器人，然后查看了我们在Cloudflare保护的网站上看到这些机器人的频率。

在下图中，查看这些站点的禁止爬虫，我们看到客户最常在robots.txt中引用_GPTBot_、CCBot_和_Google，但并未特别禁止受欢迎的AI爬虫如_Bytespider_和_ClaudeBot_。

随着这些AI机器人充斥互联网，我们很好奇网站运营者已经如何应对。6月，AI机器人访问了约39%的使用Cloudflare的前百万互联网属性，但其中只有2.98%的属性采取了措施来阻止或挑战这些请求。此外，排名越高（越受欢迎）的互联网属性，越有可能成为AI机器人的目标，并相应地，越有可能阻止这些请求。

Cloudflare看到的按访问者数量排名前N的互联网属性	被AI机器人访问的百分比	阻止AI机器人的百分比
10	80.0%	40.0%
100	63.0%	16.0%
1,000	53.2%	8.8%
10,000	47.99%	8.92%
100,000	44.53%	6.36%
1,000,000	38.73%	2.98%

我们看到网站运营者使用robots.txt完全阻止这些AI爬虫的访问。然而，这些阻止依赖于爬虫运营者尊重robots.txt并遵循RFC9309（确保用户代理的变体都匹配产品标记）在访问互联网属性时诚实地表明身份，但用户代理对于爬虫运营者来说很容易更改。

我们如何发现伪装成真实浏览器的AI机器人

不幸的是，我们观察到爬虫运营者试图通过使用伪造的用户代理来显得自己像是真实浏览器。我们对这种活动进行了长期监控，并且我们自豪地说，我们的全球机器学习模型始终能够识别这种活动，即使运营者谎报他们的用户代理。

以一个具体的机器人为例，其他人观察到它在隐藏其活动。我们进行了分析，看看我们的机器学习模型如何对这个机器人的流量进行评分。在下图中，你可以看到所有机器人分数都牢牢低于30，表明我们的评分认为这种活动很可能来自机器人。

该图反映了使用我们最新模型对请求进行评分的结果，其中“热点”颜色表示更多请求落在该范围内，“冷色”表示较少请求落在该范围内。我们可以看到，绝大多数请求落入了最低的两个范围，表明Cloudflare的模型给了违规机器人9或以下的分数。用户代理的更改对评分没有影响，因为这是我们预计爬虫运营者会做的第一件事。

任何已设置WAF规则以挑战机器人分数低于30（我们的推荐值）的客户都自动阻止了所有这些AI机器人流量，无需采取新行动。未来使用类似技术隐藏其活动的AI机器人也会如此。

我们利用Cloudflare全球信号计算我们的机器人分数，对于上述AI机器人，我们正确识别并将其评分为“可能的机器人”。

当不良行为者试图大规模爬取网站时，他们通常使用我们能够指纹识别的工具和框架。对于我们看到的每一个指纹，我们使用Cloudflare的网络（平均每秒处理超过5700万请求）来了解我们应该多大程度上信任这个指纹。为了为我们的模型提供动力，我们计算了跨多个信号的全球聚合。基于这些信号，我们的模型能够适当地将上述例子的躲避AI机器人流量标记为机器人。

这种全球聚合数据的好处是，我们可以立即检测到新的抓取工具及其行为，而无需手动对机器人进行指纹识别，确保客户免受最新一波机器人活动的侵害。

如果您有关于行为不当的AI机器人的提示，我们很愿意进行调查。您可以使用以下两种方式报告行为不当的AI爬虫：