Perplexity 对战 Cloudflare:AI 机器人挑战网络防御,引发安全担忧

Indianexpress

互联网的数字战场正经历一场不断升级的冲突,网络安全巨头 Cloudflare 指控由 AI 驱动的搜索初创公司 Perplexity 部署复杂的机器人,以绕过既定的网络防御并未经授权抓取内容。这场高风险的争议凸显了人工智能对数据渴求的需求与内容创作者控制其数字资产权利之间日益增长的紧张关系。

领先的互联网基础设施提供商 Cloudflare 率先引发了这场争议,声称 Perplexity AI 在数万个域名上进行了“隐形爬行”策略,每天涉及数百万次请求。根据 Cloudflare 的详细观察,Perplexity 的机器人最初会表明身份,但据称在遇到网络阻碍时,它们会模糊自己的身份。这包括更改用户代理字符串以模仿合法的浏览器,例如 macOS 上的 Google Chrome,并轮换使用与 Perplexity 基础设施没有官方关联的各种 IP 地址。Cloudflare 声称,此类操作使得这些机器人能够规避标准的 robots.txt 指令——这是一项被广泛接受的协议,用于指示哪些内容不应被索引或抓取——以及旨在阻止不必要自动化访问的 Web 应用程序防火墙 (WAF)。Cloudflare 坚称,他们在新域上进行的受控测试证实了这种欺骗行为,促使他们将 Perplexity 从其验证机器人列表中移除,并实施新的检测启发式方法来对抗所谓的规避行为。

Perplexity 对 Cloudflare 的指控进行了强硬反驳,驳斥该报告是充满误解的“宣传噱头”。这家 AI 初创公司辩称,Cloudflare 未能区分其自己声明的爬虫与合法的用户驱动流量,甚至未能区分其偶尔使用的第三方服务(如 BrowserBase)的流量。Perplexity 认为,其 AI 系统基于“按需获取”模型运行,仅在直接响应特定用户查询时才检索网页,而不是像传统爬虫那样系统地索引大量网页。他们将其与 Google 某些用户触发的、可以绕过 robots.txt 的获取行为进行类比,坚称其 AI 是用户意图的延伸,而非不加区别的机器人。此外,Perplexity 坚称以这种方式获取的内容既未存储也未用于训练其模型。该公司还批评 Cloudflare 的机器人管理系统“根本不足”以区分有益的 AI 助手和恶意抓取工具,暗示 Cloudflare 的做法可能过度阻止合法网络流量。

这场冲突揭示了互联网发展中的一个关键转折点。复杂 AI 模型的崛起需要庞大的数据集进行训练和操作,然而这种需求常常与现有的内容所有权规范和网络礼仪发生冲突。robots.txt 协议是一个有数十年历史的标准,其建立在“好”机器人自愿遵守的假设之上。然而,随着 AI 代理变得更加自主并擅长模仿人类行为,合法访问与未经授权的数据收集之间的界限变得模糊。网络防御者与 AI 驱动的抓取工具之间这场持续的“军备竞赛”可能会加剧,Cloudflare 等网络安全公司将不断完善其机器学习和行为分析技术,以识别和缓解新威胁。

其影响超越了技术防御,触及了深刻的伦理和法律问题。网络抓取(特别是当传统的 robots.txt 文件被绕过时)的法律界限模糊不清,这可能使 AI 公司面临来自出版商的一波诉讼,出版商旨在保护其知识产权和收入来源。虽然包括 Perplexity 在内的一些 AI 公司正在探索“出版商计划”和许可协议,以补偿内容创作者,但更大的挑战仍然在于建立清晰、可执行的标准,规范 AI 如何与开放网络互动。这场争议严酷地提醒我们,随着 AI 代理获得更多自主权,确保透明度、尊重数字边界以及定义在线内容的公平使用对于健康公平的互联网未来至关重要。