Cloudflare与Perplexity之争:AI爬虫与网络信任裂痕揭示
云基础设施巨头 Cloudflare 与 AI 搜索公司 Perplexity 之间的一场公开争端,深刻揭示了互联网信任面临的根本性挑战,以及 AI 数据收集不断演变的格局。这场于 2025 年 8 月初爆发的激烈交锋,暴露出企业在保护其在线内容免受日益复杂的 AI 爬虫侵扰方面存在的重大漏洞,并迫切呼吁制定新的网络标准。
争议的导火索是 Cloudflare 发布了一份技术报告,指控 Perplexity 进行“隐身爬取”。Cloudflare 称,Perplexity 使用伪装的网页浏览器,例如 macOS 上的通用 Chrome 用户代理,以绕过网站阻止并抓取网站所有者明确旨在阻止 AI 训练的内容。据报道,Cloudflare 的调查始于客户投诉,称 Perplexity 尽管已实施 robots.txt
指令和防火墙规则,仍能访问他们的内容。为了验证这些担忧,Cloudflare 创建了新的域名,阻止了所有已知的 AI 爬虫,然后向 Perplexity 查询这些受限网站,结果发现 Perplexity 仍在提供这些网站的详细信息。据 Cloudflare 称,当其声明的爬虫被阻止后,Perplexity 据称切换到这些通用用户代理,每天在数万个网站上生成 300 万到 600 万次请求,此外还有其声明爬虫产生的每天 2000 万到 2500 万次请求。Cloudflare 强调,这种行为违反了互联网透明度和遵守网站指令的核心原则。[摘要,3,4,6]
Perplexity 迅速反驳,称 Cloudflare 的报告是“宣传噱头”,旨在从其自身客户那里获得营销优势。[摘要,5] 这家 AI 公司暗示 Cloudflare 根本性地错误地将来自第三方自动化浏览器服务 BrowserBase 的数百万次网络请求归因于 Perplexity。Perplexity 声称其自身对 BrowserBase 的使用每天请求不到 45,000 次,这只是 Cloudflare 所称“隐身爬取”的 300 万到 600 万次请求的一小部分。[摘要,5] Perplexity 进一步辩称,Cloudflare 误解了现代 AI 助手的性质,解释说其服务功能是一个“用户驱动的代理”,实时为特定用户查询获取内容,而不是出于数据存储或训练目的进行传统的网络爬取。[摘要,3,4,5]
行业分析师普遍认为,这场公开争执暴露了当前内容保护策略中更深层次的系统性缺陷。传统的机器人检测工具是为静态网络爬虫设计的,它们在区分合法 AI 服务和有问题爬虫方面举步维艰,常常出现高误报率并容易被规避。现代 AI 机器人日益复杂,能够模仿人类行为,通过 IP 轮换和代理服务器掩盖其来源,甚至利用机器学习来规避 CAPTCHA 等防御措施。机器人开发者和检测系统之间的这场“军备竞赛”凸显出,自动化流量现在占所有网络活动的一半以上,仅恶意机器人就占 2024 年互联网流量的 37%,比 2023 年的 32% 显著增加。
这场争议还突显了围绕 AI 网络爬取的关键伦理和法律考量。同意、透明度和知识产权问题至关重要,因为 AI 系统常常无视内容创作者的意愿并违反服务条款协议。道德的网络抓取要求尊重隐私,遵守网站规则,并避免利用敏感或个人信息。专家警告称,未能建立明确的指导方针可能导致“巴尔干化”的网络,其中访问权限由主要的云基础设施提供商决定,这可能会扼杀开放式创新。[摘要]
为应对这些日益严峻的挑战,行业正在缓慢地朝着新标准迈进。“Web Bot Auth”是一个值得关注的进展,它是一个拟议中的自动化代理身份验证网络标准,目前正在通过浏览器供应商讨论和标准机构进行开发。该倡议旨在为机器人和 AI 代理创建一个统一的、可加密验证的框架,使其能够向网站表明身份,从而解决当前的碎片化和欺骗漏洞。据报道,OpenAI 正在通过 Web Bot Auth 试点身份验证,这表明正在推动更透明和负责任的 AI 网络交互。[摘要] 然而,成熟的标准预计要到 2026 年才能出现,这意味着在此期间企业可能仍需依赖定制合同、robots.txt
文件和不断演变的法律先例。[摘要] 其他缓解策略包括使用内容安全策略 (Content Security Policy) 或 URL 锚定 (URL Anchoring) 来限制 AI 代理可以搜索的网站,一些主要的 AI 模型已经采用了这些策略。
Cloudflare-Perplexity 的对峙标志着互联网的一个关键时刻。随着 AI 能力的提升,制定明确的交战规则、建立强大的身份验证机制,以及重新关注内容创作者、基础设施提供商和 AI 开发者之间的信任,变得日益紧迫,以确保一个公平且功能正常的数字生态系统。