Cloudflare 指控 Perplexity 秘密爬取网页:AI数据抓取伦理之战

Decoder

互联网基础设施巨头 Cloudflare 与人工智能搜索引擎 Perplexity 之间的数字战场日益激烈,Cloudflare 公开指控 Perplexity 尽管受到明确阻止,仍秘密爬取网站。这场不断升级的争端凸显了在人工智能时代,数据抓取伦理和互联网规则演变所带来的日益紧张的局势。

这场冲突于2025年8月4日爆发,当时 Cloudflare 发布了一篇详细的博客文章,声称 Perplexity 违反了既定的网络标准。Cloudflare 的调查源于客户投诉,网站所有者发现,即使他们通过 robots.txt 文件或 Web 应用程序防火墙 (WAFs) 明确阻止了该 AI 服务的官方爬虫“PerplexityBot”和“Perplexity-User”,Perplexity 仍在访问他们的内容。

Cloudflare 声称 Perplexity 采用“双管齐下”的方法来规避这些限制。据称,当其声明的机器人被阻止时,该公司会部署未声明的爬虫,通过轮换未列出的 IP 地址并更改其源自治系统 (ASN) 来伪装成标准网络浏览器,例如 macOS 上的 Chrome。Cloudflare 对设置了严格 robots.txt 和防火墙规则的全新、未索引的域名进行了对照实验,发现 Perplexity 仍然能够总结这些限制背后的秘密内容。Cloudflare 的报告指出,这种“隐形爬取”行为在数万个域名和每天数百万次请求中被观察到。

作为回应,Perplexity 于8月5日强烈驳斥了 Cloudflare 的指控,称其技术分析“根本不足”且“不合格”。Perplexity 辩称 Cloudflare 误解了其技术,坚称其系统基于“用户驱动的 AI 代理”运行,这些代理为特定用户查询实时获取信息,而非传统的、大规模的网络机器人。该公司表示,当用户请求当前信息时,AI 会访问相关网站,阅读内容,并提供针对特定问题的摘要,而不会存储数据用于训练。Perplexity 还指责 Cloudflare 将来自第三方服务 BrowserBase 的自动化流量错误地归因于其自身系统,声称它仅偶尔使用此服务,并非用于一般的网络抓取。

这场争议凸显了人工智能时代一个关键区别和日益增长的伦理困境:代表用户访问网站的 AI 代理应如何对待?Cloudflare 首席执行官 Matthew Prince 一直直言不讳地指出 AI 模型可能对出版商构成的“生存威胁”,认为 AI 抓取会消耗带宽而无法产生推荐流量或收入,从而损害内容创作者的商业模式。此后,Cloudflare 已将 Perplexity 从其“已验证机器人”程序中移除,并实施了新措施,以阻止其在其网络中进行所谓的隐形爬取。

这场争议凸显了关于 AI 数据收集实践、内容同意和知识产权的更广泛辩论。传统搜索引擎历来会将用户引导回原始来源,而 AI 搜索引擎通常直接总结内容,导致出版商的推荐流量大幅下降。这使得网站所有者陷入两难境地:阻止 AI 爬虫并冒着失去可见度的风险,或者允许它们并可能补贴那些从其内容中获利却不支付报酬的竞争对手。这并非 Perplexity 首次面临此类指控;该公司此前曾面临 Wired 等媒体的抄袭指控,目前正卷入与道琼斯的诉讼以及 BBC 因内容抓取而发出的法律威胁。

Cloudflare 和 Perplexity 之间持续的冲突,例证了 AI 公司寻求海量数据集与内容创作者努力控制其数字资产之间日益激烈的技术和伦理军备竞赛,这标志着定义网络互动和数据访问规范未来的关键时刻。