Cloudflare大战Perplexity:AI网络爬虫道德之战升级

Marktechpost

互联网基础设施巨头Cloudflare与AI搜索初创公司Perplexity之间的数字战场正在升级,凸显了AI网络数据抓取这一争议性问题以及管理在线数据的基本规则。Cloudflare公开指责Perplexity系统性地规避网站屏蔽并伪装其身份以收集数据,从而引发了关于AI时代伦理和透明度的新一轮辩论。

据Cloudflare称,这些指控源于其广泛的观察和来自客户的大量投诉。Cloudflare声称Perplexity AI的爬虫机器人一直在无视标准的robots.txt协议——即网络爬虫的数字“禁止进入”标志——以及其他防火墙规则。更令人震惊的是,Cloudflare声称Perplexity的爬虫采用了欺骗性策略,更改其用户代理以冒充macOS上的Google Chrome等常见网络浏览器,并在初次被屏蔽后轮换IP地址以逃避检测。据报道,这种所谓的“隐形抓取”行为在数万个域名中被观察到,每天产生数百万次请求。Cloudflare甚至进行了受控测试,设置了受限域名,结果发现Perplexity仍然能够提供有关其内容的详细信息,这表明其故意规避了保护措施。作为回应,Cloudflare已将Perplexity从“已验证机器人”列表中移除,并实施了新规则以主动阻止其隐形爬虫。Cloudflare首席执行官Matthew Prince直言不讳,将一些所谓的“知名”AI公司的行为比作“朝鲜黑客”。

然而,Perplexity强烈否认了Cloudflare的指控,称其为“宣传噱头”或“销售说辞”,是基于对现代AI助手运作方式的根本误解。Perplexity的一位发言人辩称,Cloudflare未能区分Perplexity的官方爬虫和来自第三方服务(例如Perplexity声称仅偶尔使用的BrowserBase)的流量。Perplexity坚称,绝大多数被标记的请求都是用户驱动的,即当用户专门提出问题时发生的实时信息获取,而非用于模型训练的系统性、未经授权的抓取。该公司声称其系统不会存储或使用这些获取的数据来训练AI模型。Perplexity还认为Cloudflare的系统在区分合法AI助手和实际威胁方面“根本不足”,并暗示将用户驱动的AI请求错误地描述为恶意机器人可能会“将电子邮件客户端和网络浏览器定罪”。

这场不断升级的争议凸显了AI公司与内容发布商之间更广泛、日益加剧的紧张关系。Perplexity此前也面临过类似的指控,包括道琼斯公司(于2024年10月提起诉讼)正在进行的诉讼以及BBC(6月)的法律威胁,两者都声称存在未经授权的内容抓取。冲突的核心在于网络礼仪和robots.txt协议的不断演变解释,后者是互联网早期长期存在的“荣誉准则”。虽然传统搜索引擎历来会将流量引回发布商,但AI机器人通常使用抓取的数据来提供直接答案或进行模型训练,这几乎没有给原始内容创作者带来任何互惠利益。这种不平衡正在推动人们呼吁制定新的标准和补偿模式,一些AI公司,如OpenAI,正在与主要出版商寻求许可协议。Cloudflare则推出了供发布商屏蔽AI机器人的工具和一个促进付费数据访问的市场,这预示着AI数据获取将转向一种更受监管的、交易性的关系。随着AI代理变得越来越普遍,Cloudflare和Perplexity之间这场战斗的结果可能会为内容所有权、数据伦理以及开放网络的未来树立一个关键先例。