Cloudflare大战Perplexity：AI网络爬虫道德之战升级

互联网基础设施巨头Cloudflare与AI搜索初创公司Perplexity之间的数字战场正在升级，凸显了AI网络数据抓取这一争议性问题以及管理在线数据的基本规则。Cloudflare公开指责Perplexity系统性地规避网站屏蔽并伪装其身份以收集数据，从而引发了关于AI时代伦理和透明度的新一轮辩论。

据Cloudflare称，这些指控源于其广泛的观察和来自客户的大量投诉。Cloudflare声称Perplexity AI的爬虫机器人一直在无视标准的robots.txt协议——即网络爬虫的数字“禁止进入”标志——以及其他防火墙规则。更令人震惊的是，Cloudflare声称Perplexity的爬虫采用了欺骗性策略，更改其用户代理以冒充macOS上的Google Chrome等常见网络浏览器，并在初次被屏蔽后轮换IP地址以逃避检测。据报道，这种所谓的“隐形抓取”行为在数万个域名中被观察到，每天产生数百万次请求。Cloudflare甚至进行了受控测试，设置了受限域名，结果发现Perplexity仍然能够提供有关其内容的详细信息，这表明其故意规避了保护措施。作为回应，Cloudflare已将Perplexity从“已验证机器人”列表中移除，并实施了新规则以主动阻止其隐形爬虫。Cloudflare首席执行官Matthew Prince直言不讳，将一些所谓的“知名”AI公司的行为比作“朝鲜黑客”。

然而，Perplexity强烈否认了Cloudflare的指控，称其为“宣传噱头”或“销售说辞”，是基于对现代AI助手运作方式的根本误解。Perplexity的一位发言人辩称，Cloudflare未能区分Perplexity的官方爬虫和来自第三方服务（例如Perplexity声称仅偶尔使用的BrowserBase）的流量。Perplexity坚称，绝大多数被标记的请求都是用户驱动的，即当用户专门提出问题时发生的实时信息获取，而非用于模型训练的系统性、未经授权的抓取。该公司声称其系统不会存储或使用这些获取的数据来训练AI模型。Perplexity还认为Cloudflare的系统在区分合法AI助手和实际威胁方面“根本不足”，并暗示将用户驱动的AI请求错误地描述为恶意机器人可能会“将电子邮件客户端和网络浏览器定罪”。

这场不断升级的争议凸显了AI公司与内容发布商之间更广泛、日益加剧的紧张关系。Perplexity此前也面临过类似的指控，包括道琼斯公司（于2024年10月提起诉讼）正在进行的诉讼以及BBC（6月）的法律威胁，两者都声称存在未经授权的内容抓取。冲突的核心在于网络礼仪和robots.txt协议的不断演变解释，后者是互联网早期长期存在的“荣誉准则”。虽然传统搜索引擎历来会将流量引回发布商，但AI机器人通常使用抓取的数据来提供直接答案或进行模型训练，这几乎没有给原始内容创作者带来任何互惠利益。这种不平衡正在推动人们呼吁制定新的标准和补偿模式，一些AI公司，如OpenAI，正在与主要出版商寻求许可协议。Cloudflare则推出了供发布商屏蔽AI机器人的工具和一个促进付费数据访问的市场，这预示着AI数据获取将转向一种更受监管的、交易性的关系。随着AI代理变得越来越普遍，Cloudflare和Perplexity之间这场战斗的结果可能会为内容所有权、数据伦理以及开放网络的未来树立一个关键先例。

Cloudflare大战Perplexity：AI网络爬虫道德之战升级

相关文章

AI取代人力IT中间件：博通引领自动化转型

谷歌反垄断案：面临拆分危机，AI巨头觊觎Chrome浏览器

Meta AI政策丑闻：不安全内容指南曝光