Cloudflare指控Perplexity秘密AI抓取,引爆数据伦理争议
在一场迅速升级的争端中,互联网基础设施巨头Cloudflare公开指责AI搜索引擎Perplexity采用“隐形抓取”策略,以绕过网站限制并抓取内容。Cloudflare于2025年8月5日星期一发布的一份研究报告详细阐述了这些指控,这重新引发了关于AI数据收集伦理以及内容创作者对其数字资产控制权的激烈辩论。
Cloudflare的指控源于一项调查,该调查是在众多客户报告称Perplexity的AI机器人尽管通过robots.txt
文件和其他网络级规则明确阻止,仍能访问其网站后启动的。根据Cloudflare的说法,Perplexity的爬虫最初使用“PerplexityBot”等标准用户代理进行识别,但在面临网络阻塞时,据称会模糊其身份,试图规避网站偏好设置。
据称的策略包括伪装成合法的浏览器(例如macOS上的Google Chrome),以及轮换IP地址和自治系统号(ASNs)以逃避检测。Cloudflare的研究人员观察到这种活动发生在“数万个域名和每天数百万次请求”中,并且运行在Perplexity官方声明的IP范围之外。为了证实其发现,Cloudflare甚至创建了配置为拒绝机器人访问的测试域名,据称Perplexity的爬虫仍设法访问并从中检索信息。Cloudflare首席执行官Matthew Prince甚至将Perplexity的 alleged actions 比作“朝鲜黑客”的行为。为回应其发现,Cloudflare已将Perplexity从其验证机器人列表中移除,并实施了新的托管规则启发式方法,以在其网络中检测和阻止此类隐形抓取。
然而,Perplexity强烈否认了这些指控,将Cloudflare的报告斥为“销售说辞”。Perplexity的发言人Jesse Dwyer坚称,Cloudflare识别出的机器人与他们的公司无关,并声称Cloudflare提供的截图未能证明任何实际内容访问。Perplexity认为Cloudflare根本误解了现代AI助手的操作模型。这家AI初创公司表示,其平台依赖于“用户驱动代理”,这些代理仅在用户提出需要实时信息的特定问题时才抓取内容,并强调这些抓取的数据既不存储也不用于训练AI模型。此外,Perplexity指责Cloudflare将其系统中的自动化流量错误地归因于第三方服务BrowserBase,称其为“基本的流量分析失败”。
这场备受瞩目的争端凸显了AI公司(其功能依赖于海量网络数据)与致力于维护其知识产权和内容分发控制权的网站运营商之间日益紧张的关系。AI工具对检索增强生成(RAG)的依赖意味着对最新信息的持续需求,一些发布商将其视为一种“威胁收入的寄生关系”。围绕AI数据来源、机器人行为透明度以及遵守robots.txt
等网络标准的伦理考量是这场辩论的核心。Cloudflare最近启动了“内容独立日”倡议,旨在赋能超过250万个网站阻止AI训练爬虫,并对其内容拥有更大的控制权。这并非Perplexity首次因其内容获取行为而受到审查,此前曾有抄袭和绕过付费墙的指控。这场持续的争议凸显了在不断发展的数字环境中,平衡AI创新与网络发布商权利和偏好的复杂挑战。