Cloudflare指控Perplexity AI秘密爬取网站,无视抓取禁令

2025-08-04T20:40:11.000ZTheregister

在围绕AI内容抓取持续进行的激烈斗争中,互联网基础设施巨头Cloudflare公开指控AI搜索初创公司Perplexity AI采用“隐形爬虫”来绕过网站限制并非法收集数据。Cloudflare于2025年8月4日星期一发布的一份报告详细披露了这些指控,称Perplexity的机器人正在积极伪装自己,以规避包括robots.txt指令在内的广泛接受的网络协议。

Cloudflare的调查是在其客户投诉后展开的,结果显示,即使网站实施了robots.txt文件和特定的防火墙规则来阻止Perplexity官方声明的爬虫(如PerplexityBot),该AI服务仍然能够访问内容。据Cloudflare称,Perplexity的系统似乎会切换到未声明的机器人,这些机器人模仿合法的网络浏览器流量,频繁轮换IP地址,并更改用户代理以逃避检测。Cloudflare工程师将这种行为比作“自适应恶意软件”,Cloudflare首席执行官Matthew Prince更是争议性地将这种策略比作“朝鲜黑客”所使用的策略。

Perplexity AI是一家由Jeff Bezos等投资者支持的搜索引擎,它从网络内容中合成答案并提供引用,旨在实现透明和事实的信息检索。然而,Perplexity的发言人Jesse Dwyer驳斥了Cloudflare的说法,称其具有误导性,并表示“实际上没有访问任何内容”,同时暗示相关流量并非源自他们的系统。这一回应是在该公司此前曾面临类似指控的背景下发出的。

这不是Perplexity AI第一次面临激进抓取的指控。2024年6月,《福布斯》公开批评该公司涉嫌复制整篇文章(包括插图)但极少注明出处。《连线》杂志也在2024年6月报道称,Perplexity正在抓取明确禁止此类行为的网站内容,并被发现不准确地转述文章。主要媒体机构也已采取法律行动;《纽约时报》于2024年10月发出了停止侵权通知,英国广播公司(BBC)于2025年6月威胁采取法律行动,两者均指控Perplexity未经授权使用内容和侵犯版权。道琼斯和《纽约邮报》也于2024年6月提起了诉讼。Perplexity通常坚持认为,它是在其认为的合理使用范围内“聚合”公共信息,并非从零开始训练大型语言模型,而只是为生成摘要而索引网络。

为应对日益严重的AI抓取问题,Cloudflare已采取了积极措施。该公司已将Perplexity AI从“已验证机器人”列表中移除,并更新了其系统以积极阻止这些“隐形抓取”活动。Cloudflare还为网站所有者提供了工具,以便轻松阻止AI训练爬虫,甚至在2025年3月推出了“AI迷宫”功能,旨在将行为不端的机器人困在由AI生成的垃圾内容的迷宫中,从而浪费它们的资源并阻止未经授权的抓取。Cloudflare首席执行官强调AI公司需要采纳道德标准,并警告说持续规避可能导致更广泛的封锁。

这场争议凸显了AI时代的一个根本性矛盾:AI开发者需要大量数据来训练他们的模型,而内容发布者则寻求控制其知识产权并从中获利。虽然robots.txt长期以来一直作为网络爬虫的自愿协议,但对于AI训练和内容生成而言,忽视这些指令的伦理和法律影响仍然是一个激烈争论的话题,这可能会加速对行业监管和新法律框架的呼吁。

Cloudflare指控Perplexity AI秘密爬取网站,无视抓取禁令 - OmegaNext AI 新闻