Cloudflare指控Perplexity AI秘密爬取网站，无视抓取禁令

在围绕AI内容抓取持续进行的激烈斗争中，互联网基础设施巨头Cloudflare公开指控AI搜索初创公司Perplexity AI采用“隐形爬虫”来绕过网站限制并非法收集数据。Cloudflare于2025年8月4日星期一发布的一份报告详细披露了这些指控，称Perplexity的机器人正在积极伪装自己，以规避包括robots.txt指令在内的广泛接受的网络协议。

Cloudflare的调查是在其客户投诉后展开的，结果显示，即使网站实施了robots.txt文件和特定的防火墙规则来阻止Perplexity官方声明的爬虫（如PerplexityBot），该AI服务仍然能够访问内容。据Cloudflare称，Perplexity的系统似乎会切换到未声明的机器人，这些机器人模仿合法的网络浏览器流量，频繁轮换IP地址，并更改用户代理以逃避检测。Cloudflare工程师将这种行为比作“自适应恶意软件”，Cloudflare首席执行官Matthew Prince更是争议性地将这种策略比作“朝鲜黑客”所使用的策略。

Perplexity AI是一家由Jeff Bezos等投资者支持的搜索引擎，它从网络内容中合成答案并提供引用，旨在实现透明和事实的信息检索。然而，Perplexity的发言人Jesse Dwyer驳斥了Cloudflare的说法，称其具有误导性，并表示“实际上没有访问任何内容”，同时暗示相关流量并非源自他们的系统。这一回应是在该公司此前曾面临类似指控的背景下发出的。

这不是Perplexity AI第一次面临激进抓取的指控。2024年6月，《福布斯》公开批评该公司涉嫌复制整篇文章（包括插图）但极少注明出处。《连线》杂志也在2024年6月报道称，Perplexity正在抓取明确禁止此类行为的网站内容，并被发现不准确地转述文章。主要媒体机构也已采取法律行动；《纽约时报》于2024年10月发出了停止侵权通知，英国广播公司（BBC）于2025年6月威胁采取法律行动，两者均指控Perplexity未经授权使用内容和侵犯版权。道琼斯和《纽约邮报》也于2024年6月提起了诉讼。Perplexity通常坚持认为，它是在其认为的合理使用范围内“聚合”公共信息，并非从零开始训练大型语言模型，而只是为生成摘要而索引网络。

为应对日益严重的AI抓取问题，Cloudflare已采取了积极措施。该公司已将Perplexity AI从“已验证机器人”列表中移除，并更新了其系统以积极阻止这些“隐形抓取”活动。Cloudflare还为网站所有者提供了工具，以便轻松阻止AI训练爬虫，甚至在2025年3月推出了“AI迷宫”功能，旨在将行为不端的机器人困在由AI生成的垃圾内容的迷宫中，从而浪费它们的资源并阻止未经授权的抓取。Cloudflare首席执行官强调AI公司需要采纳道德标准，并警告说持续规避可能导致更广泛的封锁。

这场争议凸显了AI时代的一个根本性矛盾：AI开发者需要大量数据来训练他们的模型，而内容发布者则寻求控制其知识产权并从中获利。虽然robots.txt长期以来一直作为网络爬虫的自愿协议，但对于AI训练和内容生成而言，忽视这些指令的伦理和法律影响仍然是一个激烈争论的话题，这可能会加速对行业监管和新法律框架的呼吁。

Cloudflare指控Perplexity AI秘密爬取网站，无视抓取禁令

相关文章

Arista重金押注AI以太网，不惧关税上调预测

OpenAI联手美国政府：前沿模型仅售1美元，特朗普AI计划添新章

美国政府签署谷歌、OpenAI、Anthropic AI产品一揽子采购协议