Cloudflare大战Perplexity：AI网络爬虫战引爆法律风险

互联网基础设施巨头Cloudflare与AI搜索初创公司Perplexity之间爆发了一场重大冲突，焦点在于对非法网络爬取行为的指控，这对于人工智能的未来和内容所有权具有深远影响。Cloudflare公开指责Perplexity绕过标准的网络限制，包括robots.txt指令，以“隐形爬取”网站并在未经许可的情况下收集内容。

2025年8月5日，Cloudflare宣布将Perplexity的爬虫从“已验证机器人”名单中移除，并将积极阻止其“隐形机器人”访问Cloudflare保护的约2400万个网站，此举使争议进一步升级。Cloudflare的调查是在收到众多客户投诉后展开的，结果显示Perplexity声明的用户代理（如PerplexityBot和Perplexity-User）最初会尝试爬取网站。然而，一旦遇到网络阻止或robots.txt排除规则，Perplexity的系统据称会通过修改用户代理、更改源自治系统编号（ASN）以及冒充macOS上的通用浏览器（如Google Chrome）来模糊其身份，从而规避限制。这种“隐形爬取”活动在数万个域名上被观察到，每天产生数百万次请求。

Cloudflare强调，互联网建立在信任之上，合法的爬虫应保持透明、服务于明确目的，最重要的是，遵循网站指令。他们阻止Perplexity的举动，凸显了AI公司对训练数据永不满足的需求与内容创作者权利及偏好之间日益紧张的关系。Cloudflare最近还推出了新功能，允许其客户阻止所有AI爬虫，并推出了“按爬取付费”计划，使出版商能够为寻求许可其内容的AI公司设定费率。

Perplexity是一家由AI驱动的“答案引擎”，截至2025年7月估值达180亿美元，它通过利用大型语言模型综合生成带有来源引用的回答而迅速崛起。然而，这并非该公司首次因其数据获取方法面临指控。包括道琼斯、《纽约时报》和BBC在内的主要媒体机构此前曾威胁采取法律行动或对Perplexity提起诉讼，指控其侵犯版权、未经授权使用内容以及未经许可或适当署名地复制逐字新闻内容。道琼斯和《纽约邮报》的母公司新闻集团于2024年10月提起版权侵权诉讼，指控Perplexity“大规模免费搭便车”并转移流量和收入。BBC于2025年6月威胁提起诉讼，声称Perplexity的AI模型是基于其内容训练的，并寻求禁令及经济赔偿。

针对Cloudflare的指控，Perplexity发言人Jesse Dwyer驳斥该报告为“销售宣传”，声称Cloudflare提供的截图显示实际上并未访问任何内容。Perplexity此前也曾为自己的做法辩护，声称符合行业规范，并辩称其平台使用“用户驱动代理”，仅在用户提出特定问题时才抓取内容，并且抓取的数据不存储也不用于训练AI模型。Perplexity首席执行官Aravind Srinivas曾公开辩称爬取对于AI模型训练至关重要。该公司还与Gannett等公司达成了许可协议，以合法访问200多家出版物的内容。

这场不断升级的“网络爬取战争”凸显了当前网络协议（如robots.txt）在面对决心坚定的爬取者时的局限性，并标志着网络开放性与AI需求之间发生冲突的关键时刻。专家认为，这一事件可能导致网络基础设施提供商采取更严格的控制措施，并可能加剧围绕AI透明实践和可执行数据访问协议的政策讨论和监管审查。这场辩论强调了在快速发展的人工智能领域中，平衡创新与知识产权的紧急需求，亟需更明确的指导方针和保护措施。

Cloudflare大战Perplexity：AI网络爬虫战引爆法律风险

相关文章

美国政府签署谷歌、OpenAI、Anthropic AI产品一揽子采购协议

英伟达AI芯片非法出口案开审，公司拒设“自毁开关”引安全争议

AI的自我提升：Meta的宏伟目标、风险与深远影响