Cloudflare大战Perplexity：AI网络爬虫战火与法律风险

当前，数字领域正面临互联网基础设施巨头Cloudflare与AI初创公司Perplexity之间的一场重大争议，核心是关于非法网络爬取的指控。这场“网络爬虫战”对人工智能的未来发展、内容变现以及数字时代数据获取的伦理道德都具有深远影响。

Cloudflare于2025年8月4日通过一篇博客文章公开了这场争议，指控AI驱动的“问答引擎”Perplexity绕过robots.txt限制来抓取内容。Robots.txt文件是网络上长期存在的标准，于1994年引入并于2022年正式标准化，它允许网站表明是否希望其内容被搜索引擎或AI爬虫索引。Cloudflare声称，Perplexity最初使用其声明的用户代理（如PerplexityBot），但在被阻止时，它会通过模糊身份、修改用户代理、更改源IP地址，甚至有时完全不获取robots.txt文件来“隐形爬取”。Cloudflare声称，这种行为与既定的网络“礼仪”和历史上规范互联网互动的道德标准不符。Cloudflare的调查是由于其众多客户的投诉而启动的，这些客户已在其robots.txt文件中明确禁止Perplexity的爬取活动并实施了Web应用防火墙（WAF）规则，但仍发现其内容被Perplexity访问。此后，Cloudflare已将Perplexity从“已验证的机器人”列表中移除，并实施了新规则以阻止其隐形爬取。

Perplexity强烈否认Cloudflare的指控，称其分析“令人尴尬”且“不合格”。Perplexity辩称，Cloudflare的系统“根本不足以区分合法的AI助手和实际威胁”。这家AI初创公司坚称其系统与传统网络爬虫的运作方式根本不同；它不是系统地索引网络的大部分内容，而是在响应特定用户问题时才获取网页，充当“用户触发代理”。Perplexity声称它不提前存储或索引内容，也不保留或使用获取的内容来训练其模型。

这场争议并非Perplexity的孤立事件。该公司已卷入与主要出版商的法律战。2024年10月，道琼斯公司（《华尔街日报》和《纽约邮报》的母公司）对Perplexity提起诉讼，指控其通过复制其内容来构建检索增强生成（RAG）索引，构成“大规模”版权侵权。诉讼声称，这种做法允许Perplexity用户“跳过链接”并直接访问摘要，从而减少出版商的流量和收入。同样，BBC于2025年6月致函Perplexity，威胁将对其未经许可抓取其内容采取法律行动，并要求赔偿或删除数据。BBC声称有证据表明Perplexity的模型是使用其内容训练的，并且其部分内容被逐字复制，直接与其服务竞争。Perplexity反过来称BBC的指控“具有操纵性和机会主义性质”，并表明对技术和知识产权法存在“根本性误解”。尽管面临这些法律挑战，Perplexity也与包括《时代》、《财富》和《明镜周刊》在内的一些出版商达成了收入分成协议，试图解决内容方面的担忧。

这场“网络爬虫战”的更广泛影响对AI开发者和内容创作者之间不断演变的关系至关重要。AI爬虫的兴起，它们在不为出版商带来直接流量或收入的情况下汇总内容，威胁着网络的主导商业模式。网络安全研究人员预计，内容保护者和寻求数据的AI公司之间将爆发一场不断升级的“军备竞赛”。虽然抓取内容和绕过robots.txt的法律界限仍不明确，但Cloudflare的调查结果可能使Perplexity面临更多诉讼。这场持续的冲突强调了对明确的伦理准则以及可能的新法律框架的迫切需求，以规范AI系统如何访问和利用在线数据，平衡创新与内容创作者的权利。

Cloudflare大战Perplexity：AI网络爬虫战火与法律风险

相关文章

美国政府签署谷歌、OpenAI、Anthropic AI产品一揽子采购协议

英伟达AI芯片非法出口案开审，公司拒设“自毁开关”引安全争议

AI的自我提升：Meta的宏伟目标、风险与深远影响