Cloudflare 指控 AI 公司 Perplexity 实施“隐秘爬取”行为

2025-08-05T08:39:39.000ZTechrepublic

Cloudflare,一家著名的互联网基础设施提供商,公开指控人工智能初创公司 Perplexity 在数百万个网站上从事“隐秘爬取行为”,这重新点燃了关于人工智能公司如何访问和利用网络内容的激烈争论。Cloudflare 在最近的一篇博客文章中详细阐述了这一指控,称 Perplexity 的机器人绕过既定的网站限制,包括 robots.txt 文件和防火墙规则,以抓取内容。

根据 Cloudflare 的说法,Perplexity 的爬虫最初使用声明的用户代理,但当遇到网络阻止或 robots.txt 禁止指令时,它们据称会切换到未声明的通用浏览器签名并轮换 IP 地址以逃避检测。这种行为在数万个域名和每天数百万次请求中被观察到,Cloudflare 利用机器学习和网络信号来识别这种隐秘活动,包括机器人伪装成 macOS 上的 Google Chrome 等流行网络浏览器的情况。Cloudflare 的发现源于客户的投诉,他们注意到 Perplexity 尽管已设置明确的阻止,但仍能访问其内容。

robots.txt 文件是一种广泛采用的网络标准,它向网络机器人(如搜索引擎爬虫)提供关于它们被允许访问网站哪些部分的指令。Cloudflare 坚称 Perplexity 的行为与这些网络爬取规范直接冲突,这些规范强调透明度和遵守网站指令。因此,Cloudflare 已将 Perplexity 从其已验证机器人列表中删除,并更新了规则以阻止此类隐秘活动,为其客户提供针对这些未声明爬虫的增强保护。

针对 Cloudflare 的指控,Perplexity 强烈反驳,称 Cloudflare 的领导层“要么对 AI 的基本知识存在危险的误解,要么只是更注重形式而非实质”。Perplexity 在一篇帖子中澄清说,其 AI 代理的运作方式与传统网络爬虫不同。该公司表示,当用户提出需要当前信息的问题时,其 AI 会访问相关网站,阅读内容,并提供定制的摘要,强调这些内容不会被存储用于训练目的,而是立即用于回答用户的查询。Perplexity 还暗示 Cloudflare 可能将其合法流量与 BrowserBase 等第三方服务的不相关请求混淆了。

这场争议凸显了数字生态系统内部日益加剧的紧张关系,人工智能公司需要大量数据来训练其模型,而内容创作者和出版商则寻求控制其知识产权的访问和货币化方式。在人工智能时代,robots.txt 作为一项自愿协议的有效性正受到越来越多的质疑,这导致人们呼吁建立更强大的机制,让内容所有者表达其对 AI 数据使用的偏好。Cloudflare 最近的“内容独立日”倡议允许超过 250 万个网站阻止 AI 训练爬虫,这突显了该行业正朝着为内容创作者提供更大控制权的方向转变。

Perplexity 事件并非孤立,Anthropic 等其他人工智能公司也面临类似的指控和法律挑战,包括 Reddit 因内容抓取而提起的诉讼。虽然像 OpenAI 这样的一些人工智能公司据报道正在遵守机器人行为的最佳实践和拟议标准,但当前的争议强调了持续需要明确的道德准则和技术解决方案,以负责任地管理 AI 驱动的网络爬取。

Cloudflare 指控 AI 公司 Perplexity 实施“隐秘爬取”行为 - OmegaNext AI 新闻