Cloudflare指控Perplexity AI“隐形爬取”:网络道德与数据之战再升级
互联网基础设施巨头Cloudflare指控AI搜索引擎Perplexity采用“隐形策略”绕过网站所有者明确禁止网络爬取的指令,这一指控根据2025年8月4日发布的一份报告。Cloudflare在一篇博客文章中详细阐述了这些指控,声称Perplexity正在使用未声明的爬虫,这些爬虫模仿普通浏览器流量,从已通过robots.txt文件屏蔽其官方机器人的网站上抓取内容。
Cloudflare管理着网络流量的很大一部分,其表示通过监控用户代理和IP地址中的异常模式,检测到了这些秘密操作。Perplexity声明的爬虫,如“PerplexityBot”,经常被网站屏蔽。对此,Cloudflare声称Perplexity已转向更隐蔽的方法,包括跨不同提供商轮换IP地址,并更改用户代理以显示为macOS上的标准Chrome浏览器,从而有效地将自动化抓取伪装成人类访问。Cloudflare的首席执行官Matthew Prince将Perplexity的行为比作“朝鲜黑客”,强调了对互联网礼仪的信任破坏。
这并非Perplexity首次面临此类指控。此前Wired和Forbes的报道也指控其在明确被屏蔽的情况下进行类似的抓取行为。这场争议凸显了AI公司(它们需要大量数据来训练模型)与寻求保护其知识产权和控制内容使用方式的出版商之间日益紧张的关系。基于同意的抓取问题已升级为法律挑战,英国广播公司(BBC)于2025年6月向Perplexity发出了勒令停止函,要求删除抓取的内容并进行赔偿。道琼斯公司也因类似问题提起了诉讼。
“robots.txt”文件是长期存在的网络标准,旨在传达网站所有者关于网络爬虫应如何与其网站交互的偏好。虽然不具法律约束力,但它被广泛认为是网络爬取的道德准则。Cloudflare认为Perplexity的所谓行为违反了这些既定的网络爬取规范。
为回应这些发现和日益增长的担忧,Cloudflare已将Perplexity从“已验证机器人”名单中移除,并实施了新的托管规则,以自动阻止这种隐形爬取活动。Cloudflare还在推进一项“按爬取付费”(Pay per Crawl)倡议,该倡议将默认阻止其网络上新站点的AI爬虫,除非获得明确许可,并可能允许内容所有者将其数据访问货币化,用于AI训练。这一转变旨在赋予出版商更多控制权,并为AI数据获取建立更透明的经济模式。
然而,Perplexity否认了Cloudflare的说法,其发言人表示“实际上没有访问任何内容”,并暗示所涉流量并非源自其系统。尽管如此,这场持续的争议凸显了随着AI技术不断发展并重塑在线信息访问和利用方式,所出现的复杂伦理和法律格局。