Cloudflare 指控 Perplexity“隐形抓取”被屏蔽网站

Marketingaiinstitute

Cloudflare 指控 AI 搜索引擎 Perplexity 进行“隐形抓取”

人工智能公司如何访问和利用在线内容的数字战场已急剧升级,互联网基础设施巨头 Cloudflare 公开指责人工智能问答引擎 Perplexity 涉嫌“隐形抓取”,以规避网站访问限制。这一争议凸显了内容创作者控制其知识产权的愿望与人工智能公司对数据渴求之间的根本性紧张关系。

Cloudflare 在最近一篇博文中详细阐述了其指控,称 Perplexity 一直在使用欺骗性策略,访问那些已明确屏蔽其抓取工具的网站内容。该公司声称,当 Perplexity 声明的机器人“PerplexityBot”和“Perplexity-User”遇到网络屏蔽或 robots.txt 指令(指导网络抓取工具哪些内容不应访问的标准协议)时,这家人工智能公司的系统据称会模糊其身份。这包括修改用户代理以冒充通用浏览器,例如 macOS 上的 Google Chrome,轮换 IP 地址,以及更改自治系统号(ASN)以逃避检测。Cloudflare 报告称,每天观察到数百万来自这些“隐形代理”的请求,试图绕过标准的反机器人保护。

这些指控源于 Cloudflare 客户的投诉,他们发现尽管实施了 robots.txt 规则和 Web 应用防火墙(WAF)屏蔽,Perplexity 仍在访问他们的内容。为了验证这些说法,Cloudflare 在新建的、未索引的域名上进行了受控测试,并对抓取设置了严格的禁止。尽管有这些明确的屏蔽,据报道 Perplexity 仍能从这些受限网站检索和汇总内容,这表明其蓄意规避了既定的网络协议。Cloudflare 强调,互联网建立在信任之上,合法的抓取工具应保持透明并遵守网站指令。针对观察到的行为,Cloudflare 已将 Perplexity 从验证机器人列表中移除,并更新了其管理规则,以阻止这种隐形抓取活动。此举与 Cloudflare 于七月启动的更广泛的“内容独立日”倡议相符,该倡议旨在赋予发布商对人工智能抓取工具更大的控制权,包括屏蔽访问或甚至对内容抓取收取费用的选项。

然而,Perplexity 强烈否认了 Cloudflare 的指控,驳斥该报告为“令人尴尬”且“不合格”的“推销”。这家人工智能公司辩称,Cloudflare 根本误解了现代人工智能助手的本质,认为他们的系统不像传统搜索引擎那样进行大规模、不加选择的抓取。相反,Perplexity 坚称其平台是根据特定用户问题“按需”获取网页,充当用户发起的代理而非自主机器人。Perplexity 声称 Cloudflare 的系统不足以区分合法的人工智能助手和恶意抓取,导致对负责任的、用户驱动的流量进行了错误分类。该公司还否认 Cloudflare 识别出的特定“隐藏用户代理”属于他们,或该代理访问了任何内容。

这场冲突凸显了人工智能开发者与内容创作者之间在数据获取和知识产权方面日益加剧的紧张关系。Perplexity 过去曾面临类似的非道德网络抓取和内容使用指控,包括来自 BBC 等实体的法律诉讼威胁,以及来自 Wired 和 Forbes 等出版物的抄袭指控。随着人工智能模型持续发展并更深入地融入用户获取信息的方式,关于公平补偿、透明数据实践以及“网络抓取”定义本身的辩论必将加剧,这可能会重塑开放互联网的基本规则。