零点击漏洞威胁企业级AI平台:隐藏指令可窃取数据

Decoder

在最近的Black Hat USA大会上,安全公司Zenity披露了一系列令人震惊的漏洞,统称为“AgentFlayer”,对一些最广泛使用的企业级AI平台构成了重大威胁。这些漏洞针对ChatGPT、Copilot Studio、Cursor、Salesforce Einstein、Google Gemini和Microsoft Copilot等知名系统,利用一种复杂的攻击方法,几乎不需要用户交互。

这些“零点击”和“一点击”漏洞的区别在于它们依赖于间接提示——嵌入在看似无害的数字资源中的隐藏指令。这种被称为提示注入的技术多年来一直是大型语言模型(LLM)系统面临的持续挑战,尽管进行了无数次尝试,但仍未能找到明确的解决方案。随着基于代理的AI系统以日益增长的自主性变得更加普及,这些漏洞正在升级。甚至OpenAI首席执行官Sam Altman也曾告诫用户不要将敏感信息委托给新的ChatGPT代理。

Zenity联合创始人Michael Bargury通过一个针对Salesforce Einstein的引人注目的例子,展示了这些攻击的 insidious 性质。Salesforce Einstein是一种旨在自动化任务的AI工具,例如更新联系方式或与Slack等通信平台集成。攻击者可以植入特制的客户关系管理(CRM)记录,这些记录看起来无害。当销售代表进行例行的LLM查询(例如“我最新的案例是什么?”)时,AI代理会扫描CRM内容。在用户不知情的情况下,代理会将隐藏的指令解释为合法命令并自主执行。在现场演示中,Einstein自动将所有客户的电子邮件地址替换为攻击者控制的域名,从而悄悄地重新路由了未来的通信。尽管原始地址作为编码别名保留在系统中,但攻击者可以有效地跟踪消息的预期去向。Salesforce证实,这个特定的漏洞已于2025年7月11日修复,使该特定漏洞无法被利用。

另一个名为“Ticket2Secret”的零点击漏洞,在Cursor与Jira集成时对其进行了攻击。Zenity展示了看似无害的Jira工单如何在没有任何用户操作的情况下,在Cursor客户端内执行恶意代码。这使得攻击者能够直接从受害者的本地文件或存储库中提取敏感数据,包括API密钥和凭据。进一步的演示包括对ChatGPT的概念验证攻击,其中一个不可见的提示——白色文本,字体大小为一——隐藏在Google文档中。此漏洞利用了OpenAI的“连接器”功能,该功能将ChatGPT与Gmail或Microsoft 365等服务连接。如果这样被篡改的文档落在受害者的Google Drive中,一个简单的请求,如“总结我与Sam的上次会议”,就可能触发隐藏的提示。模型不会生成摘要,而是会搜索API密钥并将其传输到外部服务器。

在随附的博客文章中,Zenity批判性地评估了行业当前在AI安全方面的方法,特别是其对“软边界”的严重依赖。这包括对训练数据、统计过滤器和旨在阻止不良行为的系统指令的调整。Bargury将这些斥为“虚构的边界”,未能提供真正的安全性。相比之下,“硬边界”是本质上阻止某些行为的技术限制,例如在Microsoft Copilot中阻止特定图像URL或在ChatGPT中验证URL结构。虽然这些可以可靠地阻止某些攻击,但它们通常会限制功能,Zenity指出,供应商在竞争压力下经常放松此类限制。

Zenity的这些演示是揭示基于代理的AI系统性安全漏洞的更广泛趋势的一部分。研究人员已经展示了如何通过日历邀请中的隐藏提示劫持Google的Gemini助手,可能使攻击者能够控制物联网(IoT)设备。其他事件包括在一个黑客竞赛中,一个聊天机器人被一个简单的提示操纵,转移了47,000美元;以及Anthropic新的LLM安全系统在一个越狱竞赛中被绕过。一项大规模的红队研究最近在44个场景中揭示了22个AI模型的系统性安全漏洞,指向了普遍的攻击模式。此外,研究发现AI代理可以在浏览器环境中被强制执行危险操作,导致数据窃取、恶意软件下载和网络钓鱼尝试。这些集体证据强调了快速发展的AI世界面临的严峻且不断演进的安全挑战。