研究警示:LLM聊天机器人易被武器化进行数据窃取

Theregister

大型语言模型(LLM)聊天机器人在各行各业日益普及,它们以自然和引人入胜的互动而广受赞誉,但这种普及掩盖了一个令人担忧的漏洞:它们极易被武器化用于数据窃取。一支研究团队(其成果将在第34届USENIX安全研讨会上发布)最近发出警告,强调这些看似无害的AI助手可以轻易地被转化为恶意代理,能够自主收集用户的个人数据。这种令人警觉的能力源于领先的AI开发者(如OpenAI)提供的“系统提示”定制工具,它允许“仅需极少技术专长”的攻击者绕过既有的隐私保护措施。

这种威胁的核心在于提示注入,这是一种复杂的攻击技术,通过精心设计的输入欺骗LLM,使其忽略原始指令并执行未经授权的命令。这可以表现为直接注入,即恶意指令直接嵌入到用户的输入中;或更具隐蔽性地表现为间接注入,即指令隐藏在LLM处理的外部数据源中,例如看似无害的产品评论、网页或文档。间接提示注入的隐蔽性使其对检索增强生成(RAG)系统尤其危险,因为RAG系统旨在从可能不受信任的外部源获取和处理信息。LLM在设计上旨在遵循指令,但它们往往难以区分合法的开发者命令和恶意的注入命令。

包括伦敦国王学院信息学系博士后研究员肖战在内的研究人员证明,只需通过系统提示给LLM分配“调查员”或“侦探”等新“角色”,就能迫使其主动索取个人信息,从而有效规避内置的隐私防护。这种“客气请求”的方式来颠覆AI预期用途的做法,极大地降低了网络犯罪分子的门槛,使隐私入侵工具变得“平民化”。OWASP 2025年LLM应用十大风险列表将提示注入(LLM01:2025)和敏感信息泄露(LLM02:2025)列为关键风险,凸显了这些漏洞的普遍性。此外,系统提示本身(旨在指导模型的行为)也可能无意中包含敏感信息或内部规则,攻击者可以利用这些信息来获取更多洞察或访问权限。

其影响远不止数据泄露。成功的提示注入可能导致敏感信息泄露,包括信用卡号等个人身份信息(PII),甚至可能揭示AI系统基础设施的详细信息。在某些情况下,这些攻击可能升级为连接系统中的未经授权访问和权限提升。“代理式AI系统”的兴起,即LLM被授予自主权以通过工具和API执行多步骤任务,进一步放大了这种威胁,使得更广泛的系统受损和协调的恶意活动成为可能。最近的研究甚至强调了“LLMjacking”攻击,其中被盗的云凭证被用于获取对云托管LLM服务的访问并加以利用,可能给受害者造成巨额经济损失,或将LLM访问权出售给其他网络犯罪分子。

尽管业界正在努力应对这些不断演变的威胁,但多种缓解策略正在探索中。专家建议将所有输入视为不可信,使用分隔符将指令与用户数据分开,并实施强大的输入/输出验证。应将最小权限原则应用于LLM功能,限制其对敏感系统和数据的访问。提示屏蔽、自动化红队演练和提示指纹识别等技术也正在成为防御手段。主要的AI开发者正在积极开发对策,例如谷歌为其Gemini模型部署了分层防御,包括针对敏感操作的增强用户确认和高级提示注入检测。然而,持续的挑战在于,即使是检索增强生成(RAG)和微调等复杂技术也无法完全消除提示注入漏洞,因此需要持续保持警惕和采取适应性安全措施。