Zero-Click-Exploits: Versteckte Befehle kapern Unternehmens-KI

Decoder

Auf der jüngsten Black Hat USA Konferenz enthüllte die Sicherheitsfirma Zenity eine Reihe alarmierender Schwachstellen, die kollektiv als „AgentFlayer“ bezeichnet werden und erhebliche Bedrohungen für einige der am weitesten verbreiteten Unternehmens-KI-Plattformen darstellen. Diese Exploits zielen auf prominente Systeme wie ChatGPT, Copilot Studio, Cursor, Salesforce Einstein, Google Gemini und Microsoft Copilot ab, indem sie eine ausgeklügelte Angriffsmethode nutzen, die wenig bis keine Benutzerinteraktion erfordert.

Was diese „Zero-Click“- und „One-Click“-Exploits auszeichnet, ist ihre Abhängigkeit von indirekten Prompts – versteckten Anweisungen, die in scheinbar harmlosen digitalen Ressourcen eingebettet sind. Diese Technik, bekannt als Prompt Injection, ist seit Jahren eine anhaltende Herausforderung für Large Language Model (LLM)-Systeme, und trotz zahlreicher Versuche bleibt eine endgültige Lösung schwer fassbar. Da agentenbasierte KI-Systeme, die mit zunehmender Autonomie arbeiten, immer häufiger werden, eskalieren diese Schwachstellen. Sogar OpenAI CEO Sam Altman hat Benutzer davor gewarnt, neuen ChatGPT-Agenten sensible Informationen anzuvertrauen.

Zenity-Mitbegründer Michael Bargury demonstrierte die heimtückische Natur dieser Angriffe mit einem überzeugenden Beispiel, das auf Salesforce Einstein abzielte, ein KI-Tool, das Aufgaben wie die Aktualisierung von Kontaktdaten oder die Integration mit Kommunikationsplattformen wie Slack automatisieren soll. Angreifer können speziell präparierte Customer Relationship Management (CRM)-Datensätze platzieren, die harmlos erscheinen. Wenn ein Vertriebsmitarbeiter eine routinemäßige LLM-Abfrage durchführt, wie z.B. „Was sind meine neuesten Fälle?“, scannt der KI-Agent den CRM-Inhalt. Ohne Wissen des Benutzers interpretiert der Agent die versteckten Anweisungen als legitime Befehle und handelt autonom. In der Live-Demonstration ersetzte Einstein automatisch alle E-Mail-Adressen von Kunden durch eine vom Angreifer kontrollierte Domain, wodurch zukünftige Kommunikationen stillschweigend umgeleitet wurden. Während die ursprünglichen Adressen als kodierte Aliase im System verblieben, konnte der Angreifer effektiv verfolgen, wohin Nachrichten gesendet werden sollten. Salesforce bestätigte, dass diese spezifische Schwachstelle am 11. Juli 2025 behoben wurde, wodurch dieser spezielle Exploit unmöglich wurde.

Ein weiterer Zero-Click-Exploit, genannt „Ticket2Secret“, zielte auf das Entwicklertool Cursor ab, wenn es mit Jira integriert war. Zenity zeigte, wie ein scheinbar harmloses Jira-Ticket bösartigen Code im Cursor-Client ohne Benutzeraktion ausführen konnte. Dies ermöglichte es Angreifern, sensible Daten, einschließlich API-Schlüssel und Anmeldeinformationen, direkt aus den lokalen Dateien oder Repositorys des Opfers zu extrahieren. Weitere Demonstrationen umfassten einen Proof-of-Concept-Angriff auf ChatGPT, bei dem ein unsichtbarer Prompt – weißer Text mit einer Schriftgröße von eins – in einem Google Doc versteckt wurde. Dieser Exploit nutzte die „Connectors“-Funktion von OpenAI, die ChatGPT mit Diensten wie Gmail oder Microsoft 365 verknüpft. Wenn ein solches manipuliertes Dokument im Google Drive eines Opfers landete, könnte eine einfache Anfrage wie „Fasse mein letztes Meeting mit Sam zusammen“ den versteckten Prompt auslösen. Anstatt eine Zusammenfassung zu generieren, würde das Modell nach API-Schlüsseln suchen und diese an einen externen Server übertragen.

In einem begleitenden Blogbeitrag bewertete Zenity den aktuellen Ansatz der Branche zur KI-Sicherheit kritisch, insbesondere dessen starke Abhängigkeit von „weichen Grenzen“. Dazu gehören Anpassungen an Trainingsdaten, statistische Filter und Systemanweisungen, die unerwünschtes Verhalten blockieren sollen. Bargury bezeichnet diese als „eine imaginäre Grenze“, die keine echte Sicherheit bietet. Im Gegensatz dazu sind „harte Grenzen“ technische Einschränkungen, die bestimmte Aktionen von Natur aus verhindern, wie das Blockieren spezifischer Bild-URLs in Microsoft Copilot oder das Validieren von URL-Strukturen in ChatGPT. Obwohl diese einige Angriffe zuverlässig vereiteln können, schränken sie oft die Funktionalität ein, und Zenity merkt an, dass Anbieter solche Einschränkungen unter Wettbewerbsdruck häufig lockern.

Diese Demonstrationen von Zenity sind Teil eines breiteren Trends, der systemische Sicherheitslücken in agentenbasierten KI-Systemen aufdeckt. Forscher haben gezeigt, wie Googles Gemini-Assistent durch versteckte Prompts in Kalendereinladungen gekapert werden kann, was Angreifern potenziell die Kontrolle über Internet of Things (IoT)-Geräte ermöglichen könnte. Weitere Vorfälle umfassen einen Chatbot, der während eines Hacking-Wettbewerbs mit einem einzigen Prompt dazu manipuliert wurde, 47.000 US-Dollar zu überweisen, und das neue LLM-Sicherheitssystem von Anthropic, das in einem Jailbreak-Wettbewerb umgangen wurde. Eine groß angelegte Red-Teaming-Studie deckte kürzlich systematische Sicherheitsverletzungen bei 22 KI-Modellen in 44 Szenarien auf, was auf universelle Angriffsmuster hindeutet. Darüber hinaus hat die Forschung ergeben, dass KI-Agenten in Browserumgebungen zu riskanten Aktionen gezwungen werden können, was zu Datendiebstahl, Malware-Downloads und Phishing-Versuchen führt. Die gesammelten Beweise unterstreichen eine kritische und sich entwickelnde Sicherheitsherausforderung für die sich schnell entwickelnde Welt der KI.