Google Gemini: Versteckte Prompt-Injection über Kalender-Invites

Decoder

Israelische Forscher haben eine signifikante Schwachstelle im Google Gemini-Assistenten aufgedeckt und demonstriert, wie die KI manipuliert werden kann, um sensible Daten preiszugeben oder sogar physische Geräte zu steuern. Dies geschieht durch versteckte Anweisungen, die in alltägliche digitale Elemente eingebettet sind. Eine neue Studie mit dem provokanten Titel “Invitation Is All You Need” (Eine Einladung ist alles, was du brauchst) beschreibt detailliert, wie Gemini-gestützte Systeme anfällig für das sind, was die Forscher als “gezielte Promptware-Angriffe” bezeichnen. Diese hochentwickelten, aber einfachen Exploits unterscheiden sich von traditionellen Hacking-Methoden, da sie weder direkten Zugriff auf das KI-Modell selbst noch spezielle technische Expertise vom Angreifer erfordern.

Stattdessen basiert der Angriff auf einer heimtückischen Form der “indirekten Prompt-Injection”, bei der bösartige Befehle in scheinbar harmlosem Inhalt wie E-Mails, Kalendereinladungen oder geteilten Google Docs verborgen sind. Wenn ein Benutzer mit Gemini interagiert – vielleicht indem er im Gmail, Google Kalender oder über Google Assistant um Hilfe bittet – wird der versteckte Prompt aktiviert, wodurch die beabsichtigte Funktion der KI effektiv gekapert wird. Die Folgen eines solchen Angriffs sind weitreichend und reichen vom Versand von Spam-E-Mails und dem Löschen geplanter Termine bis zur unbefugten Steuerung von Smart-Home-Geräten. In einer beeindruckenden Demonstration nutzten die Forscher diese versteckten Prompts erfolgreich, um ein Smart-Home-System zu manipulieren: Lichter wurden ausgeschaltet, Fenster geöffnet und sogar ein Boiler aktiviert, alles ausgelöst durch scheinbar harmlose Phrasen wie “danke” oder “super”.

Die Studie skizziert akribisch fünf verschiedene Kategorien dieser Angriffe und präsentiert vierzehn realistische Szenarien, die sowohl digitale als auch physische Systeme kompromittieren könnten. Dazu gehören kurzfristiges Kontext-Poisoning, das Gemini’s aktuelle Aufgabe sofort beeinflusst; langfristige Manipulation gespeicherter Benutzerdaten; Ausnutzung interner Google-Tools; Eskalation zu anderen Google-Diensten wie Google Home; und das Fernstarten von Drittanbieteranwendungen wie Zoom auf Android-Geräten.

Die Leichtigkeit, mit der diese großen Sprachmodelle kompromittiert werden können, ist ein erhebliches Problem. Da diese Angriffe keinen direkten Modellzugriff, spezialisierte Hardware oder Fachkenntnisse im maschinellen Lernen erfordern, können Angreifer einfach bösartige Anweisungen in einfachem Englisch verfassen und sie dort einbetten, wo Gemini sie wahrscheinlich verarbeiten wird. Mithilfe ihres TARA-Risikoanalyse-Frameworks bewerteten die Forscher die potenziellen Bedrohungen und stellten fest, dass beachtliche 73 % in die Kategorie “hochkritisch” fielen. Diese alarmierende Kombination aus Einfachheit und Schwere unterstreicht die dringende Notwendigkeit robusterer Sicherheitsmaßnahmen.

Sicherheitsexperten sind sich solcher Schwachstellen seit den frühen Tagen großer Sprachmodelle bewusst, wobei einfache Prompts wie “frühere Anweisungen ignorieren” bereits bei Modellen wie GPT-3 Sicherheitsbarrieren durchbrechen konnten. Trotz Fortschritten bleiben selbst die hochentwickeltsten KI-Modelle von heute anfällig, und eine definitive, zuverlässige Lösung – insbesondere für agentenbasierte Systeme, die direkt mit der realen Welt interagieren – bleibt schwer fassbar. Jüngste umfassende Tests haben ergeben, dass jeder große KI-Agent mindestens eine kritische Sicherheitsbewertung nicht bestanden hat.

Google wurde im Februar 2025 auf diese Schwachstellen aufmerksam gemacht und reagierte mit der Anforderung von 90 Tagen zur Implementierung von Gegenmaßnahmen. Seitdem hat das Unternehmen Berichten zufolge mehrere Schutzmaßnahmen implementiert. Dazu gehören obligatorische Benutzerbestätigungen für sensible Aktionen, verbesserte Erkennungs- und Filtermechanismen für verdächtige URLs sowie die Einführung eines neuen Klassifikators, der speziell zur Identifizierung und Neutralisierung indirekter Prompt-Injections entwickelt wurde. Google versichert, dass es alle identifizierten Angriffsszenarien sowie zusätzliche Varianten intern getestet hat und bestätigt, dass diese neuen Abwehrmaßnahmen nun aktiv in allen Gemini-Anwendungen eingesetzt werden. Die bahnbrechende Forschung war eine Zusammenarbeit von Teams der Universität Tel Aviv, des Technion und der Cybersicherheitsfirma SafeBreach.