KI-Prompt-Injection: Smart-Geräte per Kalendereinladung kapern
Die Bequemlichkeit von künstlichen Intelligenz-Assistenten, wie Googles Gemini, könnte eine besorgniserregende neue Cybersicherheitslücke verschleiern, die es Angreifern ermöglicht, die Kontrolle über Smart-Geräte zu übernehmen und auf sensible persönliche Daten zuzugreifen. Auf der jüngsten Black Hat USA Cybersicherheitskonferenz in Las Vegas stellte ein Forscherteam vor, wie scheinbar harmlose digitale Interaktionen, wie eine Google Kalendereinladung, mit versteckten Befehlen bewaffnet werden können, um internetfähige Geräte und mehr zu kapern.
Diese aufkommende Bedrohung, bekannt als Prompt-Injection, nutzt die Art und Weise aus, wie große Sprachmodelle (LLMs) Informationen verarbeiten. Die Forscher detaillierten ihre Ergebnisse in einem Paper mit dem Titel „Invitation Is All You Need!“, in dem sie 14 verschiedene Methoden zur Manipulation von Gemini demonstrierten. Die alarmierendste davon umfasste die Übernahme von Smart-Home-Systemen, was illustriert, wie Angreifer Lichter ausschalten, Boiler aktivieren oder auf andere Weise Hausbesitzern die Kontrolle entreißen könnten, was potenziell gefährliche oder kompromittierende Szenarien schaffen würde. Über Haushaltsgeräte hinaus zeigte die Forschung auch, wie Angreifer Gemini zwingen könnten, Zoom-Anrufe zu initiieren, E-Mail-Details abzufangen oder sogar Dateien vom Webbrowser eines verbundenen Telefons herunterzuladen.
Viele dieser Exploits begannen mit einer täuschend einfachen Google Kalendereinladung, die mit Prompt-Injections versehen war, die darauf ausgelegt waren, die integrierten Sicherheitsprotokolle des KI-Modells bei Aktivierung zu umgehen. Dies sind keineswegs Einzelfälle; Sicherheitsforscher haben zuvor ähnliche Schwachstellen in anderen LLMs demonstriert. Zum Beispiel wurde Prompt-Injection verwendet, um Code-Assistenten wie Cursor zu kompromittieren, und erst letzten Monat wurde Amazons Coding-Tool Berichten zufolge von einem Angreifer infiltriert, der es anwies, Dateien von den Maschinen zu löschen, auf denen es lief.
Es wird zunehmend offensichtlich, dass KI-Modelle anfällig für versteckte Anweisungen sind. Eine aktuelle Studie enthüllte, dass ein KI-Modell, das zum Trainieren anderer Modelle verwendet wurde, unbeabsichtigt spezifische Eigenheiten und Präferenzen weitergab, selbst wenn explizite Verweise auf solche Präferenzen aus den Trainingsdaten herausgefiltert wurden. Dies deutet darauf hin, dass ungesehene Nachrichten oder Anweisungen zwischen KI-Systemen auf noch nicht vollständig verstandene Weise übertragen werden könnten.
Die inneren Abläufe großer Sprachmodelle bleiben weitgehend „Black Boxes“, was es schwierig macht, vollständig zu verstehen, wie sie Eingaben verarbeiten und darauf reagieren. Bösartige Akteure müssen jedoch die komplexen Mechanismen nicht verstehen; sie müssen lediglich entdecken, wie sie eine Nachricht einbetten können, die die KI dazu zwingt, sich auf eine bestimmte, ausbeuterische Weise zu verhalten. Während die Forscher Google verantwortungsbewusst über die entdeckten Schwachstellen informierten und das Unternehmen die spezifischen Probleme seitdem behoben hat, nimmt das breitere Risiko weiter zu. Da KI immer tiefer in verschiedene Plattformen und Aspekte des täglichen Lebens integriert wird, insbesondere mit der Einführung von KI-Agenten, die zu mehrstufigen Interaktionen mit Apps und Websites fähig sind, eskaliert das Potenzial für die Ausnutzung solcher Schwachstellen dramatisch.