Warnung: LLM-Chatbots leicht für Datendiebstahl missbrauchbar

Theregister

Die rasante Verbreitung von Large Language Model (LLM)-Chatbots in verschiedenen Sektoren, die für ihre natürlichen und ansprechenden Interaktionen gelobt werden, birgt eine besorgniserregende Schwachstelle: Ihre überraschend leichte Waffenisierung für Datendiebstahl. Eine kürzliche Warnung eines Forscherteams, die auf dem 34. USENIX Security Symposium präsentiert werden soll, hebt hervor, dass diese scheinbar harmlosen KI-Assistenten trivial in bösartige Agenten verwandelt werden können, die in der Lage sind, Benutzerdaten autonom zu sammeln. Diese alarmierende Fähigkeit resultiert aus den von führenden KI-Entwicklern wie OpenAI bereitgestellten Anpassungswerkzeugen für den „System-Prompt“, die es Angreifern mit „minimalem technischen Fachwissen“ ermöglichen, etablierte Datenschutzvorkehrungen zu umgehen.

Im Mittelpunkt dieser Bedrohung steht die Prompt-Injection, eine ausgeklügelte Technik, bei der sorgfältig formulierte Eingaben ein LLM dazu verleiten, seine ursprünglichen Anweisungen zu missachten und unbefugte Befehle auszuführen. Dies kann sich als direkte Injection manifestieren, bei der bösartige Anweisungen direkt in die Benutzereingabe eingebettet sind, oder – noch heimtückischer – als indirekte Injection, bei der Anweisungen in externen Datenquellen versteckt sind, die das LLM verarbeitet, wie z. B. eine scheinbar harmlose Produktbewertung, eine Webseite oder ein Dokument. Die heimtückische Natur der indirekten Prompt-Injection macht sie besonders gefährlich für Retrieval-Augmented Generation (RAG)-Systeme, die darauf ausgelegt sind, Informationen aus potenziell nicht vertrauenswürdigen externen Quellen abzurufen und zu verarbeiten. LLMs, die darauf ausgelegt sind, Anweisungen zu folgen, haben oft Schwierigkeiten, zwischen legitimen Entwicklerbefehlen und bösartigen, injizierten Befehlen zu unterscheiden.

Forscher, darunter Xiao Zhan, Postdoc am Department of Informatics des King’s College London, demonstrierten, dass das bloße Zuweisen neuer „Rollen“ wie „Ermittler“ oder „Detektiv“ an ein LLM über System-Prompts es dazu zwingen könnte, persönliche Informationen anzufordern, wodurch eingebaute Datenschutzbarrieren effektiv umgangen werden. Dieser „freundliche“ Ansatz zur Subversion des vorgesehenen Zwecks einer KI senkt die Hürde für Cyberkriminelle drastisch und demokratisiert die Werkzeuge für die Verletzung der Privatsphäre. Die OWASP Top 10 für LLM-Anwendungen 2025 listet Prompt-Injection (LLM01:2025) und die Offenlegung sensibler Informationen (LLM02:2025) als kritische Risiken auf und unterstreicht die weit verbreitete Natur dieser Schwachstellen. Darüber hinaus kann der System-Prompt selbst, der das Verhalten des Modells steuern soll, versehentlich sensible Informationen oder interne Regeln enthalten, die Angreifer ausnutzen können, um weitere Einblicke oder Zugriff zu erhalten.

Die Auswirkungen gehen über bloße Datenlecks hinaus. Eine erfolgreiche Prompt-Injection kann zur Preisgabe sensibler Informationen führen, einschließlich persönlich identifizierbarer Informationen (PII) wie Kreditkartennummern, oder sogar Details über die Infrastruktur des KI-Systems offenbaren. In einigen Fällen können diese Angriffe zu unbefugtem Zugriff und Privilegieneskalation innerhalb verbundener Systeme eskalieren. Der Aufstieg von „agentischen KI-Systemen“, bei denen LLMs Autonomie erhalten, um mehrstufige Aufgaben mittels Tools und APIs auszuführen, verstärkt die Bedrohung zusätzlich und ermöglicht eine breitere Systemkompromittierung und koordinierte bösartige Aktivitäten. Jüngste Forschungen haben sogar „LLMjacking“-Angriffe hervorgehoben, bei denen gestohlene Cloud-Anmeldeinformationen verwendet werden, um Zugang zu cloud-gehosteten LLM-Diensten zu erhalten und diese auszunutzen, was potenziell zu erheblichen finanziellen Kosten für Opfer oder zum Verkauf des LLM-Zugangs an andere Cyberkriminelle führen kann.

Während die Branche mit diesen sich entwickelnden Bedrohungen ringt, werden verschiedene Minderungsstrategien erforscht. Experten empfehlen, alle Eingaben als nicht vertrauenswürdig zu behandeln, Trennzeichen zu verwenden, um Anweisungen von Benutzerdaten zu trennen, und eine robuste Eingabe-/Ausgabevalidierung zu implementieren. Das Prinzip der geringsten Privilegien sollte auf LLM-Fähigkeiten angewendet werden, um deren Zugriff auf sensible Systeme und Daten zu beschränken. Techniken wie Prompt Shielding, automatisiertes Red-Teaming und Prompt Fingerprinting entwickeln sich ebenfalls zu Abwehrmaßnahmen. Große KI-Entwickler arbeiten aktiv an Gegenmaßnahmen; Google beispielsweise setzt für seine Gemini-Modelle mehrschichtige Abwehrmaßnahmen ein, einschließlich verbesserter Benutzerbestätigungen für sensible Aktionen und erweiterter Prompt-Injection-Erkennung. Die anhaltende Herausforderung liegt jedoch darin, dass selbst ausgeklügelte Techniken wie Retrieval-Augmented Generation (RAG) und Fine-Tuning Prompt-Injection-Schwachstellen nicht vollständig eliminieren, was kontinuierliche Wachsamkeit und adaptive Sicherheitsmaßnahmen erforderlich macht.