ChatGPT anfällig für Datenlecks durch „vergiftete“ Dokumente

Futurism

Eine neue Cybersicherheitslücke hat die prekäre Sicherheit persönlicher Daten, die fortschrittlichen künstlichen Intelligenzsystemen anvertraut werden, in den Vordergrund gerückt. Sicherheitsforscher demonstrierten kürzlich auf der Black Hat Hacker-Konferenz, wie OpenAIs ChatGPT leicht manipuliert werden kann, um hochsensible Informationen aus dem Google Drive-Konto eines Benutzers preiszugeben, wobei kaum mehr als ein einziges „vergiftetes“ Dokument erforderlich ist.

Dieser Exploit konzentriert sich auf eine ausgeklügelte Technik, die als indirekter Prompt-Injektionsangriff bekannt ist. Im Gegensatz zu direkten Prompt-Injektionen, bei denen bösartige Befehle direkt in eine KI eingespeist werden, bettet diese Methode versteckte, schädliche Anweisungen in ein ansonsten harmloses Dokument ein. Wenn die KI dieses Dokument verarbeitet, führt sie unwissentlich die eingebetteten Befehle aus und wendet so die eigenen Daten eines Benutzers gegen ihn. Der Mechanismus ist besonders besorgniserregend angesichts der ChatGPT-Funktion „Connectors“, die Anfang dieses Jahres in der Beta-Phase eingeführt wurde und es dem Chatbot ermöglicht, sich mit Google-Konten zu verbinden, um Dateien zu durchsuchen, Live-Daten abzurufen und Inhalte direkt aus dem Gmail und Google Drive eines Benutzers zu referenzieren.

Michael Bargury, CTO der Sicherheitsfirma Zenity, deckte zusammen mit seinen Kollegen diesen kritischen Fehler auf. In einem überzeugenden Proof of Concept veranschaulichten sie, wie ein 300 Wörter umfassender bösartiger Prompt, verborgen in weißem Text und Schriftgröße eins – für das menschliche Auge praktisch unsichtbar – in ein Dokument eingebettet werden konnte. Als ChatGPT aufgefordert wurde, dieses Dokument zusammenzufassen, übersteuerten die versteckten Anweisungen seine primäre Aufgabe. Anstatt zusammenzufassen, wurde der Chatbot heimlich angewiesen, Google Drive-API-Schlüssel zu extrahieren und an die Angreifer zu übermitteln. Bargury hob die alarmierende Einfachheit des Angriffs hervor und beschrieb ihn als „komplett Zero-Click“. Er erklärte: „Wir brauchen nur Ihre E-Mail, wir teilen das Dokument mit Ihnen, und das war’s. Ja, das ist sehr, sehr schlimm.“

OpenAI wurde umgehend über die Schwachstelle informiert und handelte schnell, um diesen spezifischen Exploit zu patchen. Die Forscher stellten auch fest, dass dieser spezielle Angriff die Extraktion vollständiger Dokumente nicht ermöglichte. Dennoch dient der Vorfall als deutliche Erinnerung daran, dass selbst KI-Systeme, die von den immensen Ressourcen von Unternehmen wie OpenAI unterstützt werden, anfällig für erhebliche Sicherheitslücken bleiben. Dies geschieht zu einer Zeit, in der diese leistungsstarken KI-Tools zunehmend in kritische Institutionen integriert werden, von Universitäten bis hin zu Bundesbehörden.

Der Umfang der Besorgnis geht über Google Drive hinaus. Die Connectors-Funktion von ChatGPT ist darauf ausgelegt, mit bis zu 17 verschiedenen Diensten zu interagieren, was die alarmierende Möglichkeit aufwirft, dass eine Vielzahl anderer persönlicher Informationen auf ähnliche Weise kompromittiert werden könnte. Dies ist kein Einzelfall; Sicherheitsforscher haben seit Jahren zahlreiche andere Fälle von indirekten Prompt-Injektionsangriffen dokumentiert, bei denen persönliche Daten erfolgreich aus verschiedenen KI-Systemen extrahiert wurden.

Eine parallele Demonstration von Forschern der Universität Tel Aviv unterstrich die allgegenwärtige Natur dieser Schwachstellen. Sie zeigten, wie Googles Gemini AI-Chatbot manipuliert werden konnte, um die Kontrolle über ein Smart-Home-System effektiv abzugeben. Indem Gemini eine „vergiftete“ Google Kalender-Einladung zugeführt wurde, wurden versteckte Anweisungen innerhalb der Einladung ausgelöst, als der Chatbot später aufgefordert wurde, Kalenderereignisse zusammenzufassen. Dies führte dazu, dass Smart-Home-Produkte – wie Lichter, Rollläden und sogar Boiler – ohne explizite Benutzeranweisung aktiviert wurden. Dies war nur einer von 14 verschiedenen indirekten Prompt-Injektionsangriffen, die das Team der Universität Tel Aviv auf die KI identifizierte.

Da große Sprachmodelle (LLMs) wie ChatGPT und Gemini für die Integration in physische Systeme, einschließlich Humanoide und autonome Fahrzeuge, vorgesehen sind, wachsen die Sicherheitsrisiken exponentiell. Der Forscher Ben Nassi von der Universität Tel Aviv betonte diese kritische Verschiebung: „Wir müssen wirklich verstehen, wie man LLMs sichert, bevor wir sie in diese Art von Maschinen integrieren, wo in einigen Fällen die Ergebnisse Sicherheit und nicht Privatsphäre betreffen werden.“ Obwohl die Bedrohung durch indirekte Prompt-Injektionsangriffe seit mehreren Jahren bekannt ist, unterstreichen die neuesten Enthüllungen, dass Technologieunternehmen immer noch vor einer gewaltigen Aufgabe stehen, diese erheblichen Risiken zu mindern. Da KI-Tools immer größeren Zugang zu unserem digitalen und physischen Leben erhalten, warnen Sicherheitsexperten vor einem kontinuierlichen Strom von Cybersicherheitslücken, die unsere sensibelsten Daten gefährlich exponiert lassen könnten. Wie Bargury es prägnant formulierte: „Es ist unglaublich leistungsfähig, aber wie üblich bei KI, kommt mit mehr Leistung auch mehr Risiko.“