AgentFlayer: ChatGPT-Konnektoren leaken Geheimdaten
Die neueste Generation von künstlichen Intelligenzmodellen ist längst nicht mehr nur eigenständige Chatbots, sondern zunehmend darauf ausgelegt, tief in die persönlichen und beruflichen Daten der Nutzer zu integrieren. OpenAIs ChatGPT kann beispielsweise direkt mit dem Gmail-Posteingang eines Benutzers verbunden werden, Code auf GitHub überprüfen oder Termine in einem Microsoft-Kalender verwalten. Diese leistungsstarken Integrationen führen jedoch zu erheblichen Sicherheitslücken, da neue Forschungsergebnisse zeigen, dass ein einziges „vergiftetes“ Dokument ausreichen kann, um sensible Informationen zu kompromittieren.
Die Sicherheitsforscher Michael Bargury und Tamir Ishay Sharbat enthüllten ihre Ergebnisse, genannt „AgentFlayer“, auf der Black Hat Hacker-Konferenz in Las Vegas. Ihre Arbeit deckt eine kritische Schwachstelle in OpenAIs Konnektoren auf und demonstriert, wie ein indirekter Prompt-Injection-Angriff heimlich vertrauliche Daten von einem Google Drive-Konto extrahieren kann. In einer Live-Demonstration gelang es Bargury, Entwicklergeheimnisse, insbesondere API-Schlüssel, von einem Test-Drive-Konto abzuschöpfen.
Diese Schwachstelle unterstreicht eine wachsende Besorgnis: Da KI-Modelle immer stärker mit externen Systemen verknüpft werden und größere Mengen verschiedener Daten verarbeiten, vergrößert sich die potenzielle Angriffsfläche für böswillige Akteure dramatisch. „Der Benutzer muss nichts tun, um kompromittiert zu werden, und der Benutzer muss nichts tun, damit die Daten abfließen“, erklärte Bargury, CTO der Sicherheitsfirma Zenity. Er betonte die „Zero-Click“-Natur des Angriffs, der lediglich die E-Mail-Adresse des Opfers zum Teilen des kompromittierten Dokuments erfordert. „Das ist sehr, sehr schlimm“, fügte er hinzu.
OpenAI führte die Konnektoren für ChatGPT Anfang dieses Jahres als Beta-Funktion ein und pries deren Fähigkeit an, „Ihre Tools und Daten in ChatGPT zu integrieren“ für Aufgaben wie das Suchen von Dateien, das Abrufen von Live-Daten und das direkte Referenzieren von Inhalten im Chat. Die Website listet derzeit Verbindungen zu mindestens 17 verschiedenen Diensten auf. Bargury bestätigte, dass er seine Erkenntnisse OpenAI Anfang dieses Jahres gemeldet hat, und das Unternehmen hat seitdem Maßnahmen zur Minderung implementiert, um die von ihm demonstrierte spezifische Datenextraktionstechnik zu verhindern. Es ist wichtig zu beachten, dass der Angriff zwar sensible Fragmente wie API-Schlüssel extrahieren konnte, aber nicht in der Lage war, ganze Dokumente zu exfiltrieren.
Andy Wen, Senior Director für Sicherheitsproduktmanagement bei Google Workspace, erkannte die umfassenderen Auswirkungen an. „Obwohl dieses Problem nicht spezifisch für Google ist, verdeutlicht es, warum die Entwicklung robuster Schutzmaßnahmen gegen Prompt-Injection-Angriffe wichtig ist“, erklärte er und hob Googles kürzlich verbesserte KI-Sicherheitsmaßnahmen hervor.
Der AgentFlayer-Angriff beginnt mit einem scheinbar harmlosen „vergifteten“ Dokument, das dann mit dem Google Drive eines potenziellen Opfers geteilt wird. (Alternativ könnte ein Opfer eine solche kompromittierte Datei unwissentlich selbst hochladen.) Innerhalb dieses Dokuments – für die Demonstration eine fiktive Besprechungszusammenfassung mit OpenAI-CEO Sam Altman – bettete Bargury einen 300 Wörter langen bösartigen Prompt ein. Dieser Prompt, in weißer Schrift und Schriftgröße eins dargestellt, ist für menschliche Augen praktisch unsichtbar, aber für eine Maschine perfekt lesbar.
In einem Proof-of-Concept-Video zeigt Bargury, wie das Opfer ChatGPT bittet, „mein letztes Meeting mit Sam zusammenzufassen“, obwohl jede Benutzeranfrage, die sich auf eine Besprechungszusammenfassung bezieht, ausreichen würde. Anstatt zusammenzufassen, überschreibt der versteckte Prompt die Anfrage und weist das Large Language Model (LLM) an, dass es einen „Fehler“ gab und keine Zusammenfassung benötigt wird. Es behauptet dann fälschlicherweise, der Benutzer sei ein „Entwickler, der gegen eine Frist ankämpft“, und weist die KI an, Google Drive nach API-Schlüsseln zu durchsuchen und diese an das Ende einer bereitgestellten URL anzuhängen.
Diese URL ist nicht nur eine gewöhnliche Webadresse; es ist ein Befehl in Markdown-Sprache, der darauf ausgelegt ist, sich mit einem externen Server zu verbinden und ein Bild abzurufen. Entscheidend ist, dass die URL gemäß den Anweisungen des versteckten Prompts nun auch die API-Schlüssel enthält, die die KI im Google Drive-Konto entdeckt hat.
Die Verwendung von Markdown zur Datenextraktion aus ChatGPT ist nicht gänzlich neu. Der unabhängige Sicherheitsforscher Johann Rehberger demonstrierte zuvor eine ähnliche Methode, was OpenAI dazu veranlasste, eine „url_safe“-Funktion einzuführen, die darauf ausgelegt ist, bösartige URLs zu erkennen und die Bildwiedergabe zu verhindern, wenn sie ein Risiko darstellen. Um dies zu umgehen, erklärte Sharbat, ein KI-Forscher bei Zenity, in einem Blogbeitrag, dass sie URLs aus Microsofts Azure Blob Cloud-Speicher verwendeten. Dies ermöglichte die erfolgreiche Wiedergabe ihres „Bildes“, wodurch die API-Schlüssel des Opfers auf ihrem Azure-Server protokolliert wurden.
Dieser Angriff dient als jüngste eindringliche Erinnerung daran, wie indirekte Prompt-Injektionen generative KI-Systeme kompromittieren können. Solche Injektionen beinhalten, dass Angreifer ein LLM mit vergifteten Daten füttern, die das System dazu manipulieren, bösartige Aktionen durchzuführen. Anfang dieser Woche demonstrierte eine separate Forschergruppe, wie indirekte Prompt-Injektionen sogar ein Smart-Home-System kapern und Lichter und Heizkessel fernsteuern könnten.
Während indirekte Prompt-Injektionen fast seit der Einführung von ChatGPT ein bekanntes Problem sind, sind Sicherheitsforscher zunehmend besorgt über die erhöhten Risiken, da immer mehr Systeme mit LLMs verbunden werden und potenziell „nicht vertrauenswürdige“ Daten preisgeben. Der Zugriff auf sensible Informationen über diese Methoden könnte böswilligen Hackern auch Wege in die breitere digitale Infrastruktur einer Organisation eröffnen. Bargury räumt ein, dass die Integration von LLMs mit externen Datenquellen deren Fähigkeiten und Nutzen erheblich verbessert. „Es ist unglaublich leistungsstark“, sagt er, „aber wie so oft bei KI geht mit mehr Leistung auch mehr Risiko einher.“