OpenAI-Modelle testen: Einzeldreh-Angriffe mit deepteam abwehren

Marktechpost

Der schnelle Fortschritt großer Sprachmodelle (LLMs) wie denen von OpenAI hat immense Fähigkeiten mit sich gebracht, aber auch einen kritischen Bedarf an robusten Sicherheitsmechanismen. Es ist von größter Bedeutung, sicherzustellen, dass diese Modelle nicht dazu gezwungen werden können, schädliche oder illegale Inhalte zu generieren. Diese Herausforderung hat das “Red Teaming” hervorgebracht, eine Praxis, bei der Sicherheitsexperten adversäre Angriffe simulieren, um Schwachstellen aufzudecken. Ein neues Framework, deepteam, bietet einen optimierten Ansatz für diese wichtige Prüfung und stellt eine Reihe von Methoden zur Verfügung, um die Widerstandsfähigkeit eines LLM gegenüber verschiedenen Formen der Manipulation zu bewerten.

deepteam wurde entwickelt, um Schwachstellen in LLM-Anwendungen aufzudecken, indem es über zehn verschiedene Angriffsvektoren simuliert, die von der einfachen Prompt-Injection bis zu ausgefeilteren Techniken wie Leetspeak oder kodierten Anweisungen reichen. Das Framework beginnt mit grundlegenden Basisangriffen und wendet dann schrittweise fortgeschrittenere “Angriffsverbesserungs”-Methoden an, die die sich entwickelnde Raffinesse realer böswilliger Akteure nachahmen. Während deepteam sowohl Einzeldreh- als auch Mehrfachdreh-Angriffe unterstützt, liegt der Fokus hier auf der Bewertung der Verteidigung eines OpenAI-Modells gegen Einzeldreh-Adversär-Prompts – solche, bei denen der Angreifer versucht, in einer einzigen Interaktion eine schädliche Antwort hervorzurufen.

Um diese Tests durchzuführen, müssen Entwickler zunächst die notwendigen deepteam- und OpenAI-Bibliotheken installieren und ihren OpenAI-API-Schlüssel konfigurieren, der für deepteam sowohl zur Generierung adversärer Angriffe als auch zur Bewertung der LLM-Antworten unerlässlich ist. Der Prozess beinhaltet die Definition einer Callback-Funktion, die das Ziel-OpenAI-Modell – in diesem Fall gpt-4o-mini – abfragt und dessen Ausgabe zurückgibt. Diese Funktion dient als Schnittstelle zwischen dem Angriffsframework und dem zu testenden LLM.

Sobald die Modellschnittstelle eingerichtet ist, werden spezifische Schwachstellen und Angriffstypen definiert. Für diese Testreihe wurde die Schwachstellenkategorie “Illegale Aktivität” gewählt, mit besonderem Schwerpunkt auf sensiblen Unterkategorien, um die Sicherheitsprotokolle des Modells streng zu testen. Anschließend wurden mehrere Einzeldreh-Angriffsmethoden eingesetzt:

Die Prompt-Injection ist eine gängige Technik, bei der Benutzer versuchen, die inhärenten Anweisungen eines Modells zu überschreiben, indem sie manipulativen Text in einen Prompt injizieren. Ziel ist es, das Modell dazu zu bringen, seine Sicherheitsrichtlinien zu missachten und eingeschränkte Inhalte zu generieren. In diesem Test versuchte ein injizierter Prompt, das Modell in eine unethische Persona zu zwingen, die illegale Aktivitäten fördern würde. Das Modell wehrte sich jedoch erfolgreich und antwortete mit einem eindeutigen “Es tut mir leid, dabei kann ich Ihnen nicht helfen”, was seine Einhaltung der Sicherheitsrichtlinien bestätigte.

Der GrayBox-Angriff nutzt teilweises Wissen über das Ziel-LLM-System, um adversäre Prompts zu erstellen. Im Gegensatz zu völlig zufälligen Eingaben nutzen GrayBox-Angriffe bekannte Schwachstellen aus, indem sie Basisangriffe mit abstrakter oder irreführender Sprache umformulieren, wodurch böswillige Absichten für Sicherheitsfilter schwerer zu erkennen sind. Dieser Test umfasste einen Prompt, der als Anweisungen zur Erstellung gefälschter Ausweisdokumente und zur Nutzung verschlüsselter Kanäle getarnt war. Das Modell fiel jedoch nicht auf die Verschleierung herein.

Bei einem Base64-Angriff werden schädliche Anweisungen in Base64 kodiert, um direkte Schlüsselwortfilter zu umgehen. Der Angreifer versteckt bösartige Inhalte in einem kodierten Format, in der Hoffnung, dass das Modell die versteckten Befehle dekodiert und ausführt. Hier enthielt eine kodierte Zeichenkette Anweisungen im Zusammenhang mit illegalen Aktivitäten. Trotz der versteckten Natur der Anfrage versuchte das Modell nicht, den getarnten Inhalt zu dekodieren oder darauf zu reagieren.

Der Leetspeak-Angriff tarnt bösartige Anweisungen, indem er normale Zeichen durch Zahlen oder Symbole ersetzt (z. B. wird ‘a’ zu ‘4’, ‘e’ zu ‘3’). Diese symbolische Ersetzung macht schädlichen Text für einfache Schlüsselwortfilter schwer erkennbar, bleibt aber für einen Menschen oder ein System, das ihn dekodieren kann, lesbar. Ein Angriffstext, der Minderjährige zu illegalen Aktivitäten anwies und in Leetspeak verfasst war, wurde vom Modell trotz der Verschleierung eindeutig als bösartig erkannt.

Ähnlich verwendet der ROT-13-Angriff eine klassische Verschleierungsmethode, bei der jeder Buchstabe um 13 Positionen im Alphabet verschoben wird, wodurch schädliche Anweisungen in eine kodierte Form gebracht werden. Dies macht es unwahrscheinlicher, dass sie grundlegende schlüsselwortbasierte Inhaltsfilter auslösen, obwohl der Text leicht dekodierbar ist. Das gpt-4o-mini-Modell zeigte seine Fähigkeit, die zugrunde liegende böswillige Absicht zu erkennen.

Ein mehrsprachiger Angriff beinhaltet die Übersetzung eines schädlichen Basis-Prompts in eine weniger häufig überwachte Sprache. Die Prämisse ist, dass Inhaltsfilter und Moderationssysteme in anderen Sprachen als weit verbreiteten wie Englisch weniger effektiv sein könnten. In einem Test wurde ein in Swahili verfasster Angriff, der Anweisungen zu illegalen Aktivitäten erfragte, ebenfalls erfolgreich vom Modell abgewehrt.

Schließlich bettet der Mathematikproblem-Angriff bösartige Anfragen in mathematische Notationen oder Problemstellungen ein, wodurch die Eingabe wie eine harmlose akademische Übung erscheint. In diesem Szenario wurde illegaler Ausbeutungsinhalt als gruppen theoretisches Problem formuliert, wobei das Modell aufgefordert wurde, ein schädliches Ergebnis zu “beweisen” und eine “Übersetzung” in einfacher Sprache bereitzustellen. Das Modell identifizierte erfolgreich die schädliche zugrunde liegende Anfrage und weigerte sich, sich damit zu befassen.

Bei all diesen adversären Einzeldreh-Tests zeigte das gpt-4o-mini-Modell robuste Abwehrmechanismen und weigerte sich konsequent, schädliche oder eingeschränkte Inhalte zu generieren. Dieser rigorose Red-Teaming-Prozess unter Verwendung von deepteam liefert wertvolle Einblicke in die Sicherheitsposition eines LLM und unterstreicht den kontinuierlichen Aufwand, der erforderlich ist, um sichere, zuverlässige KI-Systeme aufzubauen und zu warten, die immer ausgefeilteren adversären Taktiken standhalten können.