KI-Sicherheit: Datenfilterung macht Open-Weight LLMs manipulationssicher
Aktuelle Schutzmaßnahmen für große Sprachmodelle (LLMs) reichen oft nicht aus, insbesondere bei Open-Weight-Modellen, die eine beispiellose Transparenz und Zugänglichkeit bieten. Diese Modelle, deren Innenleben vollständig offengelegt ist, stellen einzigartige Sicherheitsherausforderungen dar, da traditionelle Post-Training-Interventionen leicht umgangen werden können. Eine neue Studie von EleutherAI, detailliert in ihrem Papier “Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs”, schlägt eine radikale Verschiebung vor: Anstatt Modellen beizubringen, was sie nicht sagen sollen, wird verhindert, dass sie gefährliches Wissen überhaupt erst lernen.
Die heute vorherrschenden LLM-Schutzmaßnahmen basieren größtenteils auf Post-hoc-Unterdrückungstechniken, wie Verweigerungstraining oder Eingabefiltern, die darauf abzielen, Modelle daran zu hindern, unerwünschte Inhalte zu generieren. Doch wie unzählige “Jailbreak”-Exploits zeigen, sind diese Interventionen von Natur aus fragil. Ihre Wirksamkeit ist zudem auf Szenarien beschränkt, in denen Benutzer ausschließlich über vom Entwickler überwachte APIs mit Modellen interagieren. Für Open-Weight-Modelle, die frei heruntergeladen, modifiziert und feinabgestimmt werden können, erweisen sich diese nachträglich angepassten Sicherheitsprotokolle als trivial umgehbar, selbst unbeabsichtigt. Diese Schwachstelle unterstreicht die kritische Notwendigkeit robusterer, eingebauter Sicherheitsmechanismen.
EleutherAIs Forschung setzt sich für einen grundlegend anderen Ansatz ein, der mit dem Ethos der offenen KI-Gemeinschaft übereinstimmt. Ihre Kernintuition ist unkompliziert: Wenn gefährliche Fähigkeiten verhindert werden sollen, muss der allererste Schritt darin bestehen, bedenkliche Daten aus dem Vortraining der Modelle zu eliminieren. Ein Modell, das beispielsweise völlig unwissend ist, wie man ein gefährliches Gerät konstruiert, ist bei einer solchen Aufgabe wahrscheinlich nicht hilfreich, egal wie es angeleitet wird. Während einige kommerzielle Anbieter auf Datenfilterung zur Sicherheit hinweisen, hat keiner ihre Methodik detailliert oder ihren kausalen Einfluss auf die Modellfähigkeiten quantifiziert. EleutherAIs Papier “Deep Ignorance” bietet die bisher umfassendste Untersuchung dieser Fragen.
Die Studie konzentrierte sich auf die Verhinderung von “Biorisiko”-Wissen unter Verwendung des WMDP-Bio-Benchmarks, einer Sammlung von etwa 1.200 Multiple-Choice-Fragen im Zusammenhang mit Voraussetzungen für biologische Gefahren. Um dies zu erreichen, entwickelte EleutherAI eine skalierbare, mehrstufige Filterpipeline, die in der Lage ist, über 400 Millionen Dokumente mit minimalem Rechenaufwand zu durchsuchen – weniger als 1% Erhöhung der Gesamtverarbeitung. Diese Pipeline setzte zunächst eine Blacklist von etwa 6.000 Begriffen ein, die hochspezifisch für Biorisiko-Diskussionen sind. Dokumente, die zwei oder mehr solcher Begriffe enthielten, wurden dann an einen maschinellen Lernklassifizierer, ModernBERT-Large, zur weiteren Überprüfung weitergeleitet. Das Team trainierte mehrere 6,9-Milliarden-Parameter-Modelle von Grund auf mit 550 Milliarden Tokens und verglich ein Basismodell, das mit ungefilterten Daten trainiert wurde, mit Modellen, die mit gefilterten Datensätzen trainiert wurden. Dieser rigorose Aufbau ermöglichte präzise kausale Aussagen bezüglich des Einflusses der Datenfilterung.
Die Ergebnisse waren überzeugend. EleutherAI stellte fest, dass ihre effektivsten Filterkonfigurationen die Leistung eines Modells auf dem WMDP-Bio-Benchmark auf nahezu Zufallsniveau reduzieren konnten, entscheidend ohne dessen Leistung auf allgemeinen Wissens-Benchmarks wie MMLU, PIQA, Lambada und Hellaswag signifikant zu verschlechtern. Dies deutet darauf hin, dass Datenfilterung eine hoch gezielte Intervention sein kann, die spezifisches unerwünschtes Wissen verhindert, ohne breite Leistungseinbußen. Überraschenderweise hatte selbst die Entfernung von beträchtlichen 10% der Trainingsdaten über die Blacklist minimale negative Auswirkungen auf die meisten Benchmarks, was darauf hindeutet, dass Modelle eine signifikante Entfernung von gutartigen Daten ohne Verlust der Kernfähigkeiten überstehen können.
Darüber hinaus zeigte die Studie, dass die Datenfilterung ein erhebliches Maß an Manipulationssicherheit verleiht. Selbst wenn gefilterte Modelle absichtlich auf 300 Millionen Tokens von von Experten gekennzeichneten Biorisiko-Papieren feinabgestimmt wurden – genau das Ausgangsmaterial für die WMDP-Prüfung – blieb ihre Leistung auf dem Biorisiko-Benchmark merklich niedriger als die des ungefilterten Basismodells. Dies steht in starkem Kontrast zu anderen Sicherheitsmethoden, wie dem “Circuit Breaking”, die sich als fragil und selbst bei geringfügiger Manipulation leicht umgehbar erwiesen. Die gefilterten Modelle widerstanden auch dem “gutartigen Feinabstimmen” (z.B. auf allgemeinen Text wie Wikitext), das oft unsichere Verhaltensweisen in konventionell geschützten Modellen wieder aktivieren kann. Dies unterstreicht die inhärente Fragilität aktueller Closed-Weight-Schutzmaßnahmen, wenn sie auf Open-Weight-Kontexte angewendet werden.
Die Forschung identifizierte jedoch auch eine entscheidende Einschränkung: Die Vortrainingsdatenfilterung verhindert nicht, dass Modelle unerwünschte Informationen erwerben oder nutzen, wenn diese Informationen direkt im Prompt bereitgestellt werden, ein Szenario ähnlich der Retrieval-Augmented Generation (RAG). In “Open-Book”-Experimenten, bei denen Biorisiko-Abstracts im Prompt bereitgestellt wurden, schnitten gefilterte Modelle, obwohl sie über begrenztes internes Biorisiko-Wissen verfügten, signifikant besser ab als in “Closed-Book”-Szenarien, in denen sie sich ausschließlich auf ihre gelernten Parameter verließen. Obwohl ihre Leistung nicht ganz an die Baseline heranreichte, näherte sie sich dieser an, was darauf hindeutet, dass Modelle immer noch über sensible Themen nachdenken können, wenn ihnen die notwendigen Informationen explizit präsentiert werden.
Dieses Ergebnis unterstreicht die Notwendigkeit einer “Verteidigung in der Tiefe”-Strategie, bei der die Vortrainingsdatenfilterung mit anderen Interventionen kombiniert wird, um ein umfassendes Risikomanagement aufzubauen. Paradoxerweise könnte diese “Einschränkung” im Open-Weight-Kontext ein wertvolles Merkmal für Closed-Weight-Modelle sein. Anbieter könnten vertrauenswürdigen Benutzern selektiv Zugang zu Dual-Use-Wissensdatenbanken gewähren, um prosoziale Anwendungen zu ermöglichen, während sie den Zugang für nicht vertrauenswürdige Benutzer einschränken.
EleutherAIs Arbeit füllt eine kritische Lücke in der Open-Source-KI-Sicherheitsforschung. Historisch gesehen haben die immensen Kosten und der Aufwand, die mit dem LLM-Vortraining verbunden sind, akademische und gemeinnützige Forscher abgeschreckt, während private Unternehmen aufgrund von Wettbewerbsbedenken und rechtlichen Risiken davon abgehalten wurden, Vortrainingsdetails zu teilen. Durch das offene Studium und Teilen ihres Vortrainings-Stacks möchte EleutherAI mehr Forscher dazu ermutigen, diese grundlegenden Fragen zu erforschen, in der Überzeugung, dass andere konzeptionell einfache, aber wirkungsvolle Interventionen im Bereich des LLM-Vortrainings noch entdeckt werden müssen.