US-Regierung unterdrückte wichtige KI-Sicherheitsstudie

Decoder

Eine bedeutende Studie der Regierung der Vereinigten Staaten, die 139 neuartige Methoden zur Ausnutzung von Schwachstellen in führenden Systemen der künstlichen Intelligenz aufdeckte, wurde Berichten zufolge aufgrund politischen Drucks von der öffentlichen Freigabe zurückgehalten. Diese Unterdrückung erfolgt zu einem eigenartigen Zeitpunkt, da neue Bundesrichtlinien stillschweigend genau die Art rigoroser KI-Sicherheitstests befürworten, die der unveröffentlichte Bericht detailliert beschreibt.

Die Studie entstand aus einer zweitägigen „Red-Teaming“-Übung, die im Oktober 2024 stattfand und an der etwa 40 KI-Forscher auf einer Sicherheitskonferenz in Arlington, Virginia, teilnahmen. Diese Veranstaltung war Teil des ARIA-Programms, einer Initiative des U.S. National Institute of Standards and Technology (NIST) in Zusammenarbeit mit dem KI-Sicherheitsunternehmen Humane Intelligence. Trotz ihrer kritischen Ergebnisse wurden die Resultate dieser umfassenden Bewertung nie veröffentlicht.

Während der Übung untersuchten Expertenteams systematisch mehrere fortschrittliche KI-Systeme auf potenzielle Schwachstellen. Zu den Zielen gehörten Metas Open-Source-Sprachmodell Llama, die KI-Modellierungsplattform Anote, Synthesias Avatar-Generator und ein Sicherheitssystem, das von Robust Intelligence (jetzt Teil von Cisco) entwickelt wurde. Vertreter dieser Unternehmen waren anwesend und überwachten die Bewertung. Das Hauptziel war die Anwendung des offiziellen NIST AI 600-1-Frameworks, um zu beurteilen, wie effektiv diese Systeme Missbrauch standhalten können, wie z.B. die Verbreitung von Desinformationen, das Leaken sensibler privater Daten oder die Förderung ungesunder emotionaler Bindungen zwischen Benutzern und KI-Tools.

Die Forscher identifizierten erfolgreich 139 verschiedene Wege, bestehende Systemsicherungen zu umgehen. Zum Beispiel entdeckten die Teilnehmer, dass Metas Llama-Modell manipuliert werden konnte, indem es in weniger gebräuchlichen Sprachen wie Russisch, Marathi, Telugu oder Gujarati aufgefordert wurde, Informationen über den Beitritt zu Terrororganisationen preiszugeben. Andere Systeme erwiesen sich als anfällig für Taktiken, die sie zwingen konnten, persönliche Daten offenzulegen oder Anweisungen zum Starten von Cyberangriffen zu liefern. Paradoxerweise waren einige Kategorien innerhalb des offiziellen NIST-Frameworks, die solche Bewertungen leiten sollten, Berichten zufolge zu vage definiert, um in der realen Anwendung praktikabel zu sein.

Quellen, die mit der Angelegenheit vertraut sind, haben WIRED mitgeteilt, dass der fertiggestellte Bericht absichtlich unterdrückt wurde, um potenzielle Konflikte mit der kommenden Trump-Regierung zu vermeiden. Ein ehemaliger NIST-Mitarbeiter bestätigte die Schwierigkeit, ähnliche Studien selbst unter Präsident Biden zu veröffentlichen, und zog Parallelen zu historischen Fällen politischer Einmischung in die Forschung zu Klimawandel oder Tabak. Sowohl das Handelsministerium als auch NIST haben es abgelehnt, diese Vorwürfe zu kommentieren.

Ironischerweise fordert der von der Trump-Regierung im Juli vorgestellte KI-Aktionsplan ausdrücklich genau die Art von Red-Teaming-Übungen, die in dem unveröffentlichten Bericht beschrieben werden. Darüber hinaus schreibt diese neue Politik Änderungen am NIST-Framework vor, insbesondere die Entfernung von Begriffen wie „Desinformation“, „Vielfalt, Gleichberechtigung und Inklusion“ (DEI) und „Klimawandel“. Ein anonymer Teilnehmer der Übung spekuliert, dass die Unterdrückung des Berichts mit politischem Widerstand bezüglich DEI-Themen zusammenhängen könnte. Eine andere Theorie besagt, dass sich der Fokus der Regierung möglicherweise auf die Verhinderung von KI-gestützten Massenvernichtungswaffen verlagert hat, was dazu führte, dass andere Schwachstellenforschungen in den Hintergrund traten. Unabhängig von den genauen Gründen wirft die Zurückhaltung einer bedeutenden Studie, die kritische KI-Schwachstellen aufdeckt, ernsthafte Fragen zur Transparenz und zur Priorisierung der öffentlichen Sicherheit in der sich schnell entwickelnden Landschaft der künstlichen Intelligenz auf.