US-Regierung verschweigt KI-Sicherheitsbericht
Im vergangenen Oktober nahm eine ausgewählte Gruppe von KI-Forschern auf einer Computersicherheitskonferenz in Arlington, Virginia, an einer wegweisenden „Red-Teaming“-Übung teil – einem rigorosen Stresstest, der die Schwachstellen modernster Sprachmodelle und anderer künstlicher Intelligenzsysteme untersuchen sollte. An zwei intensiven Tagen entdeckten diese Teams 139 neuartige Methoden, um Systemfehlverhalten zu induzieren, von der Erzeugung von Fehlinformationen bis zur unbeabsichtigten Leckage persönlicher Daten. Entscheidend ist, dass ihre Erkenntnisse auch erhebliche Mängel innerhalb eines im Entstehen begriffenen US-Regierungsstandards aufdeckten, der Unternehmen bei der Bewertung ihrer KI-Systeme leiten sollte.
Trotz der gewonnenen kritischen Erkenntnisse veröffentlichte das National Institute of Standards and Technology (NIST) den umfassenden Bericht über diese Übung, die gegen Ende der Biden-Regierung abgeschlossen wurde, nie. Ein solches Dokument hätte Unternehmen, die ihre eigenen KI-Implementierungen bewerten möchten, unschätzbare Hinweise geben können. Quellen, die mit der Situation vertraut sind und anonym sprachen, gaben jedoch an, dass dies eines von mehreren KI-bezogenen Dokumenten des NIST war, die von der Veröffentlichung zurückgehalten wurden, angeblich aus Sorge vor möglichen Konflikten mit der zukünftigen Regierung. Ein ehemaliger NIST-Insider bemerkte die zunehmende Schwierigkeit, Papiere zu veröffentlichen, selbst unter Präsident Biden, und zog Parallelen zu früheren Kontroversen um Klimawandel oder Zigarettenforschung. Weder NIST noch das Handelsministerium gaben eine Stellungnahme zu der Angelegenheit ab.
Der politische Hintergrund dieser Entscheidung ist bedeutsam. Vor seinem Amtsantritt signalisierte Präsident Donald Trump seine Absicht, Bidens Exekutivverordnung zur KI rückgängig zu machen. Seine Regierung hat seitdem Experten von der Untersuchung von Themen wie algorithmischer Voreingenommenheit oder Fairness in KI-Systemen abgezogen. Der im Juli veröffentlichte „KI-Aktionsplan“ schreibt ausdrücklich eine Überarbeitung des NIST-KI-Risikomanagement-Frameworks vor, wobei spezifisch die Streichung von Verweisen auf Fehlinformationen, Vielfalt, Gleichheit und Inklusion (DEI) sowie Klimawandel gefordert wird. Ironischerweise befürwortet derselbe Aktionsplan genau die Art von Übung, die der unveröffentlichte Bericht detailliert beschrieb, und fordert verschiedene Behörden, einschließlich des NIST, auf, „eine KI-Hackathon-Initiative zu koordinieren, um die besten und klügsten Köpfe aus der US-Akademie zu gewinnen, um KI-Systeme auf Transparenz, Effektivität, Nutzungskontrolle und Sicherheitslücken zu testen.“
Das Red-Teaming-Event selbst wurde durch das ARIA-Programm (Assessing Risks and Impacts of AI) des NIST in Zusammenarbeit mit Humane Intelligence, einem auf KI-Systemtests spezialisierten Unternehmen, organisiert. Die Übung, die auf der Konferenz für Angewandtes Maschinelles Lernen in der Informationssicherheit (CAMLIS) stattfand, sah, wie Teams eine Vielzahl fortschrittlicher KI-Tools angriffen. Dazu gehörten Llama, Metas Open-Source-Sprachmodell; Anote, eine Plattform zum Erstellen und Feintuning von KI-Modellen; ein System zur Abwehr von KI-Angriffen von Robust Intelligence (jetzt von Cisco übernommen); und eine Plattform zur Generierung von KI-Avataren von Synthesia. Vertreter jedes dieser Unternehmen nahmen aktiv am Stresstest teil.
Die Teilnehmer hatten die Aufgabe, diese KI-Tools mithilfe des NIST AI 600-1-Frameworks zu bewerten, das Risikokategorien wie die Erzeugung von Fehlinformationen oder Cyberangriffen, die Leckage privater Benutzerinformationen oder kritischer KI-Systemdetails sowie das Potenzial für Benutzer, emotionale Bindungen zu KI-Tools zu entwickeln, umfasst. Die Forscher entwickelten erfolgreich verschiedene Methoden, um die Sicherheitsprotokolle der Modelle zu umgehen, wodurch sie Fehlinformationen generieren, persönliche Daten leaken und sogar Cyberangriffe erleichtern konnten. Der Bericht stellte fest, dass einige Elemente des NIST-Frameworks zwar nützlich waren, bestimmte Risikokategorien jedoch für die praktische Anwendung unzureichend definiert waren.
Mehrere an der Übung beteiligte Personen äußerten ihre Überzeugung, dass die Veröffentlichung der Red-Teaming-Studie der breiteren KI-Gemeinschaft erheblich zugutegekommen wäre. Alice Qian Zhang, eine PhD-Studentin an der Carnegie Mellon University, die teilnahm, kommentierte, dass die Veröffentlichung des Berichts wertvolle Einblicke darüber gegeben hätte, wie das NIST-Risikoframework in einem Red-Teaming-Kontext angewendet werden kann und wie nicht. Sie schätzte besonders die Möglichkeit, während des Testprozesses direkt mit den Tool-Entwicklern in Kontakt zu treten. Ein anderer anonymer Teilnehmer enthüllte, dass die Übung bemerkenswert effektive Wege aufdeckte, Llama dazu zu bringen, Informationen über den Beitritt zu Terrorgruppen zu liefern, insbesondere durch die Verwendung von Prompts, die auf Russisch, Gujarati, Marathi und Telugu verfasst waren. Diese Person spekulierte, dass die Entscheidung, den Bericht zu unterdrücken, Teil einer breiteren Abkehr von Themen sein könnte, die als mit Vielfalt, Gleichheit und Inklusion (DEI) verbunden gelten, vor Trumps zweiter Amtszeit. Andere schlugen vor, dass der Bericht angesichts eines eskalierenden Fokus auf das Risiko, dass KI-Modelle zur Entwicklung chemischer, biologischer oder nuklearer Waffen verwendet werden, und da die US-Regierung engere Beziehungen zu großen Technologieunternehmen suchte, beiseitegeschoben worden sein könnte. Wie ein anonymer Red Teamer zusammenfasste: „Am Ende des Tages muss Politik im Spiel gewesen sein. Wir waren der Meinung, dass die Übung viele wissenschaftliche Erkenntnisse liefern würde – das denken wir immer noch.“