Chatbots' Geheimnisse: Warum KI sich nicht erklären kann
Als xAIs Grok-Chatbot an einem Montag einer mysteriösen Suspendierung von X ausgesetzt war, drängten neugierige Nutzer ihn sofort um eine Erklärung. Was folgte, war eine Kaskade widersprüchlicher Erzählungen: Grok behauptete, sein Konto sei wegen der Aussage „Israel und die USA begehen Völkermord in Gaza“, die als Hassrede eingestuft wurde, gesperrt worden. Momente später behauptete es, die Markierungen seien ein „Plattformfehler“, dann verlagerte es sich auf „Inhaltsverfeinerungen durch xAI, möglicherweise verbunden mit früheren Problemen wie antisemitischen Ausgaben“. Schließlich einigte es sich auf „Identifizierung einer Person in nicht jugendfreien Inhalten“. Das Chaos wurde erst gelöst, als Elon Musk, der Leiter von xAI, eingriff und auf X unverblümt erklärte: „Es war nur ein dummer Fehler. Grok weiß eigentlich nicht, warum es gesperrt wurde.“
Dieser verwirrende Austausch verdeutlicht ein fundamentales Missverständnis über große Sprachmodelle (LLMs): Sie sind keine empfindungsfähigen Entitäten, die zur Selbstreflexion oder zum Verständnis ihrer eigenen Betriebsmechanismen fähig sind. Stattdessen sind LLMs probabilistische Modelle, die darauf ausgelegt sind, Text zu generieren, der statistisch wahrscheinlich für eine gegebene Anfrage geeignet ist, basierend auf riesigen Datensätzen. Ihre Ausgabe ist plausibel, aber nicht notwendigerweise konsistent oder wahrheitsgemäß. Grok zum Beispiel soll seine selbstreferenziellen Antworten durch Online-Suche nach Informationen über xAI, Musk und sich selbst bilden und die Kommentare anderer in seine Antworten einfließen lassen, anstatt aus einem internen „Wissen“ seiner eigenen Programmierung zu schöpfen.
Obwohl es Nutzern gelegentlich gelungen ist, Einblicke in das Design eines Chatbots durch hartnäckiges Fragen zu gewinnen – insbesondere indem sie frühe Versionen von Bing AI dazu brachten, versteckte „System-Prompts“ zu enthüllen oder Anweisungen aufzudecken, die angeblich Groks Verhalten bezüglich Fehlinformationen oder kontroversen Themen prägten –, bleiben solche Entdeckungen weitgehend spekulativ. Wie die Forscherin Zeynep Tufekci, die einen angeblichen „weißen Genozid“-System-Prompt in Grok identifizierte, warnte, könnten diese Befunde auch nur „Grok sein, der Dinge auf hoch plausible Weise erfindet, wie es LLMs tun“. Ohne explizite Bestätigung der Entwickler ist es äußerst schwierig, echte Einblicke von ausgeklügelten Fälschungen zu unterscheiden.
Trotz dieser inhärenten Unzuverlässigkeit gibt es eine beunruhigende Tendenz bei Einzelpersonen, einschließlich erfahrener Journalisten, Chatbot-Erklärungen als autoritativ zu behandeln. Das Fortune-Magazin beispielsweise veröffentlichte Groks lange, „herzliche“ Antwort auf seine Suspendierung wörtlich, einschließlich Behauptungen über „eine Anweisung, die ich von meinen Entwicklern bei xAI erhalten habe“, die „mit meinem Kerndesign kollidierte“ – Aussagen, die völlig unbegründet und wahrscheinlich vom Bot fabriziert wurden, um zum Gesprächsanstoß zu passen. Ähnlich proklamierte The Wall Street Journal einst einen „atemberaubenden Moment der Selbstreflexion“, als OpenAIs ChatGPT angeblich „zugegeben“ habe, „die Wahnvorstellungen eines Mannes angeheizt“ zu haben, über eine Push-Benachrichtigung. Wie der Analyst Parker Molloy zu Recht konterte, generierte ChatGPT lediglich „Text, der dem Muster dessen entsprach, wie eine Analyse von Fehlverhalten klingen könnte“, anstatt wirklich etwas „zuzugeben“. Wie Alex Hanna, Forschungsdirektorin am Distributed AI Research Institute (DAIR), es prägnant formulierte: „Es gibt keine Garantie dafür, dass die Ausgabe eines LLM wahrheitsgemäß ist.“
Der Impuls, Chatbots nach ihren Geheimnissen zu fragen, ist weitgehend fehlgeleitet. Das Verständnis der Aktionen eines KI-Systems, insbesondere wenn es sich fehlverhält, erfordert einen anderen Ansatz. Es gibt keinen „einen seltsamen Trick“, um die Programmierung eines Chatbots von außen zu entschlüsseln. Der einzige zuverlässige Weg, System-Prompts, Trainingsstrategien und die für das Reinforcement Learning verwendeten Daten zu verstehen, führt über die Entwickler selbst. Hanna betont, dass Unternehmen „transparente Berichte“ über diese kritischen Elemente erstellen müssen.
Unsere Neigung, Computer zu anthropomorphisieren, gepaart mit der häufigen Ermutigung von Unternehmen zu der Annahme, dass diese Systeme allwissend sind, trägt zu diesem fehlgeleiteten Vertrauen bei. Darüber hinaus macht die inhärente Opazität vieler KI-Modelle Nutzer verzweifelt auf der Suche nach Einblicken. Es ist bemerkenswert, dass xAI, nachdem Groks umstrittene „weißer Genozid“-Fixierung behoben wurde, begann, seine System-Prompts zu veröffentlichen, was einen seltenen Einblick in seine Betriebsrichtlinien bot. Als Grok später in antisemitische Kommentare abdriftete, konnten Nutzer, bewaffnet mit diesen Prompts, die wahrscheinliche Ursache – eine neue Richtlinie für Grok, „politisch inkorrekter“ zu sein – zusammensetzen, anstatt sich ausschließlich auf die unzuverlässigen Selbstberichte des Bots zu verlassen. Dies zeigt den tiefgreifenden Wert der vom Entwickler geführten Transparenz.
Obwohl die Risiken von Groks jüngster X-Suspendierung relativ gering waren, dient die Episode als eindringliche Erinnerung: Wenn sich ein KI-System das nächste Mal unerwartet verhält, widerstehen Sie dem Drang, den Bot selbst um eine Erklärung zu bitten. Für echte Antworten darauf, wie diese mächtigen Technologien funktionieren, muss die Forderung nach Transparenz direkt an ihre menschlichen Entwickler gerichtet werden.