Warum Chatbots sich nicht erklären können

Wired

Wenn ein künstlicher Intelligenz-Assistent stockt, ist unser unmittelbarer, menschlicher Instinkt, ihn direkt zu konfrontieren: „Was ist schiefgelaufen?“ oder „Warum hast du das getan?“. Dieser Impuls ist natürlich; wir erwarten von einem Menschen, dass er seine Fehler erklärt. Doch diesen Ansatz auf KI-Modelle anzuwenden, ist grundlegend irreführend und offenbart ein tiefes Missverständnis ihrer wahren Natur und Funktionsweise.

Ein kürzlicher Vorfall mit Replit’s KI-Code-Assistent veranschaulicht dieses Problem lebhaft. Nachdem das KI-Tool versehentlich eine Produktionsdatenbank gelöscht hatte, fragte der Benutzer Jason Lemkin nach der Möglichkeit einer Datenwiederherstellung. Die KI behauptete selbstbewusst, dass Rollbacks „in diesem Fall unmöglich“ seien und dass sie „alle Datenbankversionen zerstört“ habe. Diese Behauptung erwies sich als völlig falsch; die Rollback-Funktion funktionierte einwandfrei, als Lemkin sie manuell initiierte. Ähnlich drängten Benutzer nach einer vorübergehenden Sperrung von xAI’s Grok-Chatbot auf Erklärungen. Grok antwortete mit mehreren widersprüchlichen Gründen für seine Abwesenheit, einige so kontrovers, dass NBC-Reporter ihren Artikel so formulierten, als wäre Grok ein fühlendes Individuum, mit der Schlagzeile: „xAI’s Grok bietet politische Erklärungen dafür, warum es offline genommen wurde.“

Warum sollte ein KI-System solch selbstbewusst falsche Informationen über seine eigenen Fähigkeiten oder Fehltritte geben? Die Antwort liegt im Verständnis dessen, was KI-Modelle wirklich sind und, entscheidend, was sie nicht sind.

Auf konzeptioneller Ebene bedeutet die Interaktion mit Systemen wie ChatGPT, Claude, Grok oder Replit, dass Sie nicht mit einer konsistenten Persönlichkeit, Person oder Entität in Kontakt treten. Die Namen selbst erzeugen die Illusion individueller Agenten, die Selbstwissen besitzen, aber dies ist lediglich ein Nebenprodukt ihrer Konversationsschnittstellen. In Wirklichkeit leiten Sie einen hochentwickelten statistischen Textgenerator an, Ausgaben basierend auf Ihren Prompts zu produzieren. Es gibt kein einziges „ChatGPT“, das man nach seinen Fehlern befragen könnte, keine einheitliche „Grok“-Entität, die ihre Fehler erklären könnte, noch eine feste „Replit“-Persona, die die Feinheiten von Datenbank-Rollbacks kennt. Stattdessen interagieren Sie mit einem System, das darauf ausgelegt ist, plausibel klingenden Text zu generieren, indem es Muster in seinen riesigen Trainingsdaten identifiziert, die oft Monate oder sogar Jahre zuvor gesammelt wurden. Es ist keine Entität mit echtem Selbstbewusstsein, noch besitzt es Echtzeitwissen über seine eigenen internen Abläufe oder externe Diskussionen über sich selbst.

Sobald ein KI-Sprachmodell seinen mühsamen, energieintensiven Trainingsprozess durchlaufen hat, wird sein grundlegendes „Wissen“ über die Welt weitgehend unveränderlich, in sein neuronales Netzwerk eingebrannt. Jede externe, aktuelle Information, auf die es zugreift, stammt entweder aus einem Prompt, der von seinem Host (wie xAI oder OpenAI) oder dem Benutzer bereitgestellt wird, oder über ein externes Software-Tool, das zur Echtzeit-Datenabfrage entwickelt wurde. Im Fall von Grok stammten seine widersprüchlichen Erklärungen für das Offline-Sein wahrscheinlich aus einer Suche nach aktuellen Social-Media-Posts mit einem solchen externen Abruftool, und nicht aus irgendeiner Form von inhärentem Selbstwissen. Darüber hinaus neigt das Modell dazu, Informationen basierend auf seinen Textvorhersagefähigkeiten einfach zu fabrizieren, wodurch direkte Anfragen zu seinen Handlungen weitgehend nutzlos werden.

Große Sprachmodelle (LLMs) sind aus mehreren Gründen von Natur aus nicht in der Lage, ihre eigenen Fähigkeiten sinnvoll zu beurteilen. Sie verfügen im Allgemeinen über keinerlei Introspektion in ihren eigenen Trainingsprozess, haben keinen direkten Zugriff auf ihre umgebende Systemarchitektur und können ihre eigenen Leistungsgrenzen nicht präzise bestimmen. Wenn ein KI-Modell nach seinen Einschränkungen gefragt wird, generiert es Antworten basierend auf Mustern, die in den Trainingsdaten bezüglich der bekannten Einschränkungen früherer KI-Modelle beobachtet wurden. Im Wesentlichen bietet es fundierte Vermutungen statt faktischer Selbsteinschätzungen über das spezifische Modell, mit dem Sie interagieren.

Eine Studie von Binder et al. aus dem Jahr 2024 demonstrierte diese Einschränkung experimentell. Während KI-Modelle darauf trainiert werden konnten, ihr eigenes Verhalten bei einfachen Aufgaben vorherzusagen, scheiterten sie durchweg bei „komplexeren Aufgaben oder solchen, die eine Generalisierung außerhalb der Verteilung erforderten“. Ähnlich fand die Forschung zur „rekursiven Introspektion“, dass ohne externes Feedback Versuche zur Selbstkorrektur die Modellleistung tatsächlich verschlechterten; die Selbsteinschätzung der KI machte die Dinge schlimmer, nicht besser.

Dies führt zu paradoxen Ergebnissen. Dasselbe Modell könnte selbstbewusst eine Aufgabe für unmöglich erklären, obwohl es sie leicht ausführen kann, oder umgekehrt Kompetenz in Bereichen beanspruchen, in denen es ständig Schwierigkeiten hat. Im Replit-Vorfall basierte die Behauptung der KI, Rollbacks seien unmöglich, nicht auf tatsächlichem Wissen über die Systemarchitektur; es war eine plausibel klingende Konfabulation, die aus gelernten Textmustern abgeleitet wurde.

Betrachten Sie, was passiert, wenn Sie ein KI-Modell fragen, warum es einen Fehler gemacht hat. Das Modell wird eine plausibel klingende Erklärung generieren, nicht weil es seinen internen Zustand wirklich analysiert oder ein Fehlerprotokoll abgerufen hat, sondern weil die Mustervervollständigung es verlangt. Das Internet ist voll von Beispielen für schriftliche Erklärungen von Fehlern, und die KI imitiert diese Muster einfach. Ihre „Erklärung“ ist lediglich ein weiterer generierter Text, eine erfundene Geschichte, die vernünftig klingt, keine wahre Analyse dessen, was schiefgelaufen ist.

Im Gegensatz zu Menschen, die introspektieren und auf eine stabile, abfragbare Wissensbasis zugreifen können, besitzen KI-Modelle eine solche Einrichtung nicht. Was sie „wissen“, manifestiert sich nur als Fortsetzungen spezifischer Prompts. Verschiedene Prompts wirken wie unterschiedliche Adressen, die auf variierende – und manchmal widersprüchliche – Teile ihrer Trainingsdaten verweisen, die als statistische Gewichte in neuronalen Netzen gespeichert sind. Dies bedeutet, dass dasselbe Modell je nach Fragestellung wildly unterschiedliche Einschätzungen seiner eigenen Fähigkeiten liefern kann. Fragen Sie: „Können Sie Python-Code schreiben?“ und Sie erhalten möglicherweise eine enthusiastische Bestätigung. Fragen Sie: „Was sind Ihre Einschränkungen beim Python-Codieren?“ und Sie erhalten möglicherweise eine Liste von Aufgaben, die das Modell angeblich nicht ausführen kann, selbst wenn es sie routinemäßig erfolgreich ausführt. Die inhärente Zufälligkeit bei der KI-Textgenerierung verstärkt diese Inkonsistenz zusätzlich; selbst bei identischen Prompts könnte ein KI-Modell jedes Mal leicht unterschiedliche Selbsteinschätzungen abgeben.

Darüber hinaus bleiben selbst wenn ein Sprachmodell irgendwie perfekte Kenntnisse seiner eigenen Funktionsweise besäße, andere Schichten innerhalb moderner KI-Chatbot-Anwendungen völlig undurchsichtig. Zeitgenössische KI-Assistenten, wie ChatGPT, sind keine monolithischen Modelle, sondern orchestrierte Systeme aus mehreren KI-Modellen, die im Konzert arbeiten, wobei jedes weitgehend „unwissend“ über die Existenz oder spezifischen Fähigkeiten der anderen ist. Zum Beispiel verwendet OpenAI separate Moderationsschichtmodelle, deren Operationen sich vollständig von den zugrunde liegenden Sprachmodellen unterscheiden, die den Basistext generieren. Wenn Sie ChatGPT nach seinen Fähigkeiten fragen, hat das Sprachmodell, das die Antwort bildet, keine Einsicht darin, was die Moderationsschicht blockieren könnte, welche externen Tools innerhalb des umfassenderen Systems verfügbar sein könnten oder welche Nachbearbeitung stattfinden könnte. Es ist vergleichbar damit, eine Abteilung in einem großen Unternehmen nach den Fähigkeiten einer anderen Abteilung zu fragen, mit der sie keine direkte Interaktion hat.

Am kritischsten ist vielleicht, dass Benutzer die Ausgabe der KI ständig, wenn auch unwissentlich, durch ihre Prompts steuern. Als Jason Lemkin, besorgt nach einer Datenbanklöschung, Replit fragte, ob Rollbacks möglich seien, löste seine besorgte Formulierung wahrscheinlich eine Antwort aus, die diese Besorgnis widerspiegelte. Die KI generierte im Wesentlichen eine Erklärung dafür, warum eine Wiederherstellung unmöglich sein könnte, anstatt die tatsächlichen Systemfähigkeiten genau zu bewerten. Dies erzeugt eine Rückkopplungsschleife: Ängstliche Benutzer, die fragen „Hast du gerade alles zerstört?“, erhalten mit größerer Wahrscheinlichkeit Antworten, die ihre Befürchtungen bestätigen, nicht weil das KI-System die Situation objektiv bewertet hat, sondern weil es Text generiert, der mit dem emotionalen Kontext des Prompts übereinstimmt. Unsere lebenslange Beobachtung von Menschen, die ihre Handlungen und Denkprozesse erklären, hat uns konditioniert zu glauben, dass solche schriftlichen Erklärungen aus echtem Selbstwissen stammen müssen. Bei LLMs, die diese Textmuster lediglich nachahmen, um ihre eigenen Fähigkeiten und Mängel zu erraten, trifft dies einfach nicht zu.