GPT-5: Grafik-Halluzinationen – Karten & Zeitachsen fehlerhaft

Theregister

OpenAIs kürzlich vorgestelltes GPT-5, das als Flaggschiff-Sprachmodell des Unternehmens angepriesen wird, verspricht verbesserte Denkfähigkeiten und genauere Antworten als seine Vorgänger. Erste praktische Tests deuten jedoch darauf hin, dass das Modell zwar in vielen Bereichen hervorragend ist, aber immer noch erheblich mit der genauen Wiedergabe von Text innerhalb von Grafiken zu kämpfen hat und oft Informationen aus einer scheinbar alternativen Realität produziert.

Nach Berichten in den sozialen Medien über „halluzinierende“ GPT-5 – das heißt, das Erzeugen von faktisch falschen oder unsinnigen Informationen in Infografiken – begannen unsere Tests mit einer einfachen Anfrage: „Erstelle eine Karte der USA mit den Namen jedes Bundesstaates.“ Das resultierende Bild zeigte zwar korrekt die Größen und Formen der Bundesstaaten, war aber mit Rechtschreibfehlern und erfundenen Namen übersät. Oregon wurde zu „Onegon“, Oklahoma verwandelte sich in „Gelahbrin“ und Minnesota wurde als „Ternia“ beschriftet. Auffallend war, dass nur Montana und Kansas korrekt identifiziert wurden, wobei einige Buchstaben in anderen Bundesstaatennamen kaum lesbar waren.

Um festzustellen, ob dies eine US-spezifische Anomalie war, fragten wir nach einer „Karte Südamerikas“ mit allen Ländernamen. Während GPT-5 eine leichte Verbesserung zeigte und große Nationen wie Argentinien, Brasilien, Bolivien, Kolumbien und Peru korrekt identifizierte, blieben Fehler bestehen. Ecuador erschien als „Felizio“, Suriname als „Guriname“ und Uruguay als „Urigim“. Zur Verwirrung trug bei, dass der Name für Chile bizarrerweise über dem südlichen Argentinien überlagert war.

Die Herausforderungen gingen über die Geografie hinaus. Als GPT-5 aufgefordert wurde, „eine Zeittafel der US-Präsidentschaft mit den Namen aller Präsidenten zu zeichnen“, lieferte es die bisher ungenaueste Grafik. Die Zeittafel listete nur 26 Präsidenten auf, die Jahreszahlen waren unlogisch und stimmten nicht mit den Personen überein, und eine Vielzahl von Namen war völlig erfunden. Zum Beispiel wurde der vierte Präsident als „Willian H. Brusen“ identifiziert, der angeblich 1991 im Weißen Haus residierte. Andere fiktive Anführer waren Henbert Bowen im Jahr 1934 und Benlohin Barrison im Jahr 1879, wobei sogar Thomas Jeffersons Name falsch geschrieben wurde.

Kurioserweise zeigte sich ein starker Kontrast, als das Modell gebeten wurde, „eine Infografik zu erstellen, die alle Schauspieler zeigt, die James Bond der Reihe nach gespielt haben.“ Nach einer anfänglichen reinen Textausgabe führte eine Folgeaufforderung zur Aufnahme eines Bildes zu einer bemerkenswert genauen Zeittafel, die lediglich Sean Connerys Rolle in „Diamantenfieber“ ausließ. Dieser unerwartete Erfolg unterstreicht eine eigenartige Inkonsistenz.

Es ist wichtig zu beachten, dass GPT-5 durchaus in der Lage ist, genaue Textinformationen für genau die Anfragen zu liefern, die es nicht korrekt illustrieren kann. Wenn es nach einfachen Listen von US-Bundesstaaten, südamerikanischen Ländern oder US-Präsidenten gefragt wurde, lieferte das Modell präzise Antworten. Die einzige geringfügige Textungenauigkeit war die Amtszeit von Joe Biden, die als „2021-heute“ aufgeführt wurde, was darauf hindeutet, dass die Trainingsdaten des Modells möglicherweise nicht die neuesten politischen Entwicklungen umfassen. OpenAI hat die spezifischen Trainingsdaten für dieses Modell noch nicht bekannt gegeben.

Die genauen Gründe für GPT-5s Schwierigkeiten mit eingebettetem Text in Bildern bleiben von OpenAI unbestätigt. Branchenexperten theoretisieren jedoch, dass die Bildgenerierung, die oft auf „Diffusionsprozessen“ beruht, bei denen Modelle durch Rekonstruktion von Bildern aus Rauschen lernen, die genaue Textwiedergabe naturgemäß als schwierig empfindet. Historisch gesehen ähnelte der von Diffusionsmodellen generierte Text oft unentzifferbaren Hieroglyphen statt kohärenter Sprache. Diese Schwierigkeit ist nicht einzigartig für OpenAI. Bing Image Creator zum Beispiel produzierte ähnlich fehlerhafte US-Karten, schrieb sogar das Land als „United States Ameriicca“ falsch und hatte Schwierigkeiten mit der James-Bond-Zeittafel.

Andere führende KI-Modelle weisen ihre eigenen Eigenheiten auf. Anthropic’s Claude benannte auf Anfrage nach einer US-Karte die Bundesstaaten korrekt, erzeugte aber eine SVG-Codedatei anstelle eines traditionellen Bildes, was zu einer listenartigen Ausgabe innerhalb von Kästchen führte. Interessanterweise produzierte GPT-5, als es angewiesen wurde, seine „Canvas“-Funktion für die codebasierte Kartengenerierung zu verwenden, ein genaues Ergebnis, was darauf hindeutet, dass das Problem speziell in seiner Bildgenerierungspipeline liegt und nicht in seiner Fähigkeit, faktische Daten zu verarbeiten oder Code zu generieren. Googles Gemini, obwohl es bei der US-Karte schlechter abschnitt als GPT-5 (null korrekte Bundesstaatennamen produzierte), erstellte eine außergewöhnlich detaillierte James-Bond-Infografik, die sogar zahlreiche wiederkehrende Darsteller enthielt.

Letztendlich scheint die Herausforderung, Text genau in generierte Bilder einzubetten, ein weit verbreitetes Hindernis für aktuelle große Sprachmodelle und Bildgeneratoren zu sein. Während diese fortschrittlichen KIs faktische Informationen problemlos im Textformat abrufen und präsentieren können, bleibt die Umwandlung dieses Wissens in visuell genaue Beschriftungen innerhalb einer Grafik ein erhebliches und oft komisch fehlerhaftes Unterfangen – es sei denn, es handelt sich scheinbar um James Bond.