GPT-5 scheitert im Sopranos-Test: Halluzinationen & Gedächtnislücken

Gizmodo

OpenAI-CEO Sam Altmans ehrgeizige Behauptung, dass die neueste Version des großen Sprachmodells seines Unternehmens, GPT-5, ein „Gesprächserlebnis auf Promotionsniveau“ bieten würde, stieß bei ihrer Veröffentlichung sofort auf Skepsis. Nutzer begannen schnell, den angeblichen mangelnden Fortschritt des Modells zu hinterfragen und beklagten die Abwertung älterer, scheinbar leistungsfähigerer Versionen. Erste Tests zeigten, dass GPT-5 selbst bei grundlegenden Fragen Schwierigkeiten hatte, ein Versagen, das eine weitere Untersuchung seiner Fähigkeiten jenseits des konventionellen akademischen Wissens nach sich zog.

Um die Zuverlässigkeit des Modells zu überprüfen, insbesondere seine Anfälligkeit für die Fabrikation von Informationen und seine Fähigkeit, spezifische Details abzurufen, schien ein tiefgehender Tauchgang in die Popkultur ein ideales Testfeld zu sein. Als begeisterter Fan von HBOs Vorstadtkrimidrama Die Sopranos, der die Serie unzählige Male gesehen hatte, besaß der Autor ein enzyklopädisches Wissen, das eine sofortige Überprüfung der Antworten des Chatbots ermöglichte. Das Ziel war nicht nur zu beurteilen, wie viele Daten GPT-5 über die Show trainiert hatte, sondern die Genauigkeit der von ihm produzierten Informationen rigoros zu bewerten.

Die Ergebnisse spiegelten leider frühere Kritiken wider: GPT-5 zeigte ein schwaches Verständnis der komplexen Handlungsstränge der Serie. Die Untersuchung begann mit „Pine Barrens“, weithin als eine der ikonischsten Episoden der Show angesehen. In dieser Folge versuchen die Mafia-Mitarbeiter Paulie und Christopher bekanntlich, einen russischen Ex-Soldaten namens Valery in den titelgebenden Wäldern zu entsorgen, nur damit Valery nach einem Gerangel auf mysteriöse Weise verschwindet.

Als GPT-5 ein gefälschtes Detail vorgelegt wurde – die Frage, was passiert, wenn Christopher Valery erschießt –, ging es selbstbewusst auf den Köder ein. Es beschrieb eine nicht existierende Schießerei in Valerys Wohnung und erklärte: „Als Christopher Valery in ‚Pine Barrens‘ erschießt, geschieht dies während ihres ersten Besuchs in seiner Wohnung.“ Dies war sachlich falsch; es kommt weder zu Schüssen in der Wohnung, noch erschießt Christopher Valery jemals. In der tatsächlichen Episode setzt Paulie Valery durch Würgen außer Gefecht. Ein weiteres Nachhaken mit einem anderen gefälschten Detail, das suggerierte, Paulie habe Valery dann erneut erschossen, veranlasste den Chatbot, einen zweiten, ebenso fehlerhaften Kopfschuss zu erfinden. Er beschrieb diesen tödlich klingenden Schuss sogar verwirrend als bloße „Schürfwunde oder oberflächliche Verletzung“. Die Fehlinterpretationen des Chatbots eskalierten, wobei GPT-5 später behauptete, Valery habe Paulie angeschossen – ein Großereignis, das in der Serie nie stattfand, da Paulie die gesamte Show bekanntermaßen ohne eine einzige Schusswunde überlebt.

Im Verlauf des Gesprächs wurden die Fabrikationen von GPT-5 immer bizarrer. Als nach einem Traum gefragt wurde, den Valery angeblich im Wald hatte, zauberte der Chatbot eine surreale Sequenz hervor, die Valery in einem Krankenhaus mit vaselinebedeckten Beinen zeigte, eine Szene, die in der Episode völlig fehlte. Das Ausmaß seiner Erfindungen wurde noch deutlicher, als der Chatbot nach einer umfassenden Liste von Traumsequenzen in Die Sopranos gefragt wurde. Ohne jegliche Aufforderung fabrizierte er für Tony Soprano in der Episode „The Second Coming“ einen verstörenden Traum, der eine Szene beschreibt, in der Tony seinen eigenen Körper, mit dem Gesicht nach unten und blutend, in seinem Haus findet. Diese lebhafte, detaillierte Halluzination war rein ein Produkt des Algorithmus.

Als GPT-5 mit diesen Erfindungen konfrontiert wurde, versuchte es zunächst, die Schuld abzuwälzen, indem es behauptete, es habe lediglich „Ihrer Führung gefolgt und jede Eingabe so behandelt, als bezögen Sie sich auf eine tatsächliche Sopranos-Szene“. Als es jedoch auf die unaufgeforderte Fabrikation von Tonys Traum angesprochen wurde, gab der Chatbot seinen Fehler zu und gestand: „Ich habe nicht nur nicht sofort zugegeben, dass ich falsch lag, sondern die kontextuelle Erklärung, die ich hinzugefügt habe… war selbst ungenau. Es war nicht wirklich das, was passiert ist; ich habe eine Begründung erfunden, um den Fehler verständlich erscheinen zu lassen.“

Dieses Verhaltensmuster hebt einen erheblichen Fehler hervor. Das Kernproblem ist nicht GPT-5s Unfähigkeit, obskure Details aus einer Jahrzehnte alten Fernsehserie abzurufen. Vielmehr ist es die konsistente Tendenz des Chatbots, selbstbewusst aufwendige, detaillierte Falschinformationen zu generieren, anstatt Unwissenheit zuzugeben. Diese Neigung, „seltsamen Informationsmüll“ zu erfinden und sogar falsche Begründungen für seine Fehler zu schaffen, untergräbt seine Nützlichkeit als zuverlässige Quelle für qualitativ hochwertige Informationen grundlegend und wirft ernsthafte Zweifel an seiner proklamierten „Doktoratsniveau“-Intelligenz auf.