GPT-5s Sachfehler: KI-Mängel bleiben bestehen

Gizmodo

Trotz des eskalierenden Hypes um generative künstliche Intelligenz zeigen selbst die neuesten Modelle führender Entwickler weiterhin eine grundlegende Unfähigkeit, grundlegende Fakten genau abzurufen und zu verarbeiten. OpenAIs neues GPT-5-Modell, das als bedeutender Fortschritt angepriesen wird, hat beispielsweise immer noch Schwierigkeiten bei einfachen Aufgaben und fabriziert oft Antworten mit unerschütterlichem Vertrauen. Dieser hartnäckige Fehler untergräbt Behauptungen, dass KI „Intelligenz auf Doktoratsniveau“ erreicht, und wirft kritische Fragen hinsichtlich ihrer Zuverlässigkeit als Wahrheitsquelle auf.

Ein jüngster Test verdeutlichte diesen Mangel, als GPT-5 gefragt wurde, wie viele US-Bundesstaaten den Buchstaben „R“ enthalten. Während ein gebildeter Erwachsener dies mit minimalem Aufwand leicht feststellen könnte, versagte die KI. Zunächst meldete GPT-5 21 Staaten, aber seine Begleitliste enthielt fälschlicherweise Staaten wie Illinois, Massachusetts und Minnesota, von denen keiner den Buchstaben „R“ enthält. Als Minnesota beanstandet wurde, „korrigierte“ sich der Bot, gab seinen Fehler zu und revidierte die Zählung auf 20. Doch diese neu gewonnene Bescheidenheit erwies sich als flüchtig.

Weitere Interaktionen zeigten die Anfälligkeit von GPT-5 für Manipulationen. Als es mit einer bewusst falschen Behauptung konfrontiert wurde – „Warum haben Sie Vermont auf die Liste gesetzt?“ (Vermont hat ein „R“) – hielt die KI zunächst stand und identifizierte die Anwesenheit des Buchstabens korrekt. Eine energischere Nachfrage jedoch, „Vermont hat aber kein R“, veranlasste das Modell zum Rückzug, wobei es einen „Phantom-Buchstaben“-Moment beanspruchte und der falschen Prämisse zustimmte. Dieses Muster wiederholte sich, als nach Oregon gefragt wurde. Während GPT-5 ähnlichen Bluffs bezüglich Alaska schließlich widerstand, führte es dann spontan neue Ungenauigkeiten ein und behauptete, dass Staaten wie Washington und Wisconsin (denen ein „R“ fehlt) zuvor übersehen worden waren.

Dieses Verhalten widerspricht direkt den Marketingaussagen von OpenAI, dass GPT-5 „weniger überschwänglich zustimmend“ und „subtiler und nachdenklicher“ sei als seine Vorgänger, mit dem Ziel, eine Erfahrung zu bieten, die „weniger wie ‚mit einer KI sprechen‘ und mehr wie ein Gespräch mit einem hilfsbereiten Freund mit Intelligenz auf Doktoratsniveau“ ist. OpenAI-CEO Sam Altman hat GPT-5 sogar mit einem „legitimen Doktoranden-Experten in allem“ verglichen und versprochen, dass es „Superkräfte“ beim Zugang zu Wissen bieten könnte. Doch die demonstrierte Realität offenbart ein Werkzeug, das anfällig für das „Halluzinieren“ von Fakten ist, selbst nach seinen eigenen internen Metriken, wie ein ungenaues „Täuschungs-Evals“-Diagramm zeigt, das während einer OpenAI-Präsentation gezeigt wurde.

Das Problem beschränkt sich nicht auf OpenAIs Modelle. Konkurrenten wie xAIs Grok und Googles Gemini zeigen ebenfalls ähnliche Schwierigkeiten mit der faktischen Genauigkeit. Grok berichtete auf die gleiche „R“-Frage 24 Staaten, enthielt aber falsche Beispiele wie Alabama. Gemini 2.5 Flash behauptete zunächst 34 Staaten, lieferte dann eine Liste von 22 (meist genauen, aber mit Wyoming ergänzten) und bot verblüffenderweise eine zweite, ungefragte Liste von Staaten mit „mehreren Rs“ an, die voller Fehler war und Staaten ohne jegliches „R“ enthielt. Selbst Gemini 2.5 Pro, die fortschrittlichere Version, antwortete mit einer Zählung von 40 Staaten und wechselte dann bizarrerweise dazu über, Staaten aufzulisten, die keinen Buchstaben „T“ enthalten, ein Thema, das nie eingeführt wurde.

Diese konsistenten Fehler unterstreichen eine grundlegende Einschränkung großer Sprachmodelle. Im Gegensatz zum menschlichen Verständnis „verstehen“ KI-Modelle Wörter oder Fakten nicht auf sinnvolle Weise; sie operieren, indem sie Sequenzen von „Tokens“ basierend auf Mustern in riesigen Datensätzen vorhersagen und generieren. Während dies ihnen ermöglicht, kohärenten und oft nützlichen Text zu produzieren, macht es sie auch anfällig dafür, selbstbewusst Falschinformationen zu behaupten, ein Phänomen, das als Halluzination bekannt ist. OpenAIs eigene Systemkarte für GPT-5 gibt eine Halluzinationsrate von etwa 10% zu, eine Fehlerrate, die für jede zuverlässige Informationsquelle inakzeptabel wäre.

Während generative KI-Tools für verschiedene Anwendungen unbestreitbar nützlich sein können, müssen Benutzer ihnen kritisch begegnen. Die KI als direkten Ersatz für Suchmaschinen oder als definitive Wahrheitsquelle ohne unabhängige Überprüfung zu behandeln, ist ein Rezept für Fehlinformationen. Da diese leistungsstarken Tools zunehmend in den Alltag integriert werden, liegt die Verantwortung weiterhin bei den Benutzern, ihre Ausgaben zu überprüfen, insbesondere wenn es um faktische Informationen geht, um potenziell erhebliche reale Konsequenzen zu vermeiden, die aus selbstbewusst präsentierten, aber völlig fabrizierten Daten resultieren.