GPT-5 enttäuscht den Hype-Test: Inkrementelle Gewinne enttäuschen Nutzer

Theverge

Der Start von OpenAIs GPT-5 letzte Woche entfachte eine leidenschaftliche Welle der Erwartung in der Technologielandschaft, die jedoch auf weit verbreitete Enttäuschung stieß. Im Vorfeld der großen Enthüllung hatte OpenAI-CEO Sam Altman GPT-5 als “etwas, von dem ich nie wieder zurück möchte” bezeichnet und es mit dem bahnbrechenden Debüt des iPhones mit Retina-Display verglichen. In der Nacht vor dem Ankündigungs-Livestream befeuerte Altman die Spekulationen weiter, indem er ein Bild des Todessterns postete, was einen Nutzer auf X dazu veranlasste, die Atmosphäre als “Heiligabend” zu beschreiben. Alle Augen waren auf den ChatGPT-Hersteller gerichtet, gespannt, ob die immense Publicity zu einem revolutionären Sprung oder einer Enttäuschung führen würde. Nach den meisten Berichten war es Letzteres.

Die Begeisterung für OpenAIs lang erwartetes Modell hatte sich seit der Veröffentlichung von GPT-4 im Jahr 2023 über Jahre hinweg aufgebaut. Während eines Reddit AMA im vergangenen Oktober drängten Nutzer Altman und sein Team wiederholt auf Details zu den Funktionen und dem Veröffentlichungsdatum von GPT-5, wobei ein Redditor spitz fragte: “Warum dauert GPT-5 so lange?” Altman hatte die Verzögerung auf rechnerische Einschränkungen zurückgeführt und die zunehmende Komplexität dieser Modelle sowie die Schwierigkeit der parallelen Entwicklung bemerkt.

Als GPT-5 jedoch schließlich über ChatGPT zugänglich wurde, waren die Nutzerreaktionen weitgehend unenthusiastisch. Die signifikanten Fortschritte, die viele erwartet hatten, erschienen inkrementell, wobei die primären Verbesserungen des Modells in Bereichen wie den Betriebskosten und der Verarbeitungsgeschwindigkeit beobachtet wurden. Obwohl weniger spektakulär, könnten diese Gewinne langfristig eine solide Finanzstrategie für OpenAI darstellen.

Die öffentlichen Erwartungen an GPT-5 waren außerordentlich hoch, wobei ein X-Nutzer bemerkte, dass Altmans Todesstern-Post allein “die Erwartungen aller verschoben” hatte. OpenAI tat wenig, um diese Prognosen zu dämpfen, und pries GPT-5 als sein “bestes KI-System bisher” und einen “bedeutenden Sprung in der Intelligenz” an, der “Spitzenleistung in den Bereichen Codierung, Mathematik, Schreiben, Gesundheit, visueller Wahrnehmung und mehr” rühmte. Altman selbst behauptete, dass sich das Gespräch mit dem Modell anfühlte, als würde man “mit einem Experten auf PhD-Niveau sprechen”.

Dieser ambitionierte Hype schuf einen starken Kontrast zur Realität, die Nutzer erlebten. Soziale Medien füllten sich schnell mit Beispielen für die verwirrenden Fehler von GPT-5. Könnte ein Modell mit Intelligenz auf PhD-Niveau zum Beispiel wiederholt darauf bestehen, dass es drei “b’s” in “blueberry” gibt, oder nicht erkennen, wie viele US-Bundesstaatsnamen den Buchstaben “R” enthalten? Nutzer berichteten auch von Fällen, in denen das Modell eine US-Karte fälschlicherweise mit erfundenen Staaten wie “New Jefst” und “Krizona” beschriftete oder Nevada fälschlicherweise als Erweiterung Kaliforniens identifizierte. Darüber hinaus empfanden Nutzer, die sich auf den Chatbot zur emotionalen Unterstützung verließen, das neue System als streng und distanziert, was zu einem so starken Gegenwind führte, dass OpenAI vorübergehend die Unterstützung für ein älteres Modell wiederherstellte. Die Enttäuschung führte sogar zu Memes, von denen eines GPT-4 und GPT-4o berühmt als formidable Drachen darstellte, während GPT-5 zu einem Einfaltspinsel reduziert wurde.

Die öffentliche Meinung von Experten war gleichermaßen unbarmherzig. Gary Marcus, eine prominente Stimme der KI-Branche und emeritierter Professor für Psychologie an der New York University, charakterisierte das Modell als “überfällig, überhypt und enttäuschend”. Peter Wildeford, Mitbegründer des Institute for AI Policy and Strategy, schloss in seiner Rezension: “Ist das der massive Erfolg, den wir gesucht haben? Leider nein.” Der populäre KI-Branchenblogger Zvi Mowshowitz hielt es für “ein gutes, aber nicht großartiges Modell”, während ein Redditor im offiziellen GPT-5 Reddit AMA unverblümt erklärte: “Jemand soll Sam sagen, dass 5 heißer Müll ist.”

In den Tagen nach der Veröffentlichung von GPT-5 hat sich die anfängliche Welle der unbeeindruckten Rezensionen etwas gelegt. Der sich abzeichnende Konsens deutet darauf hin, dass GPT-5 zwar nicht den von vielen erwarteten monumentalen Fortschritt lieferte, aber sinnvolle Upgrades in Bezug auf Kosteneffizienz, Geschwindigkeit und insbesondere eine Reduzierung von “Halluzinationen” oder sachlichen Fehlern bietet. Ein neues “Switch-System”, das Anfragen automatisch an das am besten geeignete Backend-Modell weiterleitet, wurde ebenfalls eingeführt. Altman hat sich seitdem dieser Erzählung zugewandt und erklärt: “GPT-5 ist das intelligenteste Modell, das wir je gemacht haben, aber das Hauptaugenmerk lag auf dem realen Nutzen und der Massenzugänglichkeit/-erschwinglichkeit.” OpenAI-Forscherin Christina Kim wiederholte dies und postete auf X, dass “die wahre Geschichte die Nützlichkeit ist. Es hilft bei dem, was den Menschen wichtig ist – Code versenden, kreatives Schreiben und Navigieren von Gesundheitsinformationen – mit mehr Stabilität und weniger Reibung.” Sie betonte die verbesserte Kalibrierung, die Fähigkeit, Unsicherheiten zuzugeben, und die Fähigkeit, Antworten mit Zitaten zu untermauern.

Trotz dieser angeblichen Verbesserungen hält sich das weit verbreitete Gefühl, dass GPT-5 paradoxerweise ChatGPT weniger eloquent gemacht hat. Virale Social-Media-Posts beklagen den wahrgenommenen Mangel an Nuancen und Tiefe im Schreiben und beschreiben es oft als roboterhaft und kalt. Selbst OpenAIs eigene Marketingmaterialien, die einen direkten Vergleich von GPT-4o- und GPT-5-generierten Hochzeitsansprachen zeigten, präsentierten keinen eindeutigen Sieg für das neue Modell. Als Altman Redditors direkt fragte, ob sie GPT-5 für Schreibaufgaben überlegen fänden, stieß er auf eine überwältigende Verteidigung des ausgemusterten GPT-4o-Modells, was ihn dazu veranlasste, es innerhalb eines Tages vorübergehend in ChatGPT wiederherzustellen.

Ein Bereich jedoch, in dem GPT-5 wirklich zu glänzen scheint, ist die Codierung. Eine Iteration von GPT-5 führt derzeit die beliebteste KI-Modell-Bestenliste in der Kategorie Codierung an und übertrifft Konkurrenten wie Anthropic’s Claude. OpenAIs Startdemonstrationen hoben seine Fähigkeit hervor, Spiele, ein Pixel-Art-Tool, einen Schlagzeugsimulator und einen Lofi-Visualizer zu generieren. Während komplexe Projekte immer noch Fehler aufweisen könnten, hat das Modell bei einfacheren Codierungsaufgaben, wie der Erstellung einer interaktiven Sticklektion, vielversprechende Ergebnisse gezeigt. Dies stellt einen bedeutenden Sieg für OpenAI in der hart umkämpften KI-Codierungsarena dar, wo es mit Rivalen wie Anthropic und Google konkurriert. Unternehmen sind bereit, stark in KI-Codierungslösungen zu investieren, was sie zu einem der realistischsten und substanziellsten Umsatzgeneratoren für KI-Startups macht, die typischerweise viel Geld verbrennen. Obwohl OpenAI auch das Potenzial von GPT-5 im Gesundheitswesen betonte, bleibt seine praktische Wirksamkeit in diesem Sektor weitgehend ungetestet.

In den letzten Jahren hat die Bedeutung von KI-Benchmarks abgenommen, da sie sich häufig ändern und Unternehmen Ergebnisse selektiv offenlegen. Dennoch bieten sie immer noch eine vernünftige Momentaufnahme der Leistung von GPT-5. Das Modell übertraf seine Vorgänger in vielen Branchentests, aber wie Wildeford bemerkte, war diese Verbesserung größtenteils “das, was zu erwarten wäre – kleine, inkrementelle Zuwächse statt etwas, das eines vagen Todesstern-Memes würdig wäre”. Doch wenn die jüngste Geschichte ein Leitfaden ist, führen diese bescheidenen, inkrementellen Fortschritte oft eher zu greifbaren Gewinnen als Funktionen, die ausschließlich dazu bestimmt sind, einzelne Verbraucher zu beeindrucken. KI-Unternehmen verstehen, dass ihre primären Einnahmequellen von Unternehmenskunden, Regierungsaufträgen und Investitionen stammen. In diesem Kontext stellt ein konstanter, inkrementeller Fortschritt bei etablierten Benchmarks, gepaart mit verbesserten Codierungsfähigkeiten und einer Reduzierung von Fehlern, die effektivste Strategie dar, um diese lukrativen Wege zu nutzen.