GPT-5: Gemischte Entwickler-Meinungen, Hohe Kosteneffizienz
OpenAIs jüngste Vorstellung von GPT-5 wurde von kühnen Behauptungen begleitet: ein „echter Coding-Kollaborator“, der darauf ausgelegt ist, qualitativ hochwertigen Code zu generieren und automatisierte Software-Aufgaben auszuführen. Der Start schien Anthropics Claude Code direkt herauszufordern, ein Tool, das sich schnell zum Favoriten vieler Entwickler entwickelt hat, die KI-gestützte Codierung suchen. Frühe Reaktionen aus der Entwicklergemeinschaft deuten jedoch darauf hin, dass die Leistung von GPT-5 nuancierter ist und ein gemischtes Bild von Fähigkeiten zeigt.
Während GPT-5 eine starke Begabung für technisches Denken und die strategische Planung von Codierungsaufgaben demonstriert, behaupten mehrere Entwickler, dass Anthropics neueste Opus- und Sonnet-Modelle immer noch überlegenen Code produzieren. Ein wiederkehrender Streitpunkt ist die Ausführlichkeit von GPT-5; je nach Einstellung kann das Modell übermäßig ausführliche Antworten generieren, was manchmal zu unnötigen oder redundanten Codezeilen führt. Darüber hinaus haben OpenAIs eigene Bewertungsmethoden für die Codierfähigkeiten von GPT-5 Kritik hervorgerufen, wobei einige argumentieren, die Benchmarks seien irreführend. Eine Forschungsfirma ging sogar so weit, eine von OpenAI veröffentlichte Grafik, die die Fähigkeiten von GPT-5 anpries, als „Chart-Verbrechen“ zu bezeichnen.
Trotz dieser Kritik bietet GPT-5 einen überzeugenden Vorteil in einem entscheidenden Bereich: der Kosteneffizienz. Sayash Kapoor, Doktorand der Informatik und Forscher an der Princeton University, Co-Autor von AI Snake Oil, hebt diesen Unterschied hervor. In den Benchmark-Tests seines Teams kostet die Durchführung einer Standardbewertung, die die Fähigkeit eines Sprachmodells misst, die Ergebnisse von 45 wissenschaftlichen Arbeiten zu reproduzieren, mit GPT-5 (auf mittlere Ausführlichkeit eingestellt) lediglich 30 US-Dollar, verglichen mit satten 400 US-Dollar für denselben Test mit Anthropics Opus 4.1. Kapoors Team hat bereits etwa 20.000 US-Dollar in die Prüfung von GPT-5 investiert, was die erhebliche Kostenunterschiede unterstreicht.
Doch diese Erschwinglichkeit geht mit einem Kompromiss bei der Genauigkeit einher. Kapoors Tests zeigen, dass GPT-5 zwar wirtschaftlicher, aber weniger präzise ist als einige seiner Konkurrenten. Claudes Premium-Modell erreichte eine Genauigkeitsrate von 51 Prozent bei der Reproduktion wissenschaftlicher Arbeiten, während die mittlere Version von GPT-5 nur 27 Prozent erreichte. Es ist zu beachten, dass dies ein indirekter Vergleich ist, da Opus 4.1 das leistungsstärkste Angebot von Anthropic darstellt und Kapoors Team denselben Test mit der hohen Ausführlichkeitseinstellung von GPT-5 noch nicht durchgeführt hat.
OpenAI verwies über die Sprecherin Lindsay McCallum auf seinen Blog, in dem es heißt, GPT-5 sei „an realen Codierungsaufgaben in Zusammenarbeit mit frühen Testern in Startups und Unternehmen“ trainiert worden. Das Unternehmen zeigte auch interne Genauigkeitsmessungen für GPT-5 und enthüllte, dass sein „Denkmodell“, das für ein überlegteres Denken konzipiert ist, die höchste Genauigkeit unter den Modellen von OpenAI erzielte. Das „Haupt“-GPT-5-Modell hinkte jedoch auf der internen Genauigkeitsskala von OpenAI immer noch hinter zuvor veröffentlichten Modellen zurück. Die Sprecherin von Anthropic, Amie Rotherham, betonte, dass „Leistungsansprüche und Preismodelle oft anders aussehen, sobald Entwickler sie in Produktionsumgebungen verwenden“, und schlug vor, dass bei Denkmodellen „der Preis pro Ergebnis wichtiger ist als der Preis pro Token“.
Inmitten der gemischten Bewertungen berichten einige Entwickler von weitgehend positiven Erfahrungen mit GPT-5. Jenny Wang, Ingenieurin, Investorin und Schöpferin des persönlichen Styling-Agenten Alta, fand GPT-5 geschickt darin, komplexe Codierungsaufgaben in einem einzigen Versuch abzuschließen, und übertraf damit ältere OpenAI-Modelle, die sie häufig für die Code-Generierung und einfache Korrekturen verwendet. Zum Beispiel generierte GPT-5 Code für eine Unternehmenspresse-Seite mit spezifischen Designelementen in einem Durchgang, eine Aufgabe, die zuvor iterative Prompts erforderte, obwohl Wang bemerkte, dass es „URLs halluzinierte“. Ein anderer Entwickler, der Anonymität bevorzugt, lobte die Fähigkeit von GPT-5, tiefe technische Probleme zu lösen, und verwies auf seine beeindruckenden Empfehlungen und realistischen Zeitpläne für ein komplexes Netzwerk-Analyse-Tool-Projekt. Mehrere Unternehmenspartner von OpenAI, darunter Cursor, Windsurf und Notion, haben die Codierungs- und Denkfähigkeiten von GPT-5 öffentlich bestätigt, wobei Notion behauptet, dass es komplexe Arbeiten 15 Prozent besser bewältigt als andere getestete Modelle.
Umgekehrt äußerten einige Entwickler sofortige Enttäuschung online. Kieran Klassen, der einen KI-E-Mail-Assistenten entwickelt, bemerkte, dass die Codierungsfähigkeiten von GPT-5 „hinter der Kurve“ zu liegen schienen, eher vergleichbar mit Anthropics Sonnet 3.5, das ein Jahr zuvor veröffentlicht wurde. Amir Salihefendić, Gründer von Doist, fand GPT-5 „ziemlich enttäuschend“ und „besonders schlecht beim Codieren“, und zog einen Vergleich zur enttäuschenden Veröffentlichung von Metas Llama 4. Der Entwickler Mckay Wrigley lobte GPT-5 als „phänomenales Alltags-Chat-Modell“, bestätigte aber, dass er für Codierungsaufgaben bei Claude Code und Opus bleiben würde. Die „erschöpfende“ Natur des Modells, obwohl manchmal hilfreich, wurde auch als ärgerlich langatmig beschrieben, wobei Wang seine Tendenz zu „redundanteren“ Lösungen feststellte.
Itamar Friedman, Mitbegründer und CEO der KI-Codierungsplattform Qodo, deutet an, dass einige der Kritiken aus sich entwickelnden Erwartungen stammen. Er unterscheidet zwischen der „Vor-ChatGPT-Ära“ (BCE), als KI-Modelle ganzheitlich verbessert wurden, und der aktuellen Post-ChatGPT-Landschaft, in der Fortschritte oft spezialisiert sind. Er zitierte die Dominanz von Claude Sonnet 3.5 im Bereich der Codierung und die Stärke von Google Gemini bei der Code-Überprüfung als Beispiele.
OpenAI wurde auch wegen seiner Benchmark-Testmethodik unter die Lupe genommen. SemiAnalysis, eine Forschungsfirma, wies darauf hin, dass OpenAI nur 477 der 500 Tests durchführte, die typischerweise in SWE-bench enthalten sind, einem Standard-KI-Industrie-Framework zur Bewertung großer Sprachmodelle. OpenAI stellte klar, dass es konsequent eine feste Untermenge von 477 Aufgaben verwendet, da diese auf seiner internen Infrastruktur validiert sind, und fügte hinzu, dass Variationen in der Ausführlichkeitseinstellung des Modells die Bewertungsleistung beeinflussen können.
Letztendlich kämpfen führende KI-Unternehmen mit komplexen Kompromissen, wie Sayash Kapoor feststellt. Entwickler, die neue Modelle trainieren, müssen Benutzererwartungen, Leistung bei verschiedenen Aufgaben wie der agentischen Codierung und Kosten in Einklang bringen. Kapoor spekuliert, dass OpenAI, sich bewusst, dass es möglicherweise nicht jeden Benchmark dominieren würde, wahrscheinlich darauf abzielte, ein Modell zu schaffen, das ein breites Spektrum von Benutzern anspricht und ein überzeugendes Kosten-Leistungs-Verhältnis priorisiert.