OpenAI GPT-5: Enttäuschender Start mit Leistungsproblemen
Der mit Spannung erwartete Start des OpenAI GPT-5-Modells stieß auf einen herausfordernden Empfang, gekennzeichnet durch eine Reihe von nutzergemeldeten Fehlern und weit verbreiteter Unzufriedenheit. Nach der Live-Präsentation, die selbst Pannen bei Diagrammen und Sprachdemonstrationen enthielt, begannen Nutzer schnell, Fälle zu melden, in denen GPT-5 bei Aufgaben versagte, die frühere OpenAI-Modelle und sogar rivalisierende KI-Systeme korrekt bewältigten.
Bemerkenswerte Beispiele dieser Fehltritte sind das Versagen von GPT-5, grundlegende mathematische Probleme korrekt zu lösen. Der Datenwissenschaftler Colin Fraser teilte Screenshots, die die Unfähigkeit des Modells illustrieren, zu beweisen, ob der periodische Dezimalbruch 8.888 gleich 9 ist (was er nicht ist). Es stolperte auch über eine einfache algebraische Gleichung, 5.9 = x + 5.11, ein Problem, das Grundschüler typischerweise lösen könnten. Darüber hinaus führten Versuche, GPT-5 zur Bewertung von OpenAIs eigenen fehlerhaften Präsentationsdiagrammen zu verwenden, zu unbrauchbaren und falschen Antworten. Das Modell hatte sogar Schwierigkeiten mit einem komplexeren mathematischen Textproblem, das, obwohl für Menschen anfangs knifflig, von Elon Musks Groq 4 KI genau gelöst wurde.
Über das mathematische Denkvermögen hinaus scheint die Programmierfähigkeit von GPT-5, trotz starker interner und einiger Drittanbieter-Benchmarks, in der realen Anwendung unzureichend zu sein. Während Benchmarks eine Überlegenheit nahelegten, berichten Entwickler, dass Anthropics kürzlich aktualisiertes Claude Opus 4.1 bei „One-Shotting“-Aufgaben – dem Abschluss einer vom Benutzer gewünschten Anwendung oder Softwareentwicklung in einem einzigen Versuch – oft besser abschneidet. Diese Diskrepanz verdeutlicht eine Lücke zwischen theoretischen Leistungsmetriken und praktischem Nutzen.
Die Frustration der Nutzer wird dadurch verstärkt, dass OpenAI seine älteren, gut angesehenen Modelle, einschließlich GPT-4o und das leistungsstarke Denkmodell o3, für ChatGPT-Nutzer schrittweise einstellt. Obwohl diese über die Anwendungsprogrammierschnittstelle (API) für Entwickler zugänglich bleiben, wurde ihre Entfernung aus der primären Benutzeroberfläche mit Bestürzung aufgenommen. Hinzu kommt ein Bericht des Sicherheitsunternehmens SPLX, der darauf hinwies, dass OpenAIs interne Sicherheitsebenen erhebliche Schwachstellen aufweisen, insbesondere in Bereichen wie Geschäftsausrichtung und Anfälligkeit für Prompt-Injektionen und verschleierte Logikangriffe.
Frühes Feedback aus der KI-Community zeichnet ein Bild eines lauwarmen Empfangs. Eine Umfrage des KI-Influencers Bilawal Sidhu, der nach einem „Vibe-Check“ zu GPT-5 fragte, zeigte, dass eine überwältigende Mehrheit es als „eher mittelmäßig“ bezeichnete. Dieses Gefühl spiegelte sich auf sozialen Medienplattformen wider, wobei das pseudonyme Konto AI Leaks and News einen „überwiegend negativen“ Konsens sowohl auf X (ehemals Twitter) als auch auf Reddit feststellte. Eine Hauptursache für die Unzufriedenheit der Nutzer ist die neue „Router“-Funktion von GPT-5, die automatisch einen „Denk“- oder „Nicht-Denk“-Modus basierend auf der Schwierigkeit der Abfrage auswählen soll. Nutzer berichten, dass dieser Router häufig standardmäßig den weniger leistungsfähigen Nicht-Denk-Modus wählt, was die Leistung bei komplexen Abfragen beeinträchtigt.
Dieser lauwarme Empfang stellt eine erhebliche Herausforderung für OpenAI dar, insbesondere da der Wettbewerb zunimmt. Große Rivalen wie Google und Anthropic entwickeln ihre eigenen großen Sprachmodelle schnell weiter. Darüber hinaus entsteht eine wachsende Anzahl leistungsstarker, oft kostenloser und quelloffener chinesischer LLMs, die wettbewerbsfähige Funktionen bieten. Zum Beispiel hat Alibabas Qwen 3-Modell kürzlich sein Kontextfenster auf 1 Million Tokens aktualisiert, was im Vergleich zu GPT-5 fast viermal so viel Informationsaustausch in einer einzigen Interaktion ermöglicht. OpenAIs andere kürzliche Veröffentlichung, die Open-Source-Modelle GPT-OSS, erhielt ebenfalls eine gemischte Resonanz. Dieser breitere Kontext, gepaart mit einer kürzlichen Polymarket-Wettmarktprognose, die Google bis Ende August 2025 das beste KI-Modell zuschreibt, deutet auf eine sich wandelnde Landschaft hin.
Trotz der anfänglichen Rückschläge deuten einige Brancheninsider, wie Matt Schumer, Mitbegründer und CEO von Otherside AI, darauf hin, dass sich negative Ansichten ändern könnten, wenn Nutzer und Entwickler ihre Integrationsansätze für das neue Modell optimieren. Schumer postuliert, dass es typischerweise eine Zeitverzögerung zwischen der Veröffentlichung eines neuen Modells und dem Zeitpunkt gibt, an dem Unternehmen ihre Systeme vollständig anpassen, um dessen Fähigkeiten zu nutzen. Diese frühen Anzeichen deuten jedoch darauf hin, dass GPT-5 nicht der “Volltreffer” ist, der frühere Iterationen wie GPT-4 oder 4o waren. Dies ist ein besorgniserregendes Signal für OpenAI, ein Unternehmen, das, obwohl es kürzlich eine weitere Finanzierungsrunde gesichert hat, aufgrund seiner umfangreichen Forschungs- und Entwicklungskosten weiterhin unprofitabel ist.