GPT-5: Leaks – Bescheidenes Upgrade, kein OpenAI-Durchbruch

OpenAI bereitet die Einführung von GPT-5 vor, seinem nächsten Flaggschiff unter den großen Sprachmodellen, doch die Erwartungen deuten eher auf ein bescheidenes Upgrade als auf einen revolutionären Sprung hin. Nach GPT-4, das im März 2023 veröffentlicht wurde, zeigen interne Tests von GPT-5 Fortschritte in Bereichen wie Programmierung, Mathematik und der Ausführung komplexer Anweisungen, einschließlich der Automatisierung von Kundendienst-Workflows. Der erwartete Sprung in der Leistungsfähigkeit ist jedoch erheblich kleiner als der substanzielle Sprung von GPT-3 (2020) zu GPT-4 (2023).

Quellen, die mit den Bewertungen vertraut sind, weisen darauf hin, dass GPT-5 benutzerfreundlichere Anwendungen ermöglichen und eine verbesserte Verwaltung seiner Rechenressourcen demonstrieren wird. Trotz dieser Fortschritte werden die Gesamtverbesserungen als inkrementell beschrieben.

Dieses beobachtete Plateau stimmt mit Vorhersagen prominenter KI-Persönlichkeiten überein. Microsoft-Mitbegründer Bill Gates prognostizierte dies bereits Ende 2023, und LLM-Kritiker wie Gary Marcus, der ehemalige OpenAI-Chefentwickler Ilya Sutskever und Yann LeCun von Meta haben wiederholt behauptet, dass die Transformer-basierte Architektur, die den meisten aktuellen großen Sprachmodellen zugrunde liegt, ihre Grenzen erreicht.

Ein vielsagendes Beispiel für diese Herausforderungen ist OpenAIs internes Modell „Orion“. Ursprünglich als direkter Nachfolger von GPT-4o entwickelt, konnte Orion die erwarteten Gewinne nicht liefern. Es wurde daraufhin Anfang 2025 als GPT-4.5 veröffentlicht, anstatt die GPT-5-Bezeichnung zu erhalten. GPT-4.5 hatte Berichten zufolge kaum Auswirkungen, lief langsamer und kostete mehr als GPT-4o und geriet schnell in Vergessenheit. Ein Kernproblem war laut The Information, dass die für kleinere Modelle funktionierenden Vortrainingsmodifikationen nicht effektiv auf größere Modelle skaliert werden konnten. Gleichzeitig sah sich OpenAI mit einem schwindenden Angebot an hochwertigen Webdaten für das Training konfrontiert. Noch im Juni 2025 wurde keines der in Entwicklung befindlichen OpenAI-Modelle als stark genug angesehen, um den Namen GPT-5 zu tragen.

Diese Herausforderung ist nicht exklusiv für OpenAI. Anthropic’s jüngste Claude 4-Modelle lieferten ebenfalls nur bescheidene Gesamtverbesserungen, abgesehen von einem bemerkenswerten Schub bei der Code-Performance. Anthropic verwendet bereits eine hybride Architektur, die ein großes Sprachmodell mit spezialisierten Schlussfolgerungskomponenten kombiniert, ähnlich wie OpenAI dies möglicherweise auch für GPT-5 übernehmen wird.

Neben seinen Hauptmodellen zur Generierung hat OpenAI auch „große Schlussfolgerungsmodelle“ (LRMs) entwickelt. Diese Modelle neigen dazu, bei komplexen Aufgaben besser abzuschneiden, wenn ihnen mehr Rechenleistung zugewiesen wird, und könnten zu wertvollen Werkzeugen für Mathematik, Websuche und Programmierung werden – oder sogar völlig neue Richtungen für Sprachmodelle aufzeigen. Es bleiben jedoch offene Fragen hinsichtlich ihrer Generalisierbarkeit und ihres Energiebedarfs.

Ein signifikanter Durchbruch in diesem Bereich für OpenAI war das Q*-Modell Ende 2023, das Berichten zufolge mathematische Probleme löste, die es zuvor noch nicht gesehen hatte. Darauf aufbauend entwickelte OpenAI die Modelle o1 und o3, beide basierend auf GPT-4o und für spezialisierte Anwendungen konzipiert. Sowohl o1 als auch o3 wurden mittels Reinforcement Learning (RL) trainiert, wobei das „Lehrmodell“ o3 deutlich mehr Rechenleistung und direkten Zugriff auf Web- und Codequellen erhielt. Während des RL-Trainings generiert das Modell Antworten auf Fragen auf Expertenniveau und verbessert sich selbst, indem es seine Antworten mit menschlichen Lösungen vergleicht.

Als diese Modelle jedoch für den Chat angepasst wurden, verlor o3 Berichten zufolge einen Teil seiner Fähigkeiten. Wie eine Quelle The Information mitteilte, musste die Chat-Version „vereinfacht“ werden, da sie nicht ausreichend für echte Konversationen trainiert war, was die Leistung sowohl im Chat als auch in API-Einstellungen beeinträchtigte. Dieses Problem wurde im April durch den ARC-AGI-Benchmark hervorgehoben, bei dem die öffentliche o3-Version bei einem schwierigen Rätseltest schlechter abschnitt als das interne Basismodell, was zeigte, dass viele ursprüngliche Schlussfolgerungsfähigkeiten den Übergang zum Chat nicht überlebten.

Das o3-pro-Modell verdeutlicht dieses empfindliche Gleichgewicht zusätzlich. Während Experten o3-pro für wissenschaftliche, Programmier- und Geschäftsaufgaben hoch bewerteten, hatte es Schwierigkeiten bei einfachen Alltagsaufgaben. Das Beantworten von „Hallo, ich bin Sam Altman“ dauerte beispielsweise mehrere Minuten und verursachte Rechenkosten von 80 US-Dollar für eine triviale Antwort – ein Paradebeispiel für Overthinking. GPT-5 zielt darauf ab, ein Gleichgewicht zwischen spezialisierter Schlussfolgerungsleistung und praktischer Konversationsnutzung zu finden.

Trotz dieser technischen Hürden soll GPT-5 den Fortschritt in „agentischen“ Systemen vorantreiben – Anwendungen, bei denen eine KI mehrere Schritte eigenständig ausführen kann. Das neue Modell soll in der Lage sein, komplexe Anweisungen effizienter und mit weniger menschlicher Aufsicht zu befolgen. GPT-5 soll auch GPT-4o in der Leistungsfähigkeit übertreffen, ohne wesentlich mehr Rechenleistung zu verbrauchen. Interne Tests zeigen, dass es besser darin ist, einzuschätzen, welche Aufgaben mehr oder weniger Rechenleistung benötigen, was Prozesse effizienter machen und die Art des „Overthinking“, wie sie bei Modellen wie o3-pro zu beobachten ist, vermeiden könnte.

Für OpenAI könnten selbst bescheidene Verbesserungen in GPT-5 ausreichen, um Kunden und Investoren bei der Stange zu halten. Das Unternehmen wächst trotz hoher Betriebskosten weiterhin schnell. Im wettbewerbsintensiven Bereich der codebezogenen KI, in dem Anthropic derzeit mit seinen Claude-Modellen führend ist, hofft OpenAI, mit GPT-5 wieder Boden gutzumachen.

OpenAI nutzt zunehmend Reinforcement Learning, insbesondere einen „universellen Verifizierer“, der die Qualität der Modellantworten automatisch bewertet – selbst für subjektive Aufgaben wie kreatives Schreiben. Dieser universelle Verifizierer wurde auch in dem OpenAI-Modell verwendet, das kürzlich Gold bei der Internationalen Mathematik-Olympiade gewann. OpenAI-Forscher Jerry Tworek hat angedeutet, dass dieses RL-System die Grundlage für allgemeine künstliche Intelligenz (AGI) bilden könnte.

GPT-5: Leaks – Bescheidenes Upgrade, kein OpenAI-Durchbruch

Ähnliche Artikel

GPT-5 naht: OpenAIs AGI-Durchbruch steht bevor?

US-China KI-Showdown: Wettlauf um globale Dominanz verschärft sich

OpenAI strebt 500 Mrd. $ Bewertung an, übertrifft SpaceX