OpenAI enthüllt GPT-5: Vereinte KI mit adaptivem Denken für komplexe Aufgaben
OpenAI hat offiziell GPT-5 vorgestellt und führt damit ein, was es als einheitliches KI-System beschreibt, das für adaptives Denken bei komplexen Aufgaben konzipiert ist. Aufbauend auf den grundlegenden Fortschritten seiner Vorgänger konsolidiert diese neue Architektur frühere Modelllinien, wodurch das System seinen rechnerischen „Denkaufwand“ dynamisch an die Komplexität jeder gegebenen Abfrage anpassen kann – eine Designwahl, die darauf abzielt, zuverlässigere und genauere Antworten zu liefern.
Der Zugang zu GPT-5 wird gestaffelt sein, was eine bedeutende Veränderung für kostenlose Benutzer darstellt, die zum ersten Mal mit einem speziell für logisches Denken entwickelten Modell experimentieren können. Zahlende Abonnenten hingegen profitieren von höheren Nutzungslimits und einer Reihe exklusiver Funktionen. Der Kern von GPT-5 ist kein einzelnes monolithisches Modell, sondern ein integriertes System. Es nutzt gpt-5-main
, ein schnelles und effizientes Modell für die meisten Routineanfragen, während für komplizierte Probleme ein tiefergehendes Denkmodell, gpt-5-thinking
, aufgerufen wird. Ein ausgeklügelter Echtzeit-Router, der kontinuierlich durch Benutzerfeedback verfeinert wird, wählt intelligent das passende Modell basierend auf Faktoren wie der Schwierigkeit der Frage, dem Konversationskontext oder sogar expliziten Benutzeranweisungen wie „denk sorgfältig darüber nach“. Für „Pro“-Abonnenten bietet OpenAI GPT-5 Pro an, eine Variante, die noch mehr Verarbeitungszeit dem Denken durch herausfordernde Fragen widmet, wobei externe Evaluatoren sie Berichten zufolge in fast 68 Prozent der schwierigen Szenarien gpt-5-thinking
vorziehen.
OpenAI behauptet, dass GPT-5 neue Maßstäbe in verschiedenen Bereichen setzt, darunter Programmierung, Gesundheitswesen und Schreiben. Im Bereich der Codierung wird das Modell für seine außergewöhnliche Fähigkeit gelobt, komplexe Frontend-Oberflächen zu erstellen und umfangreiche Codebasen zu debuggen, wobei es eine Punktzahl von 74.9 Prozent auf SWE-bench Verified und 88 Prozent auf Aider Polyglot erreicht und die Fehlerraten im Vergleich zu früheren Iterationen um zwei Drittel reduziert. Bei gesundheitsbezogenen Anfragen zielt GPT-5 darauf ab, präzisere Antworten zu liefern, indem es als „aktiver Denkpartner“ fungiert, der in der Lage ist, Folgefragen zu stellen. Es erzielte 46.2 Prozent im anspruchsvollen HealthBench Hard-Test, eine Steigerung gegenüber den 31.6 Prozent seines Vorgängers, obwohl OpenAI betont, dass es kein Ersatz für medizinisches Fachpersonal ist. Weitere Leistungssteigerungen zeigen sich in anderen Benchmarks, wobei GPT-5 94.6 Prozent auf AIME 2025 (Mathematik, ohne Werkzeuge) und 84.2 Prozent auf MMMU (multimodales Verständnis) erreichte. Das Premium-Modell GPT-5 Pro erreichte Berichten zufolge eine Punktzahl von 88.4 Prozent auf dem GPQA-Benchmark für hochschwierige wissenschaftliche Fragen.
Ein zentrales Versprechen von GPT-5 liegt in der erheblichen Reduzierung von „Halluzinationen“ – der Generierung von faktisch falschen oder unsinnigen Informationen. Mit aktivierten Websuchfunktionen gibt OpenAI an, dass das Modell etwa 45 Prozent weniger anfällig für faktische Fehler ist als GPT-4o. Im reinen „Denkmodus“ sinkt die Fehlerrate im Vergleich zu seinem Vorgänger um beeindruckende 80 Prozent. Bei offenen, faktenbasierten Benchmarks wie LongFact und FActScore produzierte GPT-5 etwa sechsmal weniger Halluzinationen. Selbst ohne aktuelle Webdaten liegen die durchschnittlichen Halluzinationsraten von GPT-5 im „Denkmodus“ zwischen 0.8 und 1.4 Prozent auf LongFact-Concepts, LongFact-Objects und FActScore, eine dramatische Verbesserung gegenüber den 24 bis 38 Prozent, die bei früheren Modellen beobachtet wurden, was bedeutet, dass über fünfmal weniger faktische Fehler auftreten. Das Modell ist auch darauf ausgelegt, größere Transparenz bezüglich seiner eigenen Einschränkungen zu bieten. In einem Test, bei dem Fragen zu nicht existierenden Bildern auf dem CharXiv-Benchmark gestellt wurden, lieferte GPT-5 nur in 9 Prozent der Fälle selbstsichere, erfundene Antworten, ein starker Kontrast zu den 86.7 Prozent seines Vorgängers. Insgesamt sank die Täuschungsrate in repräsentativen Gesprächen Berichten zufolge von 4.8 Prozent auf 2.1 Prozent mit GPT-5.
GPT-5 führt „Safe Completions“ ein, ein neuartiges Sicherheitsparadigma, das in einem begleitenden Forschungsbericht detailliert beschrieben wird. Dieses System ersetzt die frühere „harte Ablehnungsmethode“, die OpenAI als zu unflexibel ansah, insbesondere bei mehrdeutigen oder doppelt nutzbaren Themen, bei denen Informationen sowohl für nützliche als auch für schädliche Zwecke verwendet werden könnten. Anstatt Anfragen direkt zu blockieren, priorisiert GPT-5 die Sicherheit der Ausgabe, anstatt nur die Benutzerabsicht zu beurteilen. Das Modell bemüht sich, die hilfreichste Antwort innerhalb vordefinierter Sicherheitsrichtlinien zu geben, was eine allgemeine Übersicht, eine Teillösung oder eine alternative Perspektive umfassen könnte. Menschliche Evaluatoren befanden diesen Ansatz Berichten zufolge als sicherer, hilfreicher und ausgewogener. Übereinstimmend damit wurde GPT-5-thinking unter OpenAIs Preparedness Framework für Biologie und Chemie als „hochleistungsfähig“ eingestuft, nach über 5.000 Stunden rigorosen Red Teamings, das von Partnern wie CAISI (USA) und UK AISI durchgeführt wurde.
Neben seinen Kernfähigkeiten bringt GPT-5 mehrere neue Funktionen in seine API ein, die Entwicklern eine verbesserte Kontrolle über den Denkaufwand und die Ausführlichkeit des Modells bieten. „Custom Tools“ können jetzt mit einfachem Text anstelle von striktem JSON aufgerufen werden, was voraussichtlich Fehler bei komplexen Eingaben minimiert. Das Kontextfenster wurde erheblich erweitert, um 272.000 Eingabe-Tokens und 128.000 Ausgabe-Tokens aufzunehmen. Die API bietet nun drei verschiedene Modellgrößen: gpt-5
, gpt-5-mini
und gpt-5-nano
, wobei gpt-5
als die leistungsstärkste „Denk“-Variante ausgewiesen ist, zum Preis von 1.25 $ pro Million Eingabe-Tokens und 10 $ pro Million Ausgabe-Tokens.
Die ChatGPT-Benutzeroberfläche erhält ebenfalls Updates. Das neue Modell ist so konzipiert, dass es deutlich weniger „schmeichlerisch“ ist, wobei dieses Verhalten in Tests Berichten zufolge von 14.5 Prozent auf unter 6 Prozent sank. Benutzer erhalten die Möglichkeit, das visuelle Erscheinungsbild ihrer Chats anzupassen und als Forschungsvorschau aus vier voreingestellten Persönlichkeiten wie „Zyniker“ oder „Nerd“ zu wählen. Die Einführung von GPT-5 beginnt sofort und wird zum neuen Standardmodell für Team-, Unternehmens- und Bildungskunden, während Plus-Abonnenten höhere Nutzungslimits erhalten und Pro-Benutzer unbegrenzten Zugang zu GPT-5 und exklusiven Zugang zu GPT-5 Pro erhalten.