OpenAI GPT-5 enthüllt: Experten-KI, Funktionen & erste Reaktionen

Gradientflow

OpenAI hat GPT-5 enthüllt und positioniert sein neuestes großes Sprachmodell als ein „Experten-Level“-Grundlagensystem, das die KI-Interaktion mit komplexen Aufgaben neu definieren soll. Als eine vereinheitlichte Architektur angepriesen, die Anfragen intelligent an spezialisierte Submodelle basierend auf der Komplexität weiterleitet, verspricht GPT-5 „PhD-Kaliber“-Antworten für anspruchsvolle Probleme, während es gleichzeitig eine geringe Latenz für einfachere Anfragen beibehält. Dies markiert eine bedeutende Verschiebung gegenüber früheren Modellen, bei denen Benutzer manuell zwischen Geschwindigkeit und Tiefe wählen mussten, und die Ankündigung hat eine Mischung aus Begeisterung und Skepsis hervorgerufen.

Im Kern der Fortschritte von GPT-5 stehen robuste Leistungssteigerungen, insbesondere beim Codieren und der faktischen Genauigkeit. Auf dem realen Software-Engineering-Benchmark SWE-bench Verified erreichte GPT-5 74,9 %, eine bemerkenswerte Verbesserung gegenüber den 69,1 % seines Vorgängers o3, und erzielte 88 % bei Aider Polyglot für mehrsprachiges Codieren. Dies ermöglicht es dem Modell, vollständige Full-Stack-Anwendungen aus einzelnen Prompts zu erstellen, alles von der Abhängigkeitsinstallation bis zu Live-UI-Vorschauen zu handhaben und sich bei der komplexen Frontend-Generierung auszuzeichnen. Entscheidend ist, dass GPT-5 Halluzinationen dramatisch reduziert. In Kombination mit der Websuche enthalten seine Antworten etwa 45 % seltener faktische Fehler als GPT-4o, eine Zahl, die im dedizierten Reasoning-Modus im Vergleich zu OpenAI o3 auf 80 % sinkt. Praktische Tests unterstreichen dies: Bei offenen, faktensuchenden Prompts zeigte GPT-5 sechsmal weniger Halluzinationen, und wenn Bilder fehlten, gab es nur in 9 % der Fälle selbstbewusste, falsche Antworten, ein starker Kontrast zu o3s 86,7 %.

Über Text hinaus verschiebt GPT-5 multimodale Grenzen und erreicht einen neuen State-of-the-Art von 84,2 % auf dem MMMU-Benchmark für visuelles Reasoning. Es kann Bilder, Diagramme und Schemata mit hoher Genauigkeit interpretieren, Frontend-Assets generieren oder bearbeiten, SVG-Animationen erstellen und sogar 3D-Spiele im Handumdrehen entwickeln. Die ChatGPT-Sprachschnittstelle verfügt nun über einen menschlich-natürlichen Klang, interpretiert Kamera-Feeds und passt ihren Antwortstil dynamisch an. Für Entwickler führt die API kritische Parameter wie reasoning_effort zum Abwägen von Latenz gegen Tiefe und verbosity zur Steuerung der Ausgabekürze ein. Benutzerdefinierte Tools unterstützen jetzt die Eingabe von Reintext, wodurch JSON umgangen wird, und das Kontextfenster wurde auf 400K Tokens erweitert, die doppelte Kapazität von GPT-4, wodurch es effektiv für die Synthese umfangreicher Dokumente ist.

GPT-5 wurde speziell als kollaborativer KI-Teamkollege trainiert, der Autonomie, Kommunikation und Kontextmanagement zeigt. Es liefert im Voraus Pläne, bietet Fortschrittsaktualisierungen, führt automatisch Tests durch und kann sich sogar durch iteratives Building selbst debuggen. Seine Fähigkeit, den Kontext über längere Ketten von Tool-Aufrufen hinweg aufrechtzuerhalten, wird durch eine Punktzahl von 70 % auf Scales Multi-Challenge-Benchmark belegt, was Cursor dazu veranlasste, GPT-5 als Standard zu übernehmen. Frühe Unternehmenskunden haben bereits überzeugende Anwendungsfälle identifiziert: Amgen nutzt es für tiefgreifendes Reasoning mit komplexen wissenschaftlichen Daten, BBVA hat gesehen, wie Finanzanalyseaufgaben von Wochen auf Stunden schrumpften, und Oscar Health nutzt es für klinisches Reasoning, insbesondere zur Abbildung komplexer medizinischer Richtlinien. Die US-Bundesregierung plant, zwei Millionen Mitarbeitern Zugang zu gewähren.

OpenAI hat die Preisgestaltung von GPT-5 mit gestuften Modellen strukturiert. Das vollständige GPT-5 kostet 1,25 $ pro Million Eingabe-Tokens und 10,00 $ pro Million Ausgabe-Tokens und dient als Standard für ChatGPT und die API. Ein sparsameres GPT-5 Mini ist verfügbar, zusammen mit dem hochoptimierten GPT-5 Nano, das für Edge- und latenzkritische Anwendungen entwickelt wurde und etwa 25-mal billiger ist. Der Zugang ist gestuft, wobei kostenlose Benutzer mit GPT-5 beginnen, bevor sie zu Mini wechseln; Plus- und Pro-Abonnenten erhalten schrittweise höhere oder unbegrenzte Nutzungslimits. Team-, Enterprise- und EDU-Konten erhalten großzügigen Standardzugang, und alle verifizierten Organisationen erhalten sofortigen API-Zugang.

Im Bereich Sicherheit führt GPT-5 einen „Safe Completions“-Ansatz ein, der über die vollständige Ablehnung sensibler Anfragen hinausgeht. Es zielt darauf ab, die Hilfsbereitschaft innerhalb der Sicherheitsgrenzen zu maximieren, indem es Teilaussagen anbietet oder Einschränkungen erklärt, insbesondere für „Dual-Use“-Domänen, wodurch unnötiger Boilerplate-Text reduziert wird. Trotz dieser Fortschritte sind die frühen Reaktionen gemischt. Während seine verbesserte Codierung, Halluzinationsreduktion, API-Verfeinerungen und die gemeldeten Zeiteinsparungen Lob erhielten, betrachten einige Beobachter GPT-5 eher als ein inkrementelles „GPT-4.5“ denn als einen revolutionären Sprung. Es wurden Bedenken hinsichtlich des „Vibechartings“ in Benchmark-Präsentationen geäußert – der visuellen Übertreibung kleiner Gewinne, wie einer bloßen Verbesserung von 0,4 % auf SWE-bench gegenüber dem State-of-the-Art. Technische Fehler in Demos, wie eine falsche Erklärung des Bernoulli-Effekts, haben die Skepsis gegenüber seiner „PhD-Level“-Intelligenz genährt. Darüber hinaus bestehen Fragen, ob GPT-5 wirklich ein einheitliches Modell oder eine clevere Orchestrierung ist, was seine Vorteile für latenzkritische Anwendungen möglicherweise einschränken könnte.