OpenAI GPT-OSS: Neue Open-Weight-Modelle fordern Rivalen heraus

Clarifai

OpenAI hat GPT-OSS-120b und GPT-OSS-20b vorgestellt, eine neue Serie von Open-Weight-Schlussfolgerungsmodellen, die unter der permissiven Apache 2.0 Lizenz veröffentlicht wurden. Diese reinen Textmodelle sind für robuste Befolgung von Anweisungen, den anspruchsvollen Einsatz von Werkzeugen und starke Schlussfolgerungsfähigkeiten konzipiert, was sie zu idealen Kandidaten für die Integration in fortschrittliche Agenten-Workflows macht. Diese Veröffentlichung unterstreicht OpenAIs anhaltendes Engagement zur Förderung von Innovation und kollaborativer Sicherheit innerhalb der breiteren KI-Gemeinschaft.

Eine entscheidende Frage für Entwickler und Forscher ist, wie sich diese neuen Modelle im schnell entwickelnden Open- und Semi-Open-Weight-Ökosystem gegen andere führende Konkurrenten behaupten. Um Klarheit zu schaffen, bietet ein detaillierter Vergleich von GPT-OSS mit Modellen wie GLM-4.5, Qwen3-Thinking, DeepSeek-R1 und Kimi K2 wertvolle Einblicke in deren jeweilige Stärken und Kompromisse.

Die GPT-OSS-Modelle bauen auf den grundlegenden Architekturen von GPT-2 und GPT-3 auf und integrieren insbesondere ein Mixture-of-Experts (MoE)-Design. Diese architektonische Wahl ist entscheidend für die Effizienz sowohl während des Trainings als auch während der Inferenz, da sie pro Token nur eine Teilmenge der Parameter aktiviert. Dies ermöglicht es den Modellen, die Skalierung sehr großer Systeme zu erreichen, während die Rechenkosten sorgfältig kontrolliert werden. Die Familie umfasst zwei Modelle: GPT-OSS-120b mit insgesamt 116,8 Milliarden Parametern und etwa 5,1 Milliarden aktiven Parametern pro Token über 36 Schichten, und GPT-OSS-20b mit insgesamt 20,9 Milliarden Parametern und 3,6 Milliarden aktiven Parametern pro Token über 24 Schichten. Beide Modelle teilen mehrere fortschrittliche Architekturelemente, darunter eine Reststromdimension von 2880, Grouped Query Attention mit 64 Abfrage-Heads und 8 Schlüssel-Wert-Heads sowie Rotationspositionseinbettungen für verbesserte kontextuelle Schlussfolgerungen. Sie verfügen auch über eine erweiterte Kontextlänge von 131.072 Tokens, die YaRN nutzt.

Um eine praktische Bereitstellung zu gewährleisten, hat OpenAI die MXFP4-Quantisierung auf die MoE-Gewichte angewendet. Diese innovative Technik ermöglicht es dem 120-Milliarden-Parameter-Modell, effizient auf einer einzelnen 80-GB-GPU zu arbeiten, während sein 20-Milliarden-Parameter-Geschwister auf Hardware mit nur 16 GB Speicher laufen kann, was die Zugänglichkeit erheblich erweitert. Ein weiteres bemerkenswertes Merkmal ist der „variable Schlussfolgerungsaufwand“, der es Entwicklern ermöglicht, über den System-Prompt „niedrige“, „mittlere“ oder „hohe“ Schlussfolgerungsstufen anzugeben. Dies passt dynamisch die Länge der Gedankenketten (CoT) an und bietet Flexibilität beim Ausgleich von Genauigkeit, Latenz und Rechenkosten. Darüber hinaus sind die Modelle mit integrierter Unterstützung für Agenten-Workflows trainiert, einschließlich eines Browsing-Tools für die Echtzeit-Websuche, eines Python-Tools für die zustandsbehaftete Code-Ausführung in einer Jupyter-ähnlichen Umgebung und Unterstützung für benutzerdefinierte Entwicklerfunktionen, was komplexe, verschachtelte Schlussfolgerungen und Benutzerinteraktionen erleichtert.

Das Open-Model-Ökosystem ist reich an beeindruckenden Konkurrenten, von denen jeder unterschiedliche Stärken besitzt. Ein Vergleich von GPT-OSS über verschiedene Benchmarks — Schlussfolgern, Codieren und Agenten-Workflows — bietet ein klareres Verständnis seiner Stellung.

Bei allgemeinen Wissens- und Schlussfolgerungsaufgaben zeigt GPT-OSS einige der höchsten Werte relativ zu seiner Größe. Auf MMLU-Pro erreicht GPT-OSS-120b beeindruckende 90,0 %, womit es GLM-4.5 (84,6 %), Qwen3-Thinking (84,4 %), DeepSeek-R1 (85,0 %) und Kimi K2 (81,1 %) übertrifft. Bei mathematischen Aufgaben im Wettbewerbsstil glänzt GPT-OSS wirklich und erreicht 96,6 % auf AIME 2024 und sogar 97,9 % auf AIME 2025 mit Werkzeugunterstützung, womit es alle anderen verglichenen Modelle übertrifft. Auf dem GPQA PhD-Level-Wissenschafts-Benchmark erzielt GPT-OSS-120b mit Tools 80,9 %, vergleichbar mit GLM-4.5 (79,1 %) und Qwen3-Thinking (81,1 %), und nur knapp unter DeepSeek-R1 (81,0 %). Diese Zahlen sind besonders bedeutsam angesichts des effizienten MoE-Designs von GPT-OSS-120b, bei dem pro Token nur 5,1 Milliarden Parameter aktiv sind. Im Gegensatz dazu sind GLM-4.5 und Qwen3-Thinking wesentlich größere dichte Modelle, was ihre starken Werkzeugnutzungs- und Codierungsergebnisse teilweise erklärt. DeepSeek-R1 tendiert ebenfalls zu höheren Parameterzahlen und tieferer Token-Nutzung für das Schlussfolgern, während Kimi K2 ein kleineres, spezialisierteres, auf Anweisungen abgestimmtes Modell ist. Diese Effizienz bedeutet, dass GPT-OSS Schlussfolgerungen auf Spitzenniveau mit einem geringeren aktiven Parameter-Fußabdruck liefert, was es zu einer kostengünstigen Wahl für tiefe Schlussfolgerungsaufgaben macht.

Wenn es um Codierung und Softwareentwicklung geht, bewerten moderne KI-Benchmarks die Fähigkeit eines Modells, große Codebasen zu verstehen, Änderungen zu implementieren und mehrstufige Schlussfolgerungen auszuführen. Auf SWE-bench Verified erzielt GPT-OSS-120b 62,4 %, knapp hinter GLM-4.5 (64,2 %) und DeepSeek-R1 (ungefähr 65,8 % im Agentenmodus). Auf Terminal-Bench führt GLM-4.5 mit 37,5 %, gefolgt von Kimi K2 mit etwa 30 %. GLM-4.5 zeigt auch eine starke Leistung bei direkten Agenten-Codierungsaufgaben und erzielt über 50 % Gewinnraten gegen Kimi K2 und über 80 % gegen Qwen3, während es eine hohe Erfolgsrate für werkzeugbasierte Codierungs-Workflows beibehält. Auch hier spielt die Modellgröße eine Rolle; GLM-4.5 ist ein viel größeres dichtes Modell als GPT-OSS-120b und Kimi K2, was ihm einen Vorteil beim Agenten-Codieren verschafft. Für Entwickler, die robuste Code-Bearbeitungsfähigkeiten in einem Modell suchen, das auf einer einzelnen 80-GB-GPU laufen kann, bietet GPT-OSS jedoch ein überzeugendes Gleichgewicht.

Agenten-Fähigkeiten – bei denen ein Modell autonom Werkzeuge aufruft, Funktionen ausführt und mehrstufige Aufgaben löst – werden immer wichtiger. Auf TAU-bench Retail erzielt GPT-OSS-120b 67,8 %, verglichen mit 79,7 % bei GLM-4.5 und 70,6 % bei Kimi K2. Für BFCL-v3, einen Funktionsaufruf-Benchmark, führt GLM-4.5 mit 77,8 %, gefolgt von Qwen3-Thinking mit 71,9 %, wobei GPT-OSS etwa 67–68 % erzielt. Diese Ergebnisse verdeutlichen einen häufigen Kompromiss: GLM-4.5 glänzt bei Funktionsaufrufen und Agenten-Workflows, ist aber ein deutlich größeres, ressourcenintensiveres Modell. GPT-OSS hingegen liefert wettbewerbsfähige Ergebnisse, bleibt aber für Entwickler zugänglich, die möglicherweise keinen Zugriff auf Multi-GPU-Cluster haben.

Zusammenfassend lässt sich sagen, dass die Landschaft der Open-Weight-Modelle vielfältige Stärken aufweist. GPT-OSS zeichnet sich durch seine Fähigkeit aus, Schlussfolgerungen auf Spitzenniveau und langformatige Gedankenketten-Fähigkeiten mit einem geringeren aktiven Parameter-Fußabdruck als viele dichte Modelle zu liefern. GLM-4.5, ein Schwergewichts-Dichtmodell, führt bei Agenten-Workflows und Funktionsaufrufen, erfordert aber erheblich mehr Rechenressourcen. DeepSeek-R1 und Qwen3 bieten starke hybride Schlussfolgerungsleistung in größerem Maßstab, während Kimi K2 spezialisierte Codierungs-Workflows mit einem kompakteren Setup anstrebt.

Dies macht GPT-OSS zu einem überzeugenden Angebot, das ein beeindruckendes Gleichgewicht zwischen Schlussfolgerungsleistung, Codierungsfähigkeit und Bereitstellungseffizienz herstellt. Es eignet sich hervorragend für Experimente, die nahtlose Integration in Agenten-Systeme und ressourcenschonende Produktions-Workloads.