Clarifai: NVIDIA B200 schlägt H100 bei GPT-OSS Benchmarks
Die Landschaft der künstlichen Intelligenz entwickelt sich rasant weiter, wobei neue Open-Weight-Modelle und Hardware-Innovationen die Grenzen des Möglichen verschieben. Jüngste Erkenntnisse von Clarifai heben bedeutende Fortschritte hervor, insbesondere im Bereich der Leistung großer Sprachmodelle (LLM) auf modernster Hardware, zusammen mit erweiterten Tools für Entwickler.
Im Vordergrund dieser Entwicklungen stehen die neu veröffentlichten GPT-OSS-120b- und GPT-OSS-20b-Modelle von OpenAI, eine Generation von Open-Weight-Reasoning-Modellen, die unter der Apache 2.0-Lizenz verfügbar gemacht wurden. Diese Modelle wurden für eine robuste Befolgung von Anweisungen, eine leistungsstarke Tool-Integration und fortschrittliche Reasoning-Fähigkeiten entwickelt und sind bereit, die nächste Welle KI-gesteuerter automatisierter Prozesse voranzutreiben. Ihre Architektur verfügt über ein Mixture of Experts (MoE)-Design und eine erweiterte Kontextlänge von 131.000 Token. Bemerkenswert ist, dass das 120 Milliarden Parameter umfassende Modell dank fortschrittlicher Quantisierungstechniken effizient auf einer einzigen 80-GB-GPU betrieben werden kann, wodurch ein Gleichgewicht zwischen massivem Umfang und praktischer Bereitstellung erreicht wird. Entwickler gewinnen an Flexibilität, können Reasoning-Levels feinabstimmen, um Geschwindigkeit, Kosten oder Genauigkeit zu optimieren, und integrierte Funktionen wie Web-Browsing, Code-Ausführung und benutzerdefinierte Tool-Integration für komplexe Aufgaben nutzen.
Das Forschungsteam von Clarifai hat das GPT-OSS-120b-Modell kürzlich auf NVIDIA B200- und H100-GPUs strengen Benchmarking-Tests unterzogen, wobei ausgeklügelte Inferenz-Frameworks wie vLLM, SGLang und TensorRT-LLM zum Einsatz kamen. Die Tests umfassten sowohl Einzelanforderungsszenarien als auch Workloads mit hoher Parallelität, die Umgebungen mit 50 bis 100 gleichzeitigen Anforderungen simulierten. Die Ergebnisse unterstreichen das transformative Potenzial der B200-Architektur. In Einzelanforderungsszenarien erreichte die B200, in Kombination mit TensorRT-LLM, eine bemerkenswerte Time-to-First-Token (TTFT) von nur 0,023 Sekunden und übertraf in mehreren Fällen Dual-H100-Setups. Für Anforderungen mit hoher Parallelität zeigte die B200 einen überlegenen nachhaltigen Durchsatz, indem sie bei maximaler Last 7.236 Token pro Sekunde beibehielt und gleichzeitig die Latenz pro Token reduzierte. Diese Ergebnisse deuten darauf hin, dass eine einzige B200-GPU die Leistung von zwei H100s erreichen oder übertreffen kann, während sie gleichzeitig einen geringeren Stromverbrauch und eine vereinfachte Infrastruktur bietet. Einige Workloads verzeichneten sogar eine bis zu 15-fache Steigerung der Inferenzgeschwindigkeit im Vergleich zu einer einzelnen H100. Während GPT-OSS-Modelle derzeit über Clarifai in mehreren Cloud-Umgebungen auf H100s bereitgestellt werden können, wird die Unterstützung für B200s bald erwartet, was den Zugang zu NVIDIAs neuester GPU-Technologie sowohl für Tests als auch für die Produktion verspricht.
Über die Hardware-Optimierung hinaus verbessert Clarifai seine Plattform für Entwickler. Die Funktion “Local Runners”, die es Benutzern ermöglicht, Open-Source-Modelle auf ihrer eigenen Hardware auszuführen, während sie weiterhin die Clarifai-Plattform nutzen, hat eine signifikante Akzeptanz gefunden. Diese Funktion erstreckt sich nun auch auf die neuesten GPT-OSS-Modelle, einschließlich GPT-OSS-20b, und ermöglicht Entwicklern die volle Kontrolle über ihre Rechenressourcen für lokale Tests und die sofortige Bereitstellung von Agenten-Workflows. Um dies weiter zu erleichtern, hat Clarifai einen neuen Developer Plan zu einem Aktionspreis von nur 1 US-Dollar pro Monat eingeführt. Dieser Plan erweitert den bestehenden Community Plan, indem er die Verbindung von bis zu fünf Local Runners ermöglicht und unbegrenzte Runner-Stunden bietet.
Clarifai hat auch seine Modellbibliothek erheblich erweitert, wodurch eine vielfältige Auswahl an Open-Weight- und spezialisierten Modellen für verschiedene Workflows leicht zugänglich ist. Zu den neuesten Ergänzungen gehören: der GPT-OSS-120b, der für starkes Reasoning und effiziente On-Device-Bereitstellung konzipiert ist; der GPT-5, GPT-5 Mini und GPT-5 Nano, die anspruchsvolle Reasoning-Aufgaben, Echtzeitanwendungen bzw. Edge-Bereitstellungen mit extrem niedriger Latenz bedienen; und Qwen3-Coder-30B-A3B-Instruct, ein hocheffizientes Codierungsmodell mit robusten Agenten-Fähigkeiten, das sich für die Codegenerierung und Entwicklungsautomatisierung eignet. Diese Modelle sind über den Clarifai Playground oder per API für die Integration in benutzerdefinierte Anwendungen zugänglich.
Um die lokale Modellbereitstellung weiter zu optimieren, hat Clarifai die Unterstützung für Ollama integriert, ein beliebtes Tool zum direkten Ausführen von Open-Source-Modellen auf persönlichen Maschinen. Diese Integration ermöglicht es Local Runners, lokal gehostete Ollama-Modelle über eine sichere öffentliche API verfügbar zu machen, und ein neues Ollama-Toolkit innerhalb der Clarifai CLI vereinfacht den Prozess des Herunterladens, Ausführens und Verfügbarmachens dieser Modelle mit einem einzigen Befehl.
Auch im Clarifai Playground wurden Verbesserungen der Benutzerfreundlichkeit eingeführt, einschließlich der Möglichkeit, mehrere Modelle nebeneinander zu vergleichen. Diese Funktion ermöglicht es Entwicklern, Unterschiede in Ausgabe, Geschwindigkeit und Qualität schnell zu erkennen, was die optimale Modellauswahl erleichtert. Verbesserte Inferenzkontrollen, Pythonic-Unterstützung und Modellversionswähler verfeinern den Experimentierprozess weiter. Zusätzliche Plattform-Updates umfassen Verbesserungen am Python SDK für besseres Logging und Pipeline-Handling, eine verfeinerte Token-basierte Abrechnung und eine verbesserte Transparenz der Workflow-Preise, sowie Verbesserungen an Clarifai Organizations für eine bessere Benutzerverwaltung.
Durch seine Compute-Orchestrierungsfähigkeiten ermöglicht Clarifai die Bereitstellung fortschrittlicher Modelle wie GPT-OSS und Qwen3-Coder auf dedizierten GPUs, sei es On-Premises oder in der Cloud. Dies bietet Entwicklern eine granulare Kontrolle über Leistung, Kosten und Sicherheit für das Bereitstellen von Modellen, Multi-Cloud-Plattform (MCP)-Servern oder vollständige Agenten-Workflows direkt von ihrer Hardware.