Clarifai compare GPT-OSS : NVIDIA B200 surpasse H100
Le paysage de l’intelligence artificielle poursuit son évolution rapide, avec de nouveaux modèles à poids ouverts et des innovations matérielles repoussant les limites du possible. Les récentes découvertes de Clarifai mettent en lumière des avancées significatives, notamment en ce qui concerne les performances des grands modèles linguistiques (LLM) sur du matériel de pointe, parallèlement à des outils étendus pour les développeurs.
Au premier plan de ces développements se trouvent les modèles GPT-OSS-120b et GPT-OSS-20b récemment publiés par OpenAI, une génération de modèles de raisonnement à poids ouverts mis à disposition sous la licence Apache 2.0. Conçus pour une exécution robuste des instructions, une intégration puissante d’outils et des capacités de raisonnement avancées, ces modèles sont prêts à propulser la prochaine vague de processus automatisés basés sur l’IA. Leur architecture présente une conception de mélange d’experts (MoE) et une longueur de contexte étendue de 131 000 tokens. Notamment, le modèle de 120 milliards de paramètres peut fonctionner efficacement sur un seul GPU de 80 Go, grâce à des techniques de quantification avancées, équilibrant une échelle massive avec un déploiement pratique. Les développeurs gagnent en flexibilité, pouvant affiner les niveaux de raisonnement pour optimiser la vitesse, le coût ou la précision, et exploiter des fonctionnalités intégrées comme la navigation web, l’exécution de code et l’intégration d’outils personnalisés pour des tâches complexes.
L’équipe de recherche de Clarifai a récemment soumis le modèle GPT-OSS-120b à des tests de performance rigoureux sur des GPU NVIDIA B200 et H100, en utilisant des frameworks d’inférence sophistiqués tels que vLLM, SGLang et TensorRT-LLM. Les tests ont couvert des scénarios à une seule requête et des charges de travail à haute concurrence, simulant des environnements avec 50 à 100 requêtes simultanées. Les résultats soulignent le potentiel transformateur de l’architecture B200. Dans les scénarios à une seule requête, le B200, lorsqu’il est associé à TensorRT-LLM, a atteint un temps remarquable jusqu’au premier token (TTFT) de seulement 0,023 seconde, surpassant les configurations à double H100 dans plusieurs cas. Pour les demandes à haute concurrence, le B200 a démontré un débit soutenu supérieur, maintenant 7 236 tokens par seconde à charge maximale avec une latence par token réduite. Ces découvertes suggèrent qu’un seul GPU B200 peut égaler ou dépasser les performances de deux H100, tout en offrant simultanément une consommation d’énergie plus faible et une infrastructure simplifiée. Certaines charges de travail ont même vu une augmentation jusqu’à 15 fois de la vitesse d’inférence par rapport à un seul H100. Bien que les modèles GPT-OSS soient actuellement déployables sur les H100 via Clarifai dans plusieurs environnements cloud, le support des B200 est anticipé prochainement, promettant l’accès à la dernière technologie GPU de NVIDIA pour les tests et la production.
Au-delà de l’optimisation matérielle, Clarifai améliore sa plateforme pour les développeurs. La fonctionnalité “Local Runners”, qui permet aux utilisateurs d’exécuter des modèles open-source sur leur propre matériel tout en exploitant la plateforme Clarifai, a connu une adoption significative. Cette capacité s’étend désormais aux derniers modèles GPT-OSS, y compris GPT-OSS-20b, offrant aux développeurs un contrôle total sur leurs ressources de calcul pour les tests locaux et le déploiement instantané de workflows d’agents. Pour faciliter cela davantage, Clarifai a introduit un nouveau Plan Développeur à un prix promotionnel de seulement 1 $ par mois. Ce plan élargit le Plan Communautaire existant en permettant la connexion de jusqu’à cinq Local Runners et en offrant des heures de fonctionnement illimitées.
Clarifai a également considérablement étendu sa bibliothèque de modèles, rendant une gamme diversifiée de modèles à poids ouverts et spécialisés facilement disponibles pour divers workflows. Parmi les dernières additions figurent : le GPT-OSS-120b, conçu pour un raisonnement fort et un déploiement efficace sur l’appareil ; les GPT-5, GPT-5 Mini et GPT-5 Nano, qui répondent respectivement aux tâches de raisonnement exigeantes, aux applications en temps réel et aux déploiements en périphérie à très faible latence ; et Qwen3-Coder-30B-A3B-Instruct, un modèle de codage à haute efficacité avec des capacités d’agent robustes, adapté à la génération de code et à l’automatisation du développement. Ces modèles sont accessibles via le Clarifai Playground ou via API pour l’intégration dans des applications personnalisées.
Pour simplifier davantage le déploiement de modèles locaux, Clarifai a intégré le support d’Ollama, un outil populaire pour exécuter des modèles open-source directement sur des machines personnelles. Cette intégration permet aux Local Runners d’exposer les modèles Ollama hébergés localement via une API publique sécurisée, et un nouveau kit d’outils Ollama au sein de la CLI Clarifai simplifie le processus de téléchargement, d’exécution et d’exposition de ces modèles avec une seule commande.
Des améliorations de l’expérience utilisateur ont également été déployées dans le Clarifai Playground, y compris la possibilité de comparer plusieurs modèles côte à côte. Cette fonctionnalité permet aux développeurs de discerner rapidement les différences de sortie, de vitesse et de qualité, facilitant ainsi la sélection optimale du modèle. Des contrôles d’inférence améliorés, un support Pythonic et des sélecteurs de version de modèle affinent davantage le processus d’expérimentation. Les mises à jour supplémentaires de la plateforme incluent des améliorations au SDK Python pour une meilleure journalisation et gestion des pipelines, une facturation basée sur les tokens affinée, et une visibilité accrue des prix des workflows, ainsi que des améliorations aux Organisations Clarifai pour une meilleure gestion des utilisateurs.
Grâce à ses capacités d’Orchestration de Calcul, Clarifai permet le déploiement de modèles avancés comme GPT-OSS et Qwen3-Coder sur des GPU dédiés, que ce soit sur site ou dans le cloud. Cela offre aux développeurs un contrôle granulaire sur les performances, les coûts et la sécurité pour le service de modèles, les serveurs de plateforme multi-cloud (MCP) ou des workflows d’agents complets directement depuis leur matériel.