OpenAI GPT-OSS : L'IA Open-Weight qui Redéfinit la Performance
OpenAI a dévoilé GPT-OSS-120b et GPT-OSS-20b, une nouvelle série de modèles de raisonnement open-weight publiés sous la licence permissive Apache 2.0. Ces modèles textuels uniquement sont conçus pour un suivi robuste des instructions, une utilisation sophistiquée des outils et de solides capacités de raisonnement, les positionnant comme des candidats de premier choix pour l’intégration dans des flux de travail agentiques avancés. Cette publication souligne l’engagement continu d’OpenAI à favoriser l’innovation et la sécurité collaborative au sein de la communauté de l’IA au sens large.
Une question cruciale pour les développeurs et les chercheurs est de savoir comment ces nouveaux modèles se mesurent aux autres concurrents majeurs dans l’écosystème en évolution rapide des modèles open-weight et semi-open-weight. Pour apporter de la clarté, une comparaison détaillée de GPT-OSS avec des modèles comme GLM-4.5, Qwen3-Thinking, DeepSeek-R1 et Kimi K2 offre des aperçus précieux sur leurs forces et compromis respectifs.
Les modèles GPT-OSS s’appuient sur les architectures fondamentales de GPT-2 et GPT-3, incorporant notamment une conception de Mixture-of-Experts (MoE). Ce choix architectural est essentiel pour l’efficacité, tant pendant l’entraînement que pendant l’inférence, car il n’active qu’un sous-ensemble de paramètres par token. Cela permet aux modèles d’atteindre l’échelle de systèmes très grands tout en contrôlant méticuleusement les coûts de calcul. La famille comprend deux modèles : GPT-OSS-120b, avec 116,8 milliards de paramètres au total et environ 5,1 milliards actifs par token sur 36 couches, et GPT-OSS-20b, qui a 20,9 milliards de paramètres au total avec 3,6 milliards actifs par token sur 24 couches. Les deux modèles partagent plusieurs éléments architecturaux avancés, y compris une dimension de flux résiduel de 2880, une Attention à Requête Groupée avec 64 têtes de requête et 8 têtes clé-valeur, et des intégrations de position rotatives pour un raisonnement contextuel amélioré. Ils bénéficient également d’une longueur de contexte étendue de 131 072 tokens, tirant parti de YaRN.
Pour assurer un déploiement pratique, OpenAI a appliqué la quantification MXFP4 aux poids MoE. Cette technique innovante permet au modèle de 120 milliards de paramètres de fonctionner efficacement sur une seule GPU de 80 Go, tandis que son homologue de 20 milliards de paramètres peut s’exécuter sur du matériel avec aussi peu que 16 Go de mémoire, élargissant considérablement l’accessibilité. Une autre caractéristique notable est “l’effort de raisonnement variable”, permettant aux développeurs de spécifier des niveaux de raisonnement “faible”, “moyen” ou “élevé” via le prompt système. Cela ajuste dynamiquement la longueur de la Chaîne de Pensée (CoT), offrant une flexibilité pour équilibrer la précision, la latence et le coût de calcul. De plus, les modèles sont entraînés avec un support intégré pour les flux de travail agentiques, y compris un outil de navigation pour la recherche web en temps réel, un outil Python pour l’exécution de code avec état dans un environnement de type Jupyter, et le support de fonctions développeur personnalisées, facilitant un raisonnement complexe et entrelacé et l’interaction utilisateur.
L’écosystème des modèles ouverts est riche en concurrents redoutables, chacun possédant des forces distinctes. Comparer GPT-OSS sur divers benchmarks — raisonnement, codage et flux de travail agentiques — fournit une compréhension plus claire de sa position.
Dans les tâches de connaissances générales et de raisonnement, GPT-OSS démontre certains des scores les plus élevés par rapport à sa taille. Sur MMLU-Pro, GPT-OSS-120b atteint un impressionnant 90,0 %, dépassant GLM-4.5 (84,6 %), Qwen3-Thinking (84,4 %), DeepSeek-R1 (85,0 %) et Kimi K2 (81,1 %). Pour les tâches mathématiques de type compétition, GPT-OSS brille vraiment, atteignant 96,6 % sur AIME 2024 et un encore plus élevé 97,9 % sur AIME 2025 avec l’aide d’outils, surpassant tous les autres modèles comparés. Sur le benchmark scientifique de niveau PhD GPQA, GPT-OSS-120b score 80,9 % avec des outils, comparable à GLM-4.5 (79,1 %) et Qwen3-Thinking (81,1 %), et juste en deçà de DeepSeek-R1 (81,0 %). Ces chiffres sont particulièrement significatifs étant donné la conception MoE efficace de GPT-OSS-120b, où seuls 5,1 milliards de paramètres sont actifs par token. En revanche, GLM-4.5 et Qwen3-Thinking sont des modèles denses considérablement plus grands, ce qui explique en partie leur forte utilisation d’outils et leurs résultats de codage. DeepSeek-R1 tend également vers des nombres de paramètres plus élevés et une utilisation plus profonde des tokens pour le raisonnement, tandis que Kimi K2 est un modèle plus petit et plus spécialisé, ajusté aux instructions. Cette efficacité signifie que GPT-OSS offre un raisonnement de niveau avancé avec une empreinte de paramètres actifs plus légère, ce qui en fait un choix rentable pour les tâches de raisonnement profond.
En ce qui concerne le codage et l’ingénierie logicielle, les benchmarks d’IA modernes évaluent la capacité d’un modèle à comprendre de grandes bases de code, à implémenter des changements et à exécuter un raisonnement en plusieurs étapes. Sur SWE-bench Verified, GPT-OSS-120b score 62,4 %, talonnant de près GLM-4.5 (64,2 %) et DeepSeek-R1 (environ 65,8 % en mode agentique). Sur Terminal-Bench, GLM-4.5 mène avec 37,5 %, suivi par Kimi K2 à environ 30 %. GLM-4.5 affiche également de solides performances dans les tâches de codage agentique en tête-à-tête, atteignant plus de 50 % de taux de victoire contre Kimi K2 et plus de 80 % contre Qwen3, tout en maintenant un taux de succès élevé pour les flux de travail de codage basés sur des outils. Encore une fois, la taille du modèle joue un rôle ici ; GLM-4.5 est un modèle dense beaucoup plus grand que GPT-OSS-120b et Kimi K2, ce qui lui confère un avantage en codage agentique. Cependant, pour les développeurs recherchant des capacités d’édition de code robustes dans un modèle pouvant s’exécuter sur une seule GPU de 80 Go, GPT-OSS offre un équilibre convaincant.
Les capacités agentiques — où un modèle appelle de manière autonome des outils, exécute des fonctions et résout des tâches en plusieurs étapes — deviennent de plus en plus vitales. Sur TAU-bench Retail, GPT-OSS-120b score 67,8 %, contre 79,7 % pour GLM-4.5 et 70,6 % pour Kimi K2. Pour BFCL-v3, un benchmark d’appel de fonctions, GLM-4.5 mène avec 77,8 %, suivi par Qwen3-Thinking à 71,9 %, avec GPT-OSS score autour de 67-68 %. Ces résultats mettent en évidence un compromis courant : GLM-4.5 excelle dans l’appel de fonctions et les flux de travail agentiques, mais il le fait en tant que modèle significativement plus grand et plus gourmand en ressources. GPT-OSS, en revanche, offre des résultats compétitifs tout en restant accessible aux développeurs qui n’ont peut-être pas accès à des clusters multi-GPU.
En résumé, le paysage des modèles open-weight présente des forces diverses. GPT-OSS se distingue par sa capacité à offrir un raisonnement de niveau avancé et des capacités de Chaîne de Pensée de longue durée avec une empreinte de paramètres actifs plus petite que de nombreux modèles denses. GLM-4.5, un modèle dense poids lourd, est en tête des flux de travail agentiques et de l’appel de fonctions, mais exige substantiellement plus de ressources de calcul. DeepSeek-R1 et Qwen3 offrent de solides performances de raisonnement hybride à plus grande échelle, tandis que Kimi K2 cible des flux de travail de codage spécialisés avec une configuration plus compacte.
Cela fait de GPT-OSS une proposition convaincante, atteignant un équilibre impressionnant entre performance de raisonnement, capacité de codage et efficacité de déploiement. Il est bien adapté à l’expérimentation, à l’intégration transparente dans les systèmes agentiques et aux charges de travail de production soucieuses des ressources.