OpenAI : Retour à l'Open Source avec les LLM gpt-oss-120b et 20b
OpenAI a marqué un retour significatif à ses racines open source avec le lancement de deux nouveaux grands modèles linguistiques (LLM) : gpt-oss-120b et gpt-oss-20b. Ces modèles représentent les premiers LLM sous licence ouverte d’OpenAI depuis le révolutionnaire GPT-2, signalant un engagement renouvelé envers l’accès communautaire et le développement collaboratif. Lancés avec une anticipation considérable au sein de la communauté de l’intelligence artificielle, les modèles gpt-oss sont conçus pour établir de nouvelles références en matière de capacités de raisonnement et d’utilisation d’outils intégrés, le tout sous la licence permissive Apache 2.0. Ce choix de licence est crucial, car il permet aux développeurs et aux organisations d’utiliser et d’adapter librement les modèles pour la recherche et les applications commerciales, sans encourir de frais de licence ni être liés par des restrictions de copyleft.
Les modèles gpt-oss se distinguent par plusieurs fonctionnalités innovantes. Un aspect unique est leurs niveaux de raisonnement configurables, permettant aux utilisateurs de spécifier si le modèle doit s’engager dans des processus de pensée de faible, moyenne ou haute profondeur, équilibrant ainsi la vitesse et la rigueur analytique. Contrairement à de nombreux modèles propriétaires, gpt-oss offre également un accès complet à la chaîne de pensée, fournissant un aperçu transparent de ses étapes de raisonnement internes. Cela permet aux utilisateurs d’inspecter ou de filtrer les chemins analytiques du modèle, ce qui facilite le débogage et renforce la confiance dans sa sortie. De plus, ces modèles sont construits avec des capacités d’agent natif, ce qui signifie qu’ils sont intrinsèquement conçus pour suivre les instructions et possèdent un support intégré pour l’utilisation d’outils externes pendant leurs processus de raisonnement.
À la base, les deux modèles gpt-oss sont des réseaux basés sur Transformer employant une conception de Mélange d’Experts (MoE). Cette architecture permet une efficacité computationnelle en activant seulement un sous-ensemble des paramètres complets — ou « experts » — pour chaque jeton d’entrée. Le plus grand gpt-oss-120b possède 117 milliards de paramètres au total sur 36 couches, avec environ 5,1 milliards de paramètres actifs par jeton, tirant parti de 128 sous-réseaux experts. Le gpt-oss-20b plus compact présente 21 milliards de paramètres au total sur 24 couches, utilisant 32 experts pour atteindre environ 3,6 milliards de paramètres actifs par jeton. Les deux modèles intègrent des fonctionnalités avancées telles que les Embeddings Positionnels Rotatifs (RoPE) pour gérer de larges fenêtres de contexte allant jusqu’à 128 000 jetons, et une attention multi-requête groupée pour optimiser l’utilisation de la mémoire tout en maintenant une inférence rapide. Un facteur clé de leur accessibilité est la quantification MXFP4 par défaut de 4 bits, qui permet au modèle 120B de tenir sur une seule GPU de 80 Go et au modèle 20B sur une mémoire GPU plus modeste de 16 Go, minimisant la perte de précision.
Les exigences matérielles varient considérablement entre les deux modèles. Le gpt-oss-120b exige des GPU haut de gamme, nécessitant généralement 80 à 100 Go de VRAM, ce qui le rend adapté aux GPU uniques de classe A100/H100 ou aux configurations multi-GPU. En revanche, le gpt-oss-20b est considérablement plus léger, fonctionnant efficacement avec environ 16 Go de VRAM, ce qui le rend viable sur les ordinateurs portables ou les puces Apple Silicon. Les deux modèles prennent en charge leurs impressionnantes fenêtres de contexte de 128 000 jetons, bien que le traitement de si longues entrées reste intensivement calculatoire. Ces modèles peuvent être déployés via des frameworks populaires tels que Hugging Face Transformers, vLLM pour un service à haut débit, Ollama pour les serveurs de discussion locaux, et Llama.cpp pour les environnements basés sur CPU ou ARM, assurant une large accessibilité pour les développeurs.
Lors de tests pratiques, le gpt-oss-120b a constamment démontré des capacités supérieures dans les tâches de raisonnement complexes, telles que les analogies symboliques, où il dérivait méthodiquement des réponses correctes. Le gpt-oss-20b, bien qu’efficace, a parfois eu du mal avec le même niveau de logique complexe ou les contraintes de longueur de sortie, soulignant l’avantage du modèle plus grand dans les scénarios exigeants. Par exemple, dans les tâches de génération de code C++ nécessitant une complexité temporelle spécifique, le modèle 120B a fourni une solution robuste et efficace, tandis que la sortie du modèle 20B était moins complète ou avait des difficultés avec les contraintes données.
Sur les benchmarks standard, les deux modèles réalisent des performances louables. Le gpt-oss-120b obtient généralement des scores plus élevés que son homologue 20B sur les tâches de raisonnement et de connaissance difficiles comme MMLU et GPQA Diamond, démontrant ses capacités améliorées. Cependant, le gpt-oss-20b a également délivré des performances solides, notamment en égalant presque le 120B sur les tâches du concours de mathématiques AIME, indiquant sa surprenante prouesse dans des domaines spécifiques malgré sa taille plus petite. Le modèle 120B est comparable au modèle interne o4-mini d’OpenAI, tandis que le modèle 20B s’aligne sur la qualité du o3-mini sur de nombreux benchmarks.
Le choix entre les deux modèles dépend largement des exigences du projet et des ressources disponibles. Le gpt-oss-120b est le choix idéal pour les tâches les plus exigeantes, y compris la génération de code complexe, la résolution de problèmes avancée et les requêtes approfondies spécifiques à un domaine, à condition que l’infrastructure GPU haut de gamme nécessaire soit disponible. Le gpt-oss-20b, à l’inverse, est un cheval de bataille efficace optimisé pour les scénarios nécessitant rapidité et faible consommation de ressources, tels que les applications embarquées, les chatbots à faible latence ou les outils intégrant la recherche web et les appels Python. Il constitue une excellente option pour le développement de preuves de concept, les applications mobiles ou les environnements avec des contraintes matérielles, offrant souvent une qualité suffisante pour de nombreuses applications du monde réel.
Les modèles gpt-oss ouvrent un large éventail d’applications. Ils sont très efficaces pour la génération et la réécriture de contenu, capables d’expliquer leurs processus de pensée, ce qui peut considérablement aider les écrivains et les journalistes. En éducation, ils peuvent démontrer des concepts étape par étape, fournir des retours et alimenter des outils de tutorat. Leurs robustes capacités de génération, de débogage et d’explication de code en font des assistants de codage inestimables. Pour la recherche, ils peuvent résumer des documents, répondre à des questions spécifiques à un domaine et analyser des données, le modèle plus grand étant particulièrement adaptable à la personnalisation pour des domaines spécialisés comme le droit ou la médecine. Enfin, leurs capacités d’agent natif facilitent la création d’agents autonomes qui peuvent naviguer sur le web, interagir avec des API ou exécuter du code, s’intégrant de manière transparente dans des flux de travail complexes basés sur des étapes.
En conclusion, la publication des modèles gpt-oss marque un moment charnière pour OpenAI et l’écosystème plus large de l’IA, démocratisant l’accès à de puissants modèles linguistiques. Bien que le gpt-oss-120b surpasse clairement son petit frère sur tous les plans — offrant un contenu plus précis, résolvant des problèmes plus difficiles et excellant dans le raisonnement complexe — son intensité en ressources présente un défi de déploiement. Le gpt-oss-20b, cependant, offre un équilibre convaincant entre qualité et efficacité, rendant l’IA avancée accessible sur du matériel plus modeste. Il ne s’agit pas simplement d’une mise à niveau incrémentale ; cela représente un bond significatif pour rendre les capacités d’IA de pointe disponibles à une communauté plus large, favorisant l’innovation et le développement d’applications.