OpenAI lance les modèles gpt-oss open-weight pour l'IA locale
OpenAI a dévoilé gpt-oss-120b et gpt-oss-20b, ses premiers modèles de langage véritablement open-weight depuis GPT-2, marquant une étape significative vers l’activation du raisonnement et de l’utilisation d’outils d’IA haute performance sur du matériel local. Ces modèles sont publiés sous la licence permissive Apache 2.0, permettant une adoption et une modification larges.
Le plus puissant des deux, gpt-oss-120b, exploite une architecture de mélange d’experts (MoE), activant 5,1 milliards de paramètres par token. Cette conception lui permet d’égaler ou même de surpasser les performances du modèle propriétaire o4-mini d’OpenAI sur les benchmarks de raisonnement critiques, tout en fonctionnant efficacement sur un seul GPU de 80 Go. Son homologue plus petit, gpt-oss-20b, est conçu pour une plus grande accessibilité, activant 3,6 milliards de ses 21 milliards de paramètres. De manière cruciale, gpt-oss-20b peut fonctionner sur du matériel grand public avec aussi peu que 16 Go de mémoire, ce qui le rend idéal pour l’inférence sur appareil ou les cycles de développement rapides sans nécessiter d’infrastructure cloud.
Les deux modèles sont équipés pour gérer des applications d’IA avancées, supportant des techniques sophistiquées telles que le raisonnement en chaîne de pensée, l’utilisation d’outils intégrés et la génération de sorties structurées. Les développeurs bénéficient de la flexibilité d’ajuster l’effort de raisonnement du modèle, leur permettant d’affiner l’équilibre entre la vitesse de traitement et la précision pour des tâches spécifiques.
Ces modèles gpt-oss ont été développés en utilisant des méthodologies d’entraînement adaptées des modèles internes de la série o d’OpenAI, incorporant des fonctionnalités telles que les embeddings positionnels rotatifs et l’attention multi-requêtes groupée. Ils affichent également des longueurs de contexte impressionnantes allant jusqu’à 128k tokens. Des évaluations approfondies dans divers domaines, y compris le codage (Codeforces), la santé (HealthBench), les mathématiques et les benchmarks agentiques (MMLU, TauBench), ont démontré leurs capacités robustes, même par rapport à des modèles fermés comme o4-mini et GPT-4o.
Dans le but de favoriser la recherche sur le comportement des modèles et les risques potentiels, OpenAI a publié ces modèles sans superviser directement leurs processus de raisonnement en chaîne de pensée. Cette approche permet aux chercheurs d’examiner ouvertement les traces de raisonnement internes des modèles pour des problèmes tels que le biais ou l’utilisation abusive. Pour aborder de manière proactive les préoccupations de sécurité, OpenAI a mené un réglage fin rigoureux des scénarios les plus défavorables en utilisant des données adverses, en particulier dans les domaines sensibles de la biologie et de la cybersécurité. L’entreprise a rapporté que, même dans ces conditions difficiles, les modèles n’ont pas atteint des niveaux de capacité à haut risque selon le Cadre de Préparation d’OpenAI. Les conclusions d’experts externes indépendants ont également éclairé la publication finale. Soulignant davantage son engagement en matière de sécurité, OpenAI a lancé un défi de red teaming avec une cagnotte substantielle de 500 000 $, invitant la communauté à tester rigoureusement les modèles dans des scénarios du monde réel.
Les modèles gpt-oss sont désormais largement disponibles sur des plateformes comme Hugging Face et divers autres services de déploiement. Le modèle gpt-oss-20b, en particulier, se distingue par ses exigences matérielles minimales pour l’exécution locale. Les utilisateurs peuvent l’exécuter sur un ordinateur sans connexion internet après le téléchargement initial, nécessitant au moins 16 Go de RAM (VRAM ou mémoire système). Par exemple, un MacBook Air avec 16 Go de RAM peut exécuter le modèle à des vitesses de dizaines de tokens par seconde, tandis qu’un GPU moderne peut atteindre des centaines de tokens par seconde. Microsoft contribue également à l’accessibilité du modèle 20B en fournissant des versions optimisées pour GPU pour Windows via ONNX Runtime, le rendant disponible via Foundry Local et l’AI Toolkit pour VS Code.