OpenAI redevient open source avec gpt-oss-120b et 20b
OpenAI, le géant de l’intelligence artificielle derrière ChatGPT, a annoncé un changement stratégique significatif en publiant deux modèles d’IA à poids ouverts, gpt-oss-120b et gpt-oss-20b. Cela marque la première publication publique par l’entreprise de poids de modèles d’IA librement disponibles depuis GPT-2 en 2019, rompant une période de six ans de concentration sur les modèles propriétaires et à code fermé.
Les nouveaux modèles sont disponibles en téléchargement sur des plateformes comme Hugging Face et sont sous licence Apache 2.0 permissive, les rendant accessibles pour un usage commercial et expérimental. Cette initiative offre aux développeurs et aux entreprises une capacité sans précédent d’exécuter, d’adapter et de déployer les modèles OpenAI entièrement selon leurs propres termes, éliminant la dépendance aux API cloud distantes ou l’exposition de données internes sensibles à des services externes.
Détails des Nouveaux Modèles
La série gpt-oss comprend deux modèles distincts, tous deux construits sur une architecture de Mélange d’Experts (MoE) avec une architecture Transformer, ce qui améliore l’efficacité en activant moins de paramètres par jeton.
gpt-oss-120b : Ce modèle plus grand possède un total de 117 milliards de paramètres, activant environ 5,1 milliards de paramètres par jeton. Il est conçu pour la production, les usages généraux et les cas d’utilisation nécessitant un raisonnement élevé, offrant des performances quasi équivalentes à celles du modèle o4-mini d’OpenAI sur les benchmarks de raisonnement essentiels. Malgré sa puissance, il est optimisé pour fonctionner efficacement sur un seul GPU de 80 Go, le rendant adapté aux centres de données et aux ordinateurs de bureau haut de gamme.
gpt-oss-20b : Le modèle plus petit et plus efficace possède un total de 21 milliards de paramètres, avec environ 3,6 milliards de paramètres actifs par jeton. Il est optimisé pour une latence plus faible et des cas d’utilisation locaux ou spécialisés, offrant des résultats similaires à ceux du modèle o3-mini d’OpenAI sur les benchmarks courants. Ce modèle peut fonctionner sur des appareils périphériques avec seulement 16 Go de mémoire, ce qui le rend idéal pour les applications embarquées, le matériel grand public et l’itération rapide sans infrastructure coûteuse.
Les deux modèles supportent une longueur de contexte allant jusqu’à 128 000 jetons, intègrent un raisonnement de type “Chain-of-Thought” (CoT) avec un effort ajustable, et sont capables de suivre des instructions de manière robuste et d’utiliser des outils, y compris la recherche web et l’exécution de code Python. Ils sont également nativement quantifiés en MXFP4 pour une inférence efficace.
Un Retour aux Racines Ouvertes
La décision d’OpenAI de rendre ces modèles open source marque un départ significatif de sa stratégie récente. Après GPT-2, l’entreprise s’est largement tournée vers une approche à code fermé pour des modèles comme GPT-3 et GPT-4, privilégiant les publications propriétaires et l’accès via API. Ce changement a été motivé par une combinaison de facteurs, notamment l’avantage concurrentiel, les préoccupations de sécurité et la maximisation des profits.
Cependant, le paysage du développement de l’IA a évolué, avec des modèles open source de sociétés comme Meta (Llama) et Mistral gagnant une traction significative. Sam Altman, PDG d’OpenAI, a déjà reconnu que l’entreprise aurait pu être “du mauvais côté de l’histoire” concernant l’ouverture de son logiciel. Cette dernière publication suggère une réponse à la pression concurrentielle croissante et une reconnaissance des avantages qu’un écosystème ouvert peut apporter.
Implications pour le Paysage de l’IA
Cette initiative d’OpenAI devrait avoir des implications de grande portée :
Démocratisation de l’IA : En rendant des modèles puissants librement téléchargeables et exécutables localement, OpenAI abaisse les barrières pour les développeurs, les chercheurs, les marchés émergents et les petites organisations qui pourraient manquer des ressources pour une infrastructure cloud étendue.
Contrôle et Confidentialité Accrus : L’exécution de modèles localement offre un contrôle total sur la latence, les coûts et la confidentialité, car les données sensibles peuvent être traitées en interne sans être envoyées à des serveurs externes.
Stimulation de l’Innovation : L’accès à des modèles à poids ouverts sous une licence permissive encourage l’expérimentation, la personnalisation et le réglage fin sur des données spécifiques à un domaine, accélérant potentiellement la recherche et le développement dans divers cas d’utilisation.
Efficacité des Coûts : Le déploiement local élimine les coûts d’API et les frais d’abonnement continus associés aux services d’IA basés sur le cloud, offrant une solution plus rentable pour une utilisation évolutive de l’IA.
Concurrence Accrue : Le retour d’OpenAI dans l’espace des modèles à poids ouverts intensifie la concurrence, poussant l’ensemble de l’industrie vers un développement d’IA plus transparent et accessible.
OpenAI a souligné que la sécurité reste fondamentale à son approche, et ces modèles ont subi une formation et des évaluations de sécurité complètes, y compris des tests adversariaux. Bien que les modèles soient conçus pour suivre par défaut les politiques de sécurité d’OpenAI, l’entreprise note que les développeurs et les entreprises devront mettre en œuvre des garanties supplémentaires pour reproduire les protections au niveau du système intégrées dans leurs modèles d’API propriétaires.
Cette publication signifie un avenir potentiel où le développement de l’IA équilibre les avancées propriétaires avec un engagement envers les outils et standards ouverts, visant finalement à accélérer l’innovation et à démocratiser l’accès aux capacités d’IA avancées.