OpenAI Dévoile ses Premiers Modèles d'IA à Poids Ouverts Depuis GPT-2

Aibusiness

OpenAI, une entreprise souvent associée à ses puissants modèles d’IA propriétaires, a marqué un changement stratégique significatif en dévoilant ses premiers modèles d’intelligence artificielle à poids ouverts depuis la sortie de GPT-2 en 2019. Cette initiative introduit deux nouveaux modèles, gpt-oss-120b et gpt-oss-20b, conçus pour démocratiser les capacités avancées de l’IA en permettant le déploiement local et des tâches de raisonnement sophistiquées. Amazon a été annoncé comme un client précoce, intégrant ces modèles dans ses offres cloud.

Les modèles gpt-oss récemment publiés sont mis à disposition sous la licence permissive Apache 2.0, signalant l’intention d’OpenAI de favoriser une innovation et une adoption plus larges au sein de la communauté de l’IA. Le gpt-oss-120b, le plus grand des deux, démontre des performances approchant celles du modèle propriétaire o4-mini d’OpenAI sur les benchmarks de raisonnement essentiels, tout en étant optimisé pour fonctionner efficacement sur un seul GPU de 80 Go. Son homologue plus petit, gpt-oss-20b, offre des capacités comparables à celles de l’o3-mini d’OpenAI et peut fonctionner sur des appareils périphériques avec aussi peu que 16 Go de mémoire, ce qui le rend idéal pour un déploiement sur les ordinateurs portables et autres matériels grand public. Les deux modèles sont construits sur une architecture Transformer à mélange d’experts (MoE), avec gpt-oss-120b activant 5,1 milliards de paramètres par jeton sur un total de 117 milliards, et gpt-oss-20b activant 3,6 milliards de paramètres par jeton sur ses 21 milliards au total. Ils prennent en charge une fenêtre contextuelle étendue allant jusqu’à 128 000 jetons et excellent dans une gamme d’applications, y compris le codage, les mathématiques de niveau compétition, les requêtes liées à la santé et l’utilisation d’outils agentiques, avec des capacités complètes de raisonnement en chaîne de pensée (CoT) et d’exécution d’outils.

Cette publication signifie un changement notable dans l’approche d’OpenAI, qui pendant des années avait privilégié les modèles fermés, basés sur des API. La décision d’offrir des modèles à poids ouverts est motivée par le désir de réduire les barrières pour les développeurs, les chercheurs et les organisations, en particulier ceux des marchés émergents ou avec des contraintes de ressources. En fournissant des modèles qui peuvent être exécutés localement sur l’infrastructure propre de l’utilisateur, OpenAI vise à accorder un plus grand contrôle sur la latence, le coût et la confidentialité des données, éliminant la dépendance aux API cloud distantes pour les opérations sensibles. Bien qu’il s’agisse de modèles à “poids ouverts”, ce qui signifie que les paramètres entraînés sont publiquement accessibles pour le réglage fin et l’exécution locale, ils ne sont pas “open-source” au sens le plus strict, car les données d’entraînement sous-jacentes et le code source complet ne sont pas publiés, une distinction qu’OpenAI attribue à des considérations légales et de sécurité.

Les modèles gpt-oss sont facilement disponibles au téléchargement sur des plateformes comme Hugging Face et GitHub, prenant en charge le déploiement sur divers systèmes d’exploitation, y compris MacOS, Linux et Windows Subsystem for Linux (WSL) 2.0. Au-delà des téléchargements directs, ces modèles sont également intégrés dans les principales plateformes cloud. Amazon Web Services (AWS) a rendu gpt-oss-120b et gpt-oss-20b disponibles via Amazon Bedrock et Amazon SageMaker JumpStart, marquant la première fois que les modèles OpenAI sont hébergés sur Bedrock. De même, Microsoft propose ces modèles via Azure AI Foundry et Windows AI Foundry, élargissant encore leur accessibilité dans divers environnements informatiques. Cette disponibilité multiplateforme souligne une tendance croissante de l’industrie vers un écosystème d’IA plus ouvert et flexible.

OpenAI a souligné que la publication de ces modèles à poids ouverts a fait l’objet d’évaluations de sécurité approfondies, y compris des tests internes rigoureux et des examens d’experts indépendants. L’entreprise a mis en œuvre des techniques avancées de post-entraînement, reflétant celles utilisées pour ses modèles de pointe propriétaires, afin d’aligner les modèles gpt-oss sur ses normes de sécurité et d’améliorer leurs capacités de raisonnement et d’utilisation d’outils. Pour aborder davantage les risques potentiels, OpenAI a lancé un défi de l’équipe rouge (Red Teaming Challenge), offrant un prix de 500 000 $ pour identifier et atténuer les problèmes de sécurité au sein de ces nouveaux modèles à poids ouverts.

Ce pivot stratégique d’OpenAI, rendant ses puissants modèles de raisonnement accessibles pour le déploiement local, promet d’accélérer la recherche et le développement de l’IA dans un spectre plus large d’applications, offrant aux développeurs un contrôle et une flexibilité sans précédent.