LLM open source d'OpenAI: entre espoir et critiques de la communauté
OpenAI, une entreprise dont le nom même implique l’ouverture, a récemment opéré un pivot significatif en publiant deux nouveaux grands modèles linguistiques (LLM), gpt-oss-120B et gpt-oss-20B, sous la licence open source permissive Apache 2.0. Cette initiative marque la première fois depuis 2019 qu’OpenAI rend un modèle linguistique de pointe publiquement disponible pour une utilisation sans restriction, signalant un départ notable de l’approche propriétaire et à source fermée qui a défini l’ère ChatGPT au cours des 2,7 dernières années. Pendant cette période, les utilisateurs payaient généralement pour accéder aux modèles d’OpenAI, avec une personnalisation limitée et sans possibilité de les exécuter hors ligne ou sur du matériel privé.
Les nouveaux modèles gpt-oss visent à démocratiser l’accès à l’IA puissante. Le plus grand, gpt-oss-120B, est conçu pour un déploiement sur un seul GPU Nvidia H100, adapté aux centres de données des petites et moyennes entreprises, tandis que son homologue plus petit, gpt-oss-20B, est suffisamment léger pour fonctionner sur un ordinateur portable grand public. Cependant, malgré l’obtention de benchmarks techniques impressionnants qui s’alignent sur les puissantes offres propriétaires d’OpenAI, la communauté plus large des développeurs et utilisateurs d’IA a réagi avec un éventail d’opinions remarquablement diverses, à l’image d’une première de film recevant une répartition quasi 50/50 sur un agrégateur de critiques.
Les premiers tests indépendants ont produit des retours oscillant entre un enthousiasme optimiste et un courant de fond d’insatisfaction. Une grande partie des critiques découle de comparaisons directes avec la vague croissante de puissants LLM multimodaux émergeant des startups chinoises, qui sont également sous licence Apache 2.0 et peuvent être librement adaptées et exécutées localement partout dans le monde.
Alors que les benchmarks d’intelligence de la firme indépendante Artificial Analysis positionnent gpt-oss-120B comme “le modèle à poids ouverts américain le plus intelligent”, il reste en deçà lorsqu’il est mesuré par rapport à des poids lourds chinois comme DeepSeek R1 et Qwen3 235B. Cette disparité a alimenté le scepticisme. Un autoproclamé passionné de DeepSeek, @teortaxesTex, a fait remarquer que les modèles semblent avoir simplement “maximisé les benchmarks”, prédisant un manque de bons modèles dérivés ou de nouveaux cas d’utilisation. Le chercheur en IA open source pseudonyme Teknium, cofondateur de Nous Research, a fait écho à cela, qualifiant la sortie de “véritable coup d’épée dans l’eau” et exprimant une profonde déception, anticipant une éclipse rapide par un concurrent chinois.
De plus, les critiques se sont concentrées sur l’utilité perçue comme étroite des modèles gpt-oss. L’influenceur IA “Lisan al Gaib” a observé que si les modèles excellent en mathématiques et en codage, ils “manquent complètement de goût et de bon sens”, remettant en question leur applicabilité plus large. Cette approche de “bench-maxxing”, optimisant fortement pour des benchmarks spécifiques, conduirait à des résultats inhabituels ; Teknium a partagé une capture d’écran montrant le modèle injectant une formule intégrale au milieu d’un poème lors de tests d’écriture créative. Des chercheurs comme @kalomaze de Prime Intellect et l’ancien Googler Kyle Corbitt ont spéculé que les modèles gpt-oss ont probablement été entraînés principalement sur des données synthétiques — des données générées par l’IA utilisées spécifiquement pour entraîner de nouveaux modèles. Cette approche, possiblement adoptée pour contourner les problèmes de droits d’auteur ou éviter les problèmes de sécurité associés aux données du monde réel, aboutit à des modèles “extrêmement pointus”, performant exceptionnellement bien sur les tâches entraînées comme le codage et les mathématiques, mais mal sur des tâches plus linguistiques telles que l’écriture créative ou la génération de rapports.
Des préoccupations ont également émergé des évaluations de benchmarks tiers. SpeechMap, qui évalue la conformité des LLM aux invites des utilisateurs pour les sorties non autorisées ou sensibles, a montré que gpt-oss-120B obtenait moins de 40 %, près du bas de ses pairs, indiquant une forte tendance à revenir aux garde-fous internes. Dans l’évaluation Polyglot d’Aider, gpt-oss-120B n’a atteint que 41,8 % en raisonnement multilingue, étant significativement à la traîne par rapport à ses concurrents. Certains utilisateurs ont également signalé une résistance inhabituelle à générer des critiques envers la Chine ou la Russie, contrastant avec son traitement des États-Unis et de l’UE, soulevant des questions sur les biais potentiels dans ses données d’entraînement.
Malgré ces critiques, toutes les réactions n’ont pas été négatives. L’ingénieur logiciel Simon Willison a salué la sortie comme “vraiment impressionnante”, soulignant l’efficacité des modèles et leur capacité à atteindre la parité avec les modèles propriétaires o3-mini et o4-mini d’OpenAI. Il a félicité leurs solides performances sur les benchmarks de raisonnement et à forte composante STEM, ainsi que le modèle de prompt innovant “Harmony” et le support pour l’utilisation d’outils tiers. Clem Delangue, PDG de Hugging Face, a appelé à la patience, suggérant que les problèmes initiaux pourraient provenir d’une instabilité de l’infrastructure et d’une optimisation insuffisante. Il a souligné que “le pouvoir de l’open source est qu’il n’y a pas de triche”, assurant que les véritables forces et limitations des modèles seraient progressivement découvertes.
Ethan Mollick, professeur à la Wharton School, a reconnu que les États-Unis possèdent désormais probablement les modèles à poids ouverts les plus performants, mais a remis en question l’engagement à long terme d’OpenAI, notant que cette avance pourrait “s’évaporer rapidement” si l’entreprise n’a pas d’incitations à maintenir les modèles à jour. Nathan Lambert, un chercheur éminent en IA à l’Allen Institute for AI (Ai2), a salué l’importance symbolique de cette publication pour l’écosystème ouvert, en particulier pour les nations occidentales, reconnaissant le pas significatif de la marque d’IA la plus reconnue qui revient aux publications ouvertes. Cependant, il a averti que gpt-oss est “peu susceptible de ralentir significativement” les concurrents chinois comme Qwen, en raison de leur convivialité et de leur variété existantes. Lambert a conclu que si cette publication marque un changement crucial aux États-Unis vers les modèles ouverts, OpenAI a encore “un long chemin à parcourir” pour réellement rattraper son retard en pratique.