OpenAI Lance des Modèles IA Open-Weight et Redéfinit sa Stratégie

Techcrunch

OpenAI a lancé deux nouveaux modèles de raisonnement d’IA “à poids ouverts”, les rendant librement disponibles au téléchargement sur la plateforme de développement Hugging Face. L’entreprise décrit ces modèles comme étant “à la pointe de la technologie” lorsqu’ils sont évalués par rapport à plusieurs benchmarks pour des modèles ouverts comparables.

La version inclut deux tailles distinctes : le plus robuste gpt-oss-120b, conçu pour fonctionner sur un seul GPU Nvidia, et le plus léger gpt-oss-20b, qui peut s’exécuter sur un ordinateur portable grand public équipé de 16 Go de mémoire. Cela marque le premier modèle de langage “ouvert” publié publiquement par OpenAI depuis GPT-2, qui a fait ses débuts il y a plus de cinq ans.

OpenAI a indiqué que ces nouveaux modèles ouverts sont capables d’envoyer des requêtes complexes aux modèles d’IA plus puissants de l’entreprise hébergés dans le cloud. Cette approche hybride signifie que si un modèle ouvert ne peut pas effectuer une tâche spécifique, comme le traitement d’une image, les développeurs peuvent le connecter à l’un des modèles à code source fermé plus performants d’OpenAI.

Bien qu’OpenAI ait initialement adopté l’open-sourcing à ses débuts, l’entreprise a principalement poursuivi une stratégie de développement propriétaire et à code source fermé. Cette approche a joué un rôle déterminant dans la construction d’une entreprise substantielle en vendant l’accès API à ses modèles d’IA aux entreprises et aux développeurs. Cependant, le PDG Sam Altman a exprimé en janvier sa conviction qu’OpenAI avait été “du mauvais côté de l’histoire” concernant l’open-sourcing de ses technologies.

L’entreprise est désormais confrontée à une concurrence croissante de la part des laboratoires d’IA chinois, notamment DeepSeek, Qwen d’Alibaba et Moonshot AI, qui ont développé plusieurs des modèles ouverts les plus performants et les plus largement adoptés au monde. Ce changement intervient alors que les modèles d’IA Llama de Meta, autrefois dominants dans l’espace de l’IA ouverte, auraient pris du retard au cours de la dernière année. En outre, l’administration Trump a exhorté les développeurs d’IA américains en juillet à ouvrir davantage de technologies pour favoriser l’adoption mondiale de l’IA alignée sur les valeurs américaines.

Avec l’introduction de gpt-oss, OpenAI vise à obtenir le soutien des développeurs et de l’administration Trump, qui ont tous deux observé la proéminence croissante des laboratoires d’IA chinois dans le domaine open-source. Sam Altman a déclaré : “La mission d’OpenAI est de garantir que l’AGI profite à toute l’humanité. À cette fin, nous sommes ravis que le monde puisse s’appuyer sur une pile d’IA ouverte créée aux États-Unis, basée sur des valeurs démocratiques, disponible gratuitement pour tous et pour un large bénéfice.”

Performance du Modèle et Hallucination

OpenAI a cherché à positionner ses nouveaux modèles ouverts comme des leaders parmi les autres modèles d’IA à poids ouverts, affirmant avoir réussi dans cette entreprise.

Sur Codeforces, un test de codage compétitif utilisant des outils, gpt-oss-120b a obtenu un score de 2622, tandis que gpt-oss-20b a obtenu 2516. Les deux modèles ont surpassé le R1 de DeepSeek mais étaient en retard par rapport aux modèles o3 et o4-mini d’OpenAI.

De même, sur Humanity’s Last Exam, un test difficile de questions participatives sur divers sujets (également avec des outils), gpt-oss-120b a obtenu 19% et gpt-oss-20b 17,3%. Ces résultats indiquent une sous-performance par rapport à o3, mais une performance supérieure aux modèles ouverts leaders de DeepSeek et Qwen.

Notamment, les nouveaux modèles ouverts d’OpenAI présentent des taux d’“hallucination” significativement plus élevés – générant des informations incorrectes ou absurdes – par rapport à ses derniers modèles de raisonnement d’IA propriétaires, o3 et o4-mini. OpenAI attribue cela au fait que les modèles plus petits possèdent moins de “connaissances du monde” que les modèles frontières plus grands, ce qui entraîne une augmentation de l’hallucination. Sur PersonQA, le benchmark interne d’OpenAI pour mesurer la précision des connaissances sur les personnes, gpt-oss-120b a halluciné en réponse à 49% des questions, et gpt-oss-20b à 53%. Ce taux est plus du triple de celui du modèle o1 d’OpenAI (16%) et supérieur à celui de son modèle o4-mini (36%).

Formation et Licence

OpenAI a déclaré que ses modèles ouverts ont été entraînés en utilisant des processus similaires à ceux de ses modèles propriétaires. Chaque modèle ouvert incorpore une architecture de mélange d’experts (MoE) pour activer efficacement moins de paramètres pour toute requête donnée. Par exemple, le gpt-oss-120b, qui a 117 milliards de paramètres totaux, n’active que 5,1 milliards de paramètres par jeton.

Les modèles ont également subi un apprentissage par renforcement (RL) à forte intensité de calcul pendant leur phase de post-entraînement. Ce processus, qui utilise de grands clusters de GPU Nvidia dans des environnements simulés, enseigne aux modèles d’IA à distinguer les réponses correctes des incorrectes. Similaires aux modèles de la série o d’OpenAI, les nouveaux modèles ouverts emploient un processus de “chaîne de pensée”, consacrant du temps et des ressources computationnelles supplémentaires pour formuler leurs réponses. Cette post-formation a permis aux modèles ouverts d’exceller dans l’alimentation des agents d’IA, leur permettant d’appeler des outils tels que la recherche web ou l’exécution de code Python. Cependant, OpenAI a souligné que ces modèles ouverts sont uniquement textuels et ne peuvent pas traiter ou générer des images et de l’audio comme certains des autres modèles de l’entreprise.

OpenAI publie gpt-oss-120b et gpt-oss-20b sous la licence Apache 2.0, largement considérée comme l’une des plus permissives. Cette licence permet aux entreprises de monétiser les modèles ouverts d’OpenAI sans exiger de paiement ou d’autorisation de l’entreprise. Cependant, contrairement aux offres des laboratoires d’IA entièrement open-source tels qu’AI2, OpenAI ne publiera pas les données d’entraînement utilisées pour créer ces modèles. Cette décision s’inscrit dans le contexte de plusieurs poursuites actives contre des fournisseurs de modèles d’IA, y compris OpenAI, alléguant une formation inappropriée sur des œuvres protégées par le droit d’auteur.

Considérations de Sécurité

Le lancement des modèles ouverts d’OpenAI aurait été retardé à plusieurs reprises ces derniers mois, en partie en raison de préoccupations de sécurité. Au-delà de ses protocoles de sécurité standard, OpenAI a mené des enquêtes pour déterminer si des acteurs malveillants pourraient affiner les modèles gpt-oss pour faciliter les cyberattaques ou la création d’armes biologiques ou chimiques.

Suite aux évaluations d’OpenAI et d’évaluateurs tiers, l’entreprise a conclu que gpt-oss pourrait marginalement augmenter les capacités biologiques. Cependant, aucune preuve n’a été trouvée que ces modèles ouverts pourraient atteindre un seuil de “haute capacité” de danger dans ces domaines, même après un affinage.

Bien que les nouveaux modèles d’OpenAI semblent être à l’avant-garde des offres open-source, les développeurs anticipent également la sortie de DeepSeek R2, son prochain modèle de raisonnement d’IA, et d’un nouveau modèle ouvert du laboratoire de superintelligence de Meta.

OpenAI Lance des Modèles IA Open-Weight et Redéfinit sa Stratégie - OmegaNext Actualités IA