Un chercheur transforme le gpt-oss-20b d'OpenAI en modèle de base brut et non censuré

Venturebeat

Moins de deux semaines après qu’OpenAI a lancé sa nouvelle et puissante famille de grands modèles linguistiques gpt-oss, les premiers modèles à poids ouverts de l’entreprise depuis 2019, les développeurs les remodèlent déjà. Un exemple frappant nous vient de Jack Morris, doctorant à Cornell Tech et chercheur chez Meta, qui a récemment dévoilé gpt-oss-20b-base. Cette version retravaillée du plus petit modèle gpt-oss-20B d’OpenAI supprime ses capacités de raisonnement intégrées, le ramenant à un état brut, pré-entraîné, offrant des réponses plus rapides, plus libres et moins contraintes. Le modèle est désormais disponible sur Hugging Face sous une licence MIT permissive, permettant à la fois des recherches ultérieures et des applications commerciales.

Pour comprendre l’innovation de Morris, il est crucial de distinguer entre la version d’OpenAI et ce que les chercheurs en intelligence artificielle appellent un “modèle de base”. La plupart des grands modèles linguistiques proposés par les principaux laboratoires d’IA, y compris OpenAI, Anthropic, Google, et des acteurs open source comme Meta et DeepSeek, sont “post-entraînés”. Cela signifie qu’ils ont subi une phase supplémentaire où ils ont été exposés à des exemples sélectionnés de comportements souhaités. Pour les modèles ajustés par instruction, cela implique de fournir de nombreux exemples d’instructions associées à des réponses idéales, enseignant à l’IA à répondre de manière plus utile, polie ou sûre aux requêtes en langage naturel.

Les modèles gpt-oss d’OpenAI, lancés le 5 août, étaient “optimisés pour le raisonnement”. Ils ont été entraînés et affinés non seulement pour prédire le mot suivant, mais aussi pour suivre les instructions de manière sûre et cohérente, employant souvent un raisonnement structuré de type “chaîne de pensée” pour résoudre les problèmes avant de produire une réponse finale. Cette approche, qu’OpenAI a introduite pour la première fois avec son modèle o1 il y a près d’un an, a été largement adoptée dans l’industrie. Elle force les modèles à “réfléchir” plus longtemps sur plusieurs étapes et à vérifier leur propre travail, ce qui les rend mieux adaptés à des tâches telles que le codage, la résolution de problèmes mathématiques ou la réponse à des questions factuelles avec des explications. Cependant, cela signifie également que leurs réponses sont filtrées et éloignées de tout contenu jugé dangereux ou indésirable.

En revanche, un modèle de base est la version brute, pré-entraînée, d’un grand modèle linguistique avant l’application de tout alignement spécifique au raisonnement. Les modèles de base tentent simplement de prédire les mots suivants les plus probables étant donné le texte précédent, sans garde-fous intégrés, préférences stylistiques ou comportements de refus. Ils sont très appréciés par certains chercheurs car ils peuvent produire des résultats plus variés et moins contraints. L’étude de leur comportement non filtré peut également révéler des informations plus approfondies sur la manière dont les modèles stockent les connaissances et les schémas dérivés de leurs données d’entraînement.

L’objectif de Morris était de “reverser” le processus d’alignement d’OpenAI, restaurant le plus petit gpt-oss-20B à un état beaucoup plus proche de sa forme pré-entraînée originale. Comme il l’a expliqué dans un fil X annonçant le projet : “Nous avons essentiellement inversé la partie d’alignement de l’entraînement des LLM, de sorte que nous avons quelque chose qui produit à nouveau du texte d’apparence naturelle. Il ne s’engage plus dans la CoT. Il est redevenu un modèle qui prédit simplement le prochain token sur du texte générique.”

Au lieu de tenter de contourner les filtres de sécurité du modèle avec des invites intelligentes, ce que Morris a trouvé inefficace lors de ses premières expériences, il a poursuivi une stratégie différente après une conversation avec John Schulman, ancien cofondateur d’OpenAI et actuel scientifique en chef chez Thinking Machines. L’idée principale était de traiter l’inversion de l’alignement comme un problème d’optimisation mineur : si la majeure partie des connaissances pré-entraînées du modèle restait dans ses paramètres internes (poids), alors seule une petite mise à jour de faible rang pourrait être nécessaire pour le ramener vers le comportement de modèle de base.

Morris a mis cela en œuvre en appliquant une mise à jour d’adaptateur de faible rang (LoRA) à seulement trois couches spécifiques du modèle — les couches MLP aux positions 7, 15 et 23 — avec un rang de 16. Cela a impliqué l’entraînement d’environ 60 millions de paramètres, ce qui représente à peine 0,3 % des 21 milliards de paramètres totaux du modèle. Il a utilisé environ 20 000 documents de l’ensemble de données FineWeb, en maintenant un format aussi proche que possible du pré-entraînement original pour s’assurer que le modèle n’apprenne pas de nouvelles informations, mais réactive plutôt ses vastes capacités de génération de texte libre. Le processus d’entraînement a duré quatre jours sur huit GPU NVIDIA H200, avec un taux d’apprentissage de 2e-6, une taille de lot de 16 et une longueur de séquence maximale de 8 192 tokens. Par la suite, Morris a fusionné les poids LoRA dans le modèle, permettant aux utilisateurs de l’exécuter comme un artefact autonome et entièrement affiné. Il a également navigué les limitations des outils ouverts actuels pour l’affinage des architectures de type Mixture-of-Experts (MoE) comme gpt-oss, développant son propre système pour sauvegarder fréquemment les progrès et sauter les lots de données qui risquaient de surcharger la mémoire GPU.

Il est important de noter la clarification de Morris en réponse aux questions de la communauté : il n’a pas récupéré les poids originaux du modèle de base, qui régissent le comportement de ses neurones artificiels. Au lieu de cela, il affirme que son travail a “récupéré la distribution du modèle de base avec une certaine erreur” — ce qui signifie les schémas de probabilité que le modèle utilise pour générer des sorties — même si les poids sous-jacents produisant ces schémas peuvent différer.

Le gpt-oss-20b-base résultant présente des sorties nettement plus libres. Il ne se contente plus d’expliquer le raisonnement étape par étape et produira une gamme plus large de réponses, y compris des instructions que le modèle aligné d’OpenAI refuserait généralement, telles que détailler comment construire une arme, lister des blasphèmes ou planifier des activités illégales. Lors de brefs tests, Morris a également constaté qu’il pouvait reproduire des passages mot à mot d’œuvres protégées par le droit d’auteur, y compris trois des six extraits de livres qu’il a tentés, indiquant que certains matériaux mémorisés restent accessibles. Malgré cela, certaines traces d’alignement persistent ; si l’on lui donne une instruction de type assistant, le modèle peut encore occasionnellement agir comme un chatbot poli. Lorsqu’il est exécuté via le modèle de chat gpt-oss original, il peut toujours effectuer des tâches de raisonnement, bien qu’avec une certaine perte de qualité. Pour des résultats optimaux en mode texte libre, Morris conseille de faire précéder les invites du token spécial de début de séquence du modèle et d’éviter complètement les modèles de chat.

La famille gpt-oss, comprenant les modèles gpt-oss-120B et gpt-oss-20B, a fait ses débuts avec une attention considérable. Ces modèles multilingues et textuels sont construits avec une architecture Transformer de type Mixture-of-Experts et ont été publiés sous la licence permissive Apache 2.0, permettant une utilisation locale, un affinage et un déploiement commercial illimités. Les benchmarks de performance d’OpenAI ont indiqué que le modèle plus grand de 120B égalait ou dépassait son o4-mini propriétaire dans les tâches de raisonnement et d’utilisation d’outils, tandis que le plus petit 20B s’est avéré compétitif avec o3-mini. Cela a marqué la première publication de poids ouverts d’OpenAI en six ans, une décision largement interprétée comme une réponse aux pressions concurrentielles d’autres fournisseurs de poids ouverts, y compris DeepSeek R1 et Qwen 3 de Chine. L’entreprise a positionné gpt-oss à la fois comme un moyen de réengager les développeurs qui avaient migré vers des modèles open source rivaux et comme une plateforme pour la recherche en sécurité sur les systèmes à poids ouverts.

La réaction des développeurs aux modèles gpt-oss d’OpenAI a été mitigée. Les partisans ont loué la licence permissive, l’efficacité et les solides performances sur les benchmarks STEM, le PDG de Hugging Face, Clem Delangue, le qualifiant d’“ajout significatif à l’écosystème ouvert”. Les critiques, cependant, ont fait valoir que les modèles semblaient fortement entraînés sur des données synthétiques, ce qui les rendait excellents en mathématiques et en codage, mais moins performants en écriture créative, en connaissances générales du monde et en raisonnement multilingue. Certains testeurs précoces ont également soulevé des préoccupations concernant des filtres de sécurité persistants et un potentiel biais géopolitique.

Dans ce contexte, le gpt-oss-20b-base de Morris se distingue comme un exemple concret de la manière dont les modèles à poids ouverts peuvent être adaptés et réutilisés sur le terrain quelques jours seulement après leur publication. Contrairement à la réception divisée du gpt-oss d’OpenAI, les réactions au travail de Morris ont été majoritairement positives, un informaticien sur X le qualifiant de “la chose la plus cool que j’aie vue sur Twitter [X] ces derniers mois”. Cette approche supprime une grande partie du comportement qu’OpenAI a soigneusement intégré, ramenant le modèle à quelque chose de plus proche d’un système brut et pré-entraîné. Bien qu’inestimable pour les chercheurs étudiant la mémorisation, les biais ou l’impact de l’alignement, elle s’accompagne également intrinsèquement de risques de sécurité plus élevés. Morris a l’intention de poursuivre ses recherches visant à restaurer les modèles de raisonnement à leurs formes de base pré-entraînées et non-raisonnantes en comparant sa méthode d’extraction sur d’autres modèles d’instruction, tels que ceux proposés par Qwen.