Nvidia dévoile Nemotron-Nano-9B-v2 : Petit modèle d'IA ouvert avec mode Raisonnement

Venturebeat

Nvidia a fait son entrée dans le domaine en plein essor des petits modèles linguistiques (SLM) avec le lancement de Nemotron-Nano-9B-v2, un modèle d’IA compact mais puissant, conçu pour offrir des capacités de raisonnement avancées tout en optimisant l’efficacité du déploiement. Cette initiative s’inscrit dans une tendance vers des modèles d’IA de plus en plus petits et spécialisés, capables de fonctionner sur du matériel moins puissant, comme ceux récemment introduits par Liquid AI, une spin-off du MIT, et Google.

Le Nemotron-Nano-9B-v2 dispose de neuf milliards de paramètres, une réduction significative par rapport à sa conception initiale de 12 milliards de paramètres. Cette optimisation cible spécifiquement le déploiement sur un seul GPU Nvidia A10, un choix populaire pour les applications d’entreprise. Selon Oleksii Kuchiaev, directeur de la post-formation des modèles d’IA chez Nvidia, cette élagage permet une plus grande taille de lot et permet au modèle de traiter l’information jusqu’à six fois plus vite que les modèles Transformer de taille similaire. À titre de comparaison, de nombreux grands modèles linguistiques (LLM) de premier plan opèrent dans la gamme de plus de 70 milliards de paramètres, où les paramètres désignent les réglages internes régissant le comportement d’un modèle, un nombre plus élevé indiquant généralement une plus grande capacité mais aussi des exigences computationnelles plus élevées. La poussée vers des modèles plus petits et plus efficaces comme Nemotron-Nano-9B-v2 répond aux préoccupations croissantes concernant la consommation d’énergie, l’augmentation des coûts des jetons et les retards d’inférence qui remodèlent le paysage de l’IA d’entreprise.

Une innovation architecturale significative qui sous-tend Nemotron-Nano-9B-v2 est sa nature hybride, combinant des éléments des architectures Transformer et Mamba. Alors que les modèles Transformer largement adoptés reposent uniquement sur des couches d’attention, qui peuvent devenir gourmandes en mémoire et en calcul à mesure que la longueur des séquences augmente, les modèles Nemotron-H (la famille à laquelle appartient Nano-9B-v2) intègrent des modèles d’espace d’état sélectifs (SSM) de l’architecture Mamba. Développés par des chercheurs de l’Université Carnegie Mellon et de Princeton, les SSM excellent dans le traitement de très longues séquences d’informations en maintenant des états internes. Ces couches évoluent linéairement avec la longueur de la séquence, traitant efficacement des contextes plus longs sans la surcharge considérable de mémoire et de calcul associée aux mécanismes d’auto-attention traditionnels. Cette approche hybride réduit considérablement les coûts d’exploitation, atteignant un débit jusqu’à deux à trois fois supérieur sur de longs contextes avec une précision comparable, une stratégie également adoptée par d’autres laboratoires d’IA.

L’une des caractéristiques remarquables de Nemotron-Nano-9B-v2 est son “raisonnement” IA contrôlable par l’utilisateur. Le modèle, positionné comme un système unifié de chat et de raisonnement textuel uniquement, génère par défaut une trace de raisonnement interne avant de produire une réponse finale. Les utilisateurs peuvent activer ou désactiver ce comportement à l’aide de simples jetons de contrôle comme /think ou /no_think. De plus, les développeurs peuvent gérer un “budget de pensée” à l’exécution, plafonnant le nombre de jetons que le modèle consacre au raisonnement interne avant de compléter une réponse. Ce mécanisme est crucial pour équilibrer la précision et la latence, en particulier dans les applications sensibles au temps telles que les systèmes de support client ou les agents autonomes.

Les évaluations de référence soulignent la précision compétitive de Nemotron-Nano-9B-v2 par rapport à d’autres modèles ouverts à petite échelle. Lors des tests en mode “raisonnement activé” à l’aide de la suite NeMo-Skills, il a obtenu des scores impressionnants : 72,1 % sur AIME25, 97,8 % sur MATH500, 64,0 % sur GPQA et 71,1 % sur LiveCodeBench. Les scores pour le suivi d’instructions et les benchmarks à contexte long démontrent également de solides performances, avec 90,3 % sur IFEval et 78,9 % sur le test RULER 128K. Dans l’ensemble, Nano-9B-v2 affiche une plus grande précision que Qwen3-8B, un point de comparaison courant dans sa catégorie. Nvidia illustre ces résultats avec des courbes précision-budget, démontrant comment les performances évoluent avec l’augmentation de l’allocation de jetons pour le raisonnement, suggérant qu’un contrôle budgétaire minutieux peut optimiser à la fois la qualité et la latence dans les applications du monde réel.

Le modèle et sa famille Nemotron-H sous-jacente ont été entraînés sur un mélange diversifié d’ensembles de données organisés, provenant du web et synthétiques, incluant du texte général, du code, des mathématiques, des sciences, des documents juridiques et financiers, ainsi que des ensembles de données de questions-réponses de type alignement. Notamment, Nvidia a confirmé l’utilisation de traces de raisonnement synthétiques générées par d’autres grands modèles pour renforcer les performances sur des benchmarks complexes. Le modèle est également conçu pour une large prise en charge linguistique, gérant l’anglais, l’allemand, l’espagnol, le français, l’italien et le japonais, avec des descriptions étendues pour le coréen, le portugais, le russe et le chinois, ce qui le rend adapté à la fois au suivi d’instructions et à la génération de code.

Nemotron-Nano-9B-v2 est immédiatement disponible sur Hugging Face et via le catalogue de modèles de Nvidia, publié sous l’Accord de Licence de Modèle Ouvert de Nvidia. Cette licence permissive et adaptée aux entreprises stipule explicitement que les modèles sont utilisables commercialement dès leur sortie, permettant aux développeurs de créer et de distribuer librement des modèles dérivés. Il est crucial de noter que Nvidia ne revendique pas la propriété des sorties générées par le modèle, plaçant la responsabilité et les droits auprès du développeur ou de l’organisation qui l’utilise. Cela signifie que les entreprises peuvent intégrer le modèle en production sans négocier de licences commerciales distinctes ni encourir de frais liés à des seuils d’utilisation ou des niveaux de revenus, contrairement à certaines licences ouvertes à plusieurs niveaux.

Bien que très permissive, la licence stipule plusieurs conditions clés axées sur un déploiement responsable. Les utilisateurs ne doivent pas contourner les mécanismes de sécurité intégrés sans mettre en œuvre des remplacements comparables, et toute redistribution du modèle ou de ses dérivés doit inclure le texte de la licence Nvidia Open Model License et l’attribution. La conformité aux réglementations et restrictions commerciales, ainsi que le respect des directives d’IA Fiable de Nvidia pour les considérations éthiques, sont également obligatoires. De plus, une clause de litige met automatiquement fin à la licence si un utilisateur engage un litige de droits d’auteur ou de brevets contre une autre entité alléguant une infraction par le modèle. Ces conditions visent à garantir une utilisation légale et éthique plutôt qu’à imposer des restrictions commerciales, permettant aux entreprises de faire évoluer leurs produits sans charges de redevances, à condition qu’elles respectent les obligations de sécurité, d’attribution et de conformité.

Avec Nemotron-Nano-9B-v2, Nvidia cible les développeurs qui exigent un équilibre nuancé entre la capacité de raisonnement et l’efficacité du déploiement à plus petite échelle. En combinant des architectures hybrides avec des techniques avancées de compression et d’entraînement, l’entreprise fournit des outils visant à maintenir la précision tout en réduisant considérablement les coûts et la latence, soulignant son attention continue aux modèles d’IA efficaces et contrôlables.