NVIDIA Nemotron Nano 2: LLMs 6x plus rapides avec 128K de contexte
NVIDIA a introduit la famille Nemotron Nano 2, une nouvelle suite de grands modèles de langage (LLM) conçus pour offrir à la fois une précision de raisonnement de pointe et une vitesse remarquable. Ces modèles, construits sur une architecture hybride Mamba-Transformer novatrice, promettent un débit d’inférence jusqu’à six fois plus rapide par rapport à leurs homologues de taille similaire. Une caractéristique déterminante de cette publication est l’engagement de NVIDIA envers une transparence sans précédent, fournissant ouvertement la majeure partie du corpus d’entraînement, des recettes et des points de contrôle des modèles à la communauté plus large de l’IA. De manière cruciale, ces modèles sont conçus pour gérer des longueurs de contexte massives de 128 000 jetons sur une seule GPU de milieu de gamme, telle qu’une NVIDIA A10G, abaissant considérablement les barrières pour le raisonnement avancé à long contexte et le déploiement pratique dans le monde réel.
Les modèles Nemotron Nano 2 affichent des métriques de performance impressionnantes. Ils peuvent générer des jetons jusqu’à 6,3 fois plus rapidement que des modèles comme Qwen3-8B dans des scénarios gourmands en raisonnement, le tout sans compromettre la précision. Au-delà de la vitesse brute, les benchmarks révèlent leur précision supérieure sur un éventail de tâches, y compris le raisonnement complexe, le codage et les applications multilingues. Ils égalent ou dépassent constamment les performances des modèles ouverts concurrents, excellant particulièrement dans la résolution de problèmes mathématiques, la génération de code, l’utilisation d’outils et les tâches nécessitant une compréhension contextuelle étendue. La capacité à gérer une longueur de contexte de 128K sur une seule GPU, un exploit auparavant impraticable pour le matériel de milieu de gamme, témoigne de leur élagage efficace et de leur conception architecturale hybride.
Au cœur de Nemotron Nano 2 se trouve son architecture hybride Mamba-Transformer innovante, s’inspirant de l’architecture Nemotron-H plus grande. Cette conception remplace largement les couches d’auto-attention traditionnelles par des couches Mamba-2 très efficaces, avec seulement environ huit pour cent des couches totales conservant l’auto-attention. Cette conception architecturale soignée, comprenant 56 couches dans le modèle de 9 milliards de paramètres, une taille cachée de 4480 et une attention de requête groupée, permet aux couches d’espace d’état Mamba-2 de faciliter à la fois la scalabilité et une rétention robuste des séquences longues. Les couches Mamba-2, connues pour leur traitement de séquences à haut débit, sont stratégiquement entrelacées avec une auto-attention sparse pour maintenir les dépendances à longue portée, aux côtés de grands réseaux de propagation avant. Cette structure est particulièrement avantageuse pour les tâches de raisonnement qui exigent des “traces de pensée” — de longues sorties générées basées sur des entrées contextuelles étendues — où les architectures de transformateurs traditionnelles rencontrent souvent des goulots d’étranglement de performance ou des contraintes de mémoire.
La méthodologie d’entraînement de NVIDIA pour les modèles Nemotron Nano 2 est aussi remarquable que son architecture. Ces modèles sont entraînés et distillés à partir d’un modèle enseignant plus grand de 12 milliards de paramètres utilisant un corpus étendu et méticuleusement organisé de haute qualité de 20 billions de jetons. Ces données de pré-entraînement couvrent divers domaines, y compris le contenu web, les mathématiques, le code, le texte multilingue, les articles académiques et les sujets STEM. L’engagement de NVIDIA envers la transparence des données est en outre démontré par la publication de jeux de données majeurs sous des licences permissives sur Hugging Face. Ceux-ci incluent Nemotron-CC-v2, un crawl web multilingue avec reformulation synthétique de questions-réponses; Nemotron-CC-Math, comprenant 133 milliards de jetons de contenu mathématique LaTeX standardisé; Nemotron-Pretraining-Code, une collection de code source GitHub filtrée par qualité; et Nemotron-Pretraining-SFT, des jeux de données synthétiques de suivi d’instructions dans divers domaines. De plus, plus de 80 milliards de jetons de données post-entraînement, englobant le réglage fin supervisé (SFT), l’apprentissage par renforcement à partir de rétroaction humaine (RLHF), l’appel d’outils et les jeux de données multilingues, ont été mis en open source pour une reproductibilité directe.
L’efficacité et la rentabilité de Nemotron Nano 2 résultent du processus sophistiqué de compression de modèles de NVIDIA, basé sur les frameworks d’élagage “Minitron” et Mamba. La distillation des connaissances du modèle enseignant de 12 milliards de paramètres le réduit à 9 milliards de paramètres, réalisé par un élagage soigneux des couches, des dimensions du réseau de propagation avant et de la largeur d’intégration. Ceci est complété par des techniques de SFT multi-étapes et d’apprentissage par renforcement, y compris l’optimisation de l’appel d’outils, le suivi d’instructions et le contrôle du “budget de pensée” pour gérer les budgets de jetons de raisonnement pendant l’inférence. Grâce à une recherche d’architecture neuronale ciblée sur la mémoire, les modèles élagués sont spécifiquement conçus pour garantir que le modèle et son cache clé-valeur s’adaptent et restent performants dans les contraintes de mémoire d’une GPU A10G, même avec une longueur de contexte de 128K. Cette approche holistique permet des vitesses d’inférence jusqu’à six fois plus rapides que les concurrents ouverts dans des scénarios avec de grands jetons d’entrée/sortie, tout en maintenant une précision de tâche inchangée.
En résumé, la publication de Nemotron Nano 2 par NVIDIA marque une étape significative dans la recherche ouverte sur les LLM. Elle redéfinit les capacités réalisables sur une seule GPU rentable en termes de vitesse et de capacité de contexte, tout en établissant une nouvelle norme pour la transparence et la reproductibilité des données. Son architecture hybride innovante, son débit supérieur et ses jeux de données ouverts de haute qualité sont prêts à accélérer considérablement l’innovation dans l’ensemble de l’écosystème de l’IA.