NVIDIA Nemotron Nano 2: 6x schneller, 128K Kontext LLMs
NVIDIA hat die Nemotron Nano 2 Familie vorgestellt, eine neue Suite von großen Sprachmodellen (LLMs), die entwickelt wurden, um sowohl modernste Schlussfolgerungsgenauigkeit als auch bemerkenswerte Geschwindigkeit zu liefern. Diese Modelle, die auf einer neuartigen hybriden Mamba-Transformer-Architektur basieren, versprechen einen bis zu sechsmal schnelleren Inferenzdurchsatz im Vergleich zu ähnlich großen Gegenstücken. Ein entscheidendes Merkmal dieser Veröffentlichung ist NVIDIAs Engagement für beispiellose Transparenz, indem der Großteil des Trainingskorpus, der Rezepte und der Modell-Checkpoints der breiteren KI-Gemeinschaft offen zur Verfügung gestellt wird. Entscheidend ist, dass diese Modelle darauf ausgelegt sind, massive Kontextlängen von 128.000 Tokens auf einer einzigen Midrange-GPU, wie einer NVIDIA A10G, zu verarbeiten, was die Hürden für fortgeschrittenes Langkontext-Schlussfolgern und praktische reale Bereitstellung erheblich senkt.
Die Nemotron Nano 2 Modelle weisen beeindruckende Leistungsmetriken auf. Sie können Tokens in schlussfolgerungsintensiven Szenarien bis zu 6,3 Mal schneller generieren als Modelle wie Qwen3-8B, und das alles ohne Kompromisse bei der Genauigkeit. Über die reine Geschwindigkeit hinaus zeigen Benchmarks ihre überlegene Genauigkeit über ein Spektrum von Aufgaben, einschließlich komplexer Schlussfolgerungen, Codierung und mehrsprachiger Anwendungen. Sie erreichen oder übertreffen konsequent die Leistung konkurrierender offener Modelle und zeichnen sich besonders bei der Lösung mathematischer Probleme, der Codegenerierung, der Werkzeugnutzung und Aufgaben aus, die ein umfassendes Kontextverständnis erfordern. Die Fähigkeit, eine 128K Kontextlänge auf einer einzigen GPU zu verwalten, eine Leistung, die zuvor für Midrange-Hardware unpraktisch war, ist ein Beweis für ihr effizientes Pruning und ihr hybrides Architekturdesign.
Im Herzen von Nemotron Nano 2 liegt seine innovative hybride Mamba-Transformer-Architektur, die von der größeren Nemotron-H-Architektur inspiriert ist. Dieses Design ersetzt traditionelle Self-Attention-Schichten weitgehend durch hoch effiziente Mamba-2-Schichten, wobei nur etwa acht Prozent der Gesamtschichten Self-Attention beibehalten. Diese sorgfältige architektonische Gestaltung, die 56 Schichten im 9-Milliarden-Parameter-Modell, eine Hidden Size von 4480 und Grouped-Query-Attention aufweist, ermöglicht es Mamba-2 State-Space-Schichten, sowohl Skalierbarkeit als auch robuste Langsequenz-Retention zu erleichtern. Mamba-2-Schichten, bekannt für ihre hohe Durchsatz-Sequenzverarbeitung, werden strategisch mit sparsamer Self-Attention verzahnt, um Langstreckenabhängigkeiten aufrechtzuerhalten, neben großen Feed-Forward-Netzwerken. Diese Struktur ist besonders vorteilhaft für Schlussfolgerungsaufgaben, die “Denkspuren” erfordern – lange, generierte Ausgaben basierend auf umfangreichen In-Kontext-Eingaben – wo traditionelle Transformer-Architekturen oft auf Leistungsengpässe oder Speicherbeschränkungen stoßen.
NVIDIAs Trainingsmethodik für die Nemotron Nano 2 Modelle ist ebenso bemerkenswert wie ihre Architektur. Diese Modelle werden aus einem größeren 12-Milliarden-Parameter-Lehrermodell unter Verwendung eines umfangreichen und sorgfältig kuratierten hochwertigen Korpus von 20 Billionen Tokens trainiert und destilliert. Diese Vortrainingsdaten umfassen verschiedene Domänen, darunter Webinhalte, Mathematik, Code, mehrsprachige Texte, wissenschaftliche Arbeiten und MINT-Fächer. NVIDIAs Engagement für Datentransparenz wird durch die Veröffentlichung wichtiger Datensätze unter permissiven Lizenzen auf Hugging Face weiter demonstriert. Dazu gehören Nemotron-CC-v2, ein mehrsprachiger Web-Crawl mit synthetischer Q&A-Umformulierung; Nemotron-CC-Math, bestehend aus 133 Milliarden Tokens standardisierten LaTeX-Mathematikinhalts; Nemotron-Pretraining-Code, eine qualitätsgefilterte GitHub-Quellcode-Sammlung; und Nemotron-Pretraining-SFT, synthetische Anweisungsfolge-Datensätze über verschiedene Domänen hinweg. Zusätzlich wurden über 80 Milliarden Tokens an Post-Trainingsdaten, einschließlich überwachtem Fine-Tuning (SFT), Reinforcement Learning aus menschlichem Feedback (RLHF), Tool-Calling und mehrsprachigen Datensätzen, für direkte Reproduzierbarkeit quelloffen gemacht.
Die Effizienz und Kosteneffizienz von Nemotron Nano 2 sind das Ergebnis von NVIDIAs ausgeklügeltem Modellkomprimierungsprozess, der auf den “Minitron”- und Mamba-Pruning-Frameworks aufbaut. Die Wissensdestillation vom 12-Milliarden-Parameter-Lehrermodell reduziert es auf 9 Milliarden Parameter, was durch sorgfältiges Pruning von Schichten, Feed-Forward-Netzwerkdimensionen und Embedding-Breite erreicht wird. Dies wird ergänzt durch mehrstufige SFT- und Reinforcement-Learning-Techniken, einschließlich Tool-Calling-Optimierung, Anweisungsfolge und “Thinking Budget”-Kontrolle zur Verwaltung von Reasoning-Token-Budgets während der Inferenz. Durch speicherorientierte neuronale Architektursuche sind die beschnittenen Modelle speziell darauf ausgelegt, sicherzustellen, dass sowohl das Modell als auch sein Key-Value-Cache in die Speicherbeschränkungen einer A10G-GPU passen und performant bleiben, selbst bei einer 128K Kontextlänge. Dieser ganzheitliche Ansatz führt zu Inferenzgeschwindigkeiten, die in Szenarien mit großen Eingabe-/Ausgabe-Tokens bis zu sechsmal schneller sind als bei offenen Konkurrenten, während die Aufgaben-Genauigkeit unbeeinträchtigt bleibt.
Zusammenfassend lässt sich sagen, dass NVIDIAs Nemotron Nano 2 Veröffentlichung einen bedeutenden Meilenstein in der offenen LLM-Forschung darstellt. Sie definiert die auf einer einzigen, kostengünstigen GPU erreichbaren Fähigkeiten in Bezug auf Geschwindigkeit und Kontextkapazität neu und setzt gleichzeitig einen neuen Standard für Datentransparenz und Reproduzierbarkeit. Ihre innovative Hybridarchitektur, ihr überlegener Durchsatz und ihre hochwertigen offenen Datensätze sind bereit, die Innovation im gesamten KI-Ökosystem erheblich zu beschleunigen.