Nvidia enthüllt Nemotron-Nano-9B-v2: Kleines, offenes KI-Modell mit Reasoning-Schalter

Venturebeat

Nvidia ist mit der Veröffentlichung von Nemotron-Nano-9B-v2, einem kompakten und doch leistungsstarken KI-Modell, das fortschrittliche Reasoning-Fähigkeiten bieten und gleichzeitig die Bereitstellungseffizienz optimieren soll, in das aufstrebende Feld der Small Language Models (SLMs) eingetreten. Dieser Schritt folgt einem Trend zu immer kleineren, spezialisierteren KI-Modellen, die auf weniger leistungsfähiger Hardware laufen können, wie sie kürzlich von der MIT-Ausgründung Liquid AI und Google vorgestellt wurden.

Das Nemotron-Nano-9B-v2 verfügt über neun Milliarden Parameter, eine deutliche Reduzierung gegenüber seinem ursprünglichen Design mit 12 Milliarden Parametern. Diese Optimierung zielt speziell auf die Bereitstellung auf einer einzelnen Nvidia A10 GPU ab, einer beliebten Wahl für Unternehmensanwendungen. Laut Oleksii Kuchiaev, Nvidias Director of AI Model Post-Training, ermöglicht diese Beschneidung eine größere Batch-Größe und lässt das Modell Informationen bis zu sechsmal schneller verarbeiten als Transformer-Modelle ähnlicher Größe. Zum Vergleich: Viele führende Large Language Models (LLMs) operieren im Bereich von über 70 Milliarden Parametern, wobei Parameter die internen Einstellungen bezeichnen, die das Verhalten eines Modells steuern, wobei mehr Parameter im Allgemeinen eine höhere Fähigkeit, aber auch höhere Rechenanforderungen bedeuten. Der Vorstoß hin zu kleineren, effizienteren Modellen wie Nemotron-Nano-9B-v2 begegnet wachsenden Bedenken hinsichtlich des Stromverbrauchs, steigender Token-Kosten und Inferenzverzögerungen, die die Landschaft der Unternehmens-KI neu gestalten.

Eine bedeutende architektonische Innovation, die Nemotron-Nano-9B-v2 zugrunde liegt, ist seine hybride Natur, die Elemente sowohl der Transformer- als auch der Mamba-Architektur kombiniert. Während die weit verbreiteten Transformer-Modelle ausschließlich auf Aufmerksamkeits-Schichten (Attention Layers) basieren, die bei wachsender Sequenzlänge speicher- und rechenintensiv werden können, integrieren Nemotron-H-Modelle (die Familie, zu der Nano-9B-v2 gehört) selektive Zustandsraummodelle (SSMs) aus der Mamba-Architektur. Von Forschern der Carnegie Mellon University und Princeton entwickelt, zeichnen sich SSMs durch die Verarbeitung sehr langer Informationssequenzen aus, indem sie interne Zustände beibehalten. Diese Schichten skalieren linear mit der Sequenzlänge und verarbeiten längere Kontexte effizient ohne den erheblichen Speicher- und Rechenaufwand, der mit traditionellen Selbstaufmerksamkeitsmechanismen verbunden ist. Dieser hybride Ansatz reduziert die Betriebskosten erheblich und erreicht bei langen Kontexten eine bis zu zwei- bis dreimal höhere Durchsatzrate bei vergleichbarer Genauigkeit, eine Strategie, die auch von anderen KI-Laboren übernommen wird.

Eines der herausragenden Merkmale von Nemotron-Nano-9B-v2 ist sein benutzersteuerbares KI-“Reasoning”. Das Modell, das als einheitliches, textbasiertes Chat- und Reasoning-System positioniert ist, generiert standardmäßig eine interne Reasoning-Spur, bevor es eine endgültige Antwort produziert. Benutzer können dieses Verhalten mithilfe einfacher Steuer-Tokens wie /think oder /no_think ein- oder ausschalten. Darüber hinaus können Entwickler zur Laufzeit ein “Denkbudget” verwalten, das die Anzahl der Tokens begrenzt, die das Modell für die interne Reasoning aufwendet, bevor es eine Antwort abschließt. Dieser Mechanismus ist entscheidend, um Genauigkeit und Latenz auszugleichen, insbesondere in zeitkritischen Anwendungen wie Kundensupportsystemen oder autonomen Agenten.

Benchmark-Evaluierungen unterstreichen die wettbewerbsfähige Genauigkeit von Nemotron-Nano-9B-v2 gegenüber anderen offenen Small-Scale-Modellen. Im Modus „Reasoning On“ unter Verwendung der NeMo-Skills-Suite erzielte es beeindruckende Ergebnisse: 72,1 Prozent bei AIME25, 97,8 Prozent bei MATH500, 64,0 Prozent bei GPQA und 71,1 Prozent bei LiveCodeBench. Auch die Ergebnisse für die Befolgung von Anweisungen und Long-Context-Benchmarks zeigen eine starke Leistung, mit 90,3 Prozent bei IFEval und 78,9 Prozent beim RULER 128K-Test. Insgesamt zeigt Nano-9B-v2 eine höhere Genauigkeit als Qwen3-8B, ein gängiger Vergleichspunkt in seiner Klasse. Nvidia illustriert diese Ergebnisse mit Genauigkeits-versus-Budget-Kurven, die zeigen, wie die Leistung mit erhöhter Token-Zulage für Reasoning skaliert, was darauf hindeutet, dass eine sorgfältige Budgetkontrolle sowohl Qualität als auch Latenz in realen Anwendungen optimieren kann.

Das Modell und seine zugrunde liegende Nemotron-H-Familie wurden auf einer vielfältigen Mischung aus kuratierten, webbasierten und synthetischen Datensätzen trainiert, darunter allgemeiner Text, Code, Mathematik, Wissenschaft, Rechts- und Finanzdokumente sowie Alignment-Stil-Frage-Antwort-Datensätze. Bemerkenswert ist, dass Nvidia die Verwendung von synthetischen Reasoning-Spuren bestätigte, die von anderen großen Modellen generiert wurden, um die Leistung bei komplexen Benchmarks zu steigern. Das Modell ist auch für eine breite Sprachunterstützung konzipiert, es verarbeitet Englisch, Deutsch, Spanisch, Französisch, Italienisch und Japanisch, mit erweiterten Beschreibungen für Koreanisch, Portugiesisch, Russisch und Chinesisch, wodurch es sowohl für die Befolgung von Anweisungen als auch für die Codegenerierung geeignet ist.

Nemotron-Nano-9B-v2 ist sofort auf Hugging Face und über Nvidias Modellkatalog verfügbar, veröffentlicht unter dem Nvidia Open Model License Agreement. Diese permissive, unternehmensfreundliche Lizenz besagt ausdrücklich, dass die Modelle sofort kommerziell nutzbar sind, wodurch Entwickler freie Hand haben, derivative Modelle zu erstellen und zu vertreiben. Entscheidend ist, dass Nvidia keinerlei Eigentumsansprüche an den vom Modell generierten Ausgaben erhebt, sondern die Verantwortung und Rechte beim Entwickler oder der Organisation belässt, die es verwendet. Dies bedeutet, dass Unternehmen das Modell in die Produktion integrieren können, ohne separate kommerzielle Lizenzen aushandeln oder Gebühren zahlen zu müssen, die an Nutzungsschwellen oder Umsatzniveaus gebunden sind, im Gegensatz zu einigen gestuften Open-Lizenzen.

Obwohl die Lizenz sehr permissiv ist, legt sie mehrere Schlüsselbedingungen fest, die sich auf eine verantwortungsvolle Bereitstellung konzentrieren. Benutzer dürfen eingebaute Sicherheitsmechanismen nicht umgehen, ohne vergleichbare Ersatzlösungen zu implementieren, und jede Weiterverteilung des Modells oder seiner Derivate muss den Text der Nvidia Open Model License und die Namensnennung enthalten. Die Einhaltung von Handelsvorschriften und -beschränkungen sowie die Einhaltung der Nvidia Trustworthy AI-Richtlinien für ethische Überlegungen sind ebenfalls obligatorisch. Darüber hinaus beendet eine Streitbeilegungsklausel die Lizenz automatisch, wenn ein Benutzer Urheberrechts- oder Patentklagen gegen eine andere Entität einleitet, die eine Verletzung durch das Modell behauptet. Diese Bedingungen zielen darauf ab, eine legale und ethische Nutzung sicherzustellen, anstatt kommerzielle Beschränkungen aufzuerlegen, sodass Unternehmen ihre Produkte ohne Lizenzgebühren skalieren können, vorausgesetzt, sie respektieren Sicherheits-, Zuordnungs- und Compliance-Verpflichtungen.

Mit Nemotron-Nano-9B-v2 richtet sich Nvidia an Entwickler, die ein nuanciertes Gleichgewicht zwischen Reasoning-Fähigkeit und Bereitstellungseffizienz in kleineren Maßstäben benötigen. Durch die Kombination von Hybridarchitekturen mit fortschrittlichen Kompressions- und Trainingstechniken stellt das Unternehmen Tools bereit, die darauf abzielen, die Genauigkeit zu erhalten und gleichzeitig Kosten und Latenz erheblich zu reduzieren, was Nvidias fortgesetzten Fokus auf effiziente und steuerbare KI-Modelle unterstreicht.