NVIDIA Nemotron Nano 2: LLMs 6 veces más rápidos con 128K de contexto

Marktechpost

NVIDIA ha presentado la familia Nemotron Nano 2, un nuevo conjunto de grandes modelos de lenguaje (LLMs) diseñados para ofrecer una precisión de razonamiento de vanguardia y una velocidad notable. Estos modelos, construidos sobre una novedosa arquitectura híbrida Mamba-Transformer, prometen un rendimiento de inferencia hasta seis veces más rápido en comparación con contrapartes de tamaño similar. Una característica definitoria de este lanzamiento es el compromiso de NVIDIA con una transparencia sin precedentes, proporcionando abiertamente la mayor parte del corpus de entrenamiento, las recetas y los puntos de control del modelo a la comunidad de IA en general. Crucialmente, estos modelos están diseñados para manejar longitudes de contexto masivas de 128,000 tokens en una sola GPU de gama media, como una NVIDIA A10G, lo que reduce significativamente las barreras para el razonamiento avanzado de contexto largo y la implementación práctica en el mundo real.

Los modelos Nemotron Nano 2 cuentan con impresionantes métricas de rendimiento. Pueden generar tokens hasta 6.3 veces más rápido que modelos como Qwen3-8B en escenarios intensivos en razonamiento, todo sin comprometer la precisión. Más allá de la velocidad bruta, los puntos de referencia revelan su precisión superior en un espectro de tareas, incluyendo razonamiento complejo, codificación y aplicaciones multilingües. Constantemente igualan o superan el rendimiento de modelos abiertos competitivos, destacando particularmente en la resolución de problemas matemáticos, la generación de código, la utilización de herramientas y las tareas que requieren una comprensión extensa del contexto. La capacidad de gestionar una longitud de contexto de 128K en una sola GPU, una hazaña previamente poco práctica para hardware de gama media, es un testimonio de su poda eficiente y diseño arquitectónico híbrido.

En el corazón de Nemotron Nano 2 se encuentra su innovadora espina dorsal híbrida Mamba-Transformer, inspirada en la arquitectura Nemotron-H más grande. Este diseño reemplaza en gran medida las capas tradicionales de autoatención con capas Mamba-2 altamente eficientes, con solo alrededor del ocho por ciento del total de capas reteniendo la autoatención. Esta cuidadosa elaboración arquitectónica, que presenta 56 capas en el modelo de 9 mil millones de parámetros, un tamaño oculto de 4480 y atención de consulta agrupada, permite que las capas de espacio de estado Mamba-2 faciliten tanto la escalabilidad como la retención robusta de secuencias largas. Las capas Mamba-2, conocidas por su procesamiento de secuencias de alto rendimiento, se intercalan estratégicamente con autoatención dispersa para mantener dependencias de largo alcance, junto con grandes redes de alimentación directa. Esta estructura es particularmente ventajosa para tareas de razonamiento que exigen “rastros de pensamiento” —salidas largas generadas basadas en entradas extensas en contexto— donde las arquitecturas tradicionales de transformadores a menudo encuentran cuellos de botella de rendimiento o limitaciones de memoria.

La metodología de entrenamiento de NVIDIA para los modelos Nemotron Nano 2 es tan notable como su arquitectura. Estos modelos son entrenados y destilados de un modelo maestro más grande de 12 mil millones de parámetros utilizando un corpus extenso y meticulosamente curado de alta calidad de 20 billones de tokens. Estos datos de preentrenamiento abarcan diversos dominios, incluyendo contenido web, matemáticas, código, texto multilingüe, artículos académicos y temas STEM. El compromiso de NVIDIA con la transparencia de datos se demuestra aún más con el lanzamiento de conjuntos de datos importantes bajo licencias permisivas en Hugging Face. Estos incluyen Nemotron-CC-v2, un rastreo web multilingüe con reformulación sintética de preguntas y respuestas; Nemotron-CC-Math, que comprende 133 mil millones de tokens de contenido matemático LaTeX estandarizado; Nemotron-Pretraining-Code, una colección de código fuente de GitHub filtrada por calidad; y Nemotron-Pretraining-SFT, conjuntos de datos sintéticos de seguimiento de instrucciones en varios dominios. Además, más de 80 mil millones de tokens de datos de post-entrenamiento, que abarcan el ajuste fino supervisado (SFT), el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF), la llamada a herramientas y conjuntos de datos multilingües, se han abierto para una reproducibilidad directa.

La eficiencia y la rentabilidad de Nemotron Nano 2 son el resultado del sofisticado proceso de compresión de modelos de NVIDIA, construido sobre los marcos de poda “Minitron” y Mamba. La destilación de conocimiento del modelo maestro de 12 mil millones de parámetros lo reduce a 9 mil millones de parámetros, logrado mediante una cuidadosa poda de capas, dimensiones de la red de alimentación directa y ancho de incrustación. Esto se complementa con técnicas de SFT de múltiples etapas y aprendizaje por refuerzo, incluyendo la optimización de llamadas a herramientas, el seguimiento de instrucciones y el control del “presupuesto de pensamiento” para gestionar los presupuestos de tokens de razonamiento durante la inferencia. A través de la búsqueda de arquitectura neuronal orientada a la memoria, los modelos podados están específicamente diseñados para garantizar que tanto el modelo como su caché de clave-valor se ajusten y sigan siendo eficientes dentro de las limitaciones de memoria de una GPU A10G, incluso con una longitud de contexto de 128K. Este enfoque holístico produce velocidades de inferencia hasta seis veces más rápidas que los competidores abiertos en escenarios con grandes tokens de entrada/salida, todo mientras se mantiene una precisión de tarea sin compromisos.

En resumen, el lanzamiento de Nemotron Nano 2 de NVIDIA marca un hito significativo en la investigación de LLM abiertos. Redefine las capacidades alcanzables en una sola GPU rentable en términos de velocidad y capacidad de contexto, estableciendo simultáneamente un nuevo estándar para la transparencia y reproducibilidad de datos. Su innovadora arquitectura híbrida, rendimiento superior y conjuntos de datos abiertos de alta calidad están a punto de acelerar significativamente la innovación en todo el ecosistema de IA.