Nvidia lanza Nemotron-Nano-9B-v2: Pequeño Modelo de IA Abierto con Control de Razonamiento

Venturebeat

Nvidia ha ingresado al floreciente campo de los modelos de lenguaje pequeños (SLM) con el lanzamiento de Nemotron-Nano-9B-v2, un modelo de IA compacto pero potente diseñado para ofrecer capacidades de razonamiento avanzadas mientras optimiza la eficiencia de implementación. Este movimiento sigue una tendencia de modelos de IA cada vez más pequeños y especializados capaces de ejecutarse en hardware menos potente, como los recientemente introducidos por Liquid AI, una escisión del MIT, y Google.

El Nemotron-Nano-9B-v2 cuenta con nueve mil millones de parámetros, una reducción significativa de su diseño inicial de 12 mil millones de parámetros. Esta optimización apunta específicamente a la implementación en una única GPU Nvidia A10, una opción popular para aplicaciones empresariales. Según Oleksii Kuchiaev, Director de Post-Entrenamiento de Modelos de IA de Nvidia, esta poda permite un tamaño de lote mayor y permite que el modelo procese información hasta seis veces más rápido que los modelos Transformer de tamaño similar. Para contextualizar, muchos modelos de lenguaje grandes (LLM) líderes operan en el rango de más de 70 mil millones de parámetros, donde los parámetros se refieren a la configuración interna que rige el comportamiento de un modelo, y más generalmente indica mayor capacidad pero también mayores demandas computacionales. El impulso hacia modelos más pequeños y eficientes como Nemotron-Nano-9B-v2 aborda las crecientes preocupaciones sobre el consumo de energía, el aumento de los costos de los tokens y los retrasos en la inferencia que están remodelando el panorama de la IA empresarial.

Una innovación arquitectónica significativa que sustenta Nemotron-Nano-9B-v2 es su naturaleza híbrida, que combina elementos de las arquitecturas Transformer y Mamba. Si bien los modelos Transformer ampliamente adoptados se basan únicamente en capas de atención, que pueden volverse intensivas en memoria y computación a medida que crecen las longitudes de secuencia, los modelos Nemotron-H (la familia a la que pertenece Nano-9B-v2) integran modelos de espacio de estado selectivo (SSM) de la arquitectura Mamba. Desarrollados por investigadores de la Universidad Carnegie Mellon y Princeton, los SSM se destacan en el manejo de secuencias de información muy largas al mantener estados internos. Estas capas escalan linealmente con la longitud de la secuencia, procesando eficientemente contextos más largos sin la sobrecarga sustancial de memoria y computación asociada con los mecanismos de autoatención tradicionales. Este enfoque híbrido reduce significativamente los costos operativos, logrando un rendimiento hasta dos o tres veces mayor en contextos largos con una precisión comparable, una estrategia que también están adoptando otros laboratorios de IA.

Una de las características destacadas de Nemotron-Nano-9B-v2 es su “razonamiento” de IA controlable por el usuario. El modelo, posicionado como un sistema unificado de chat y razonamiento solo de texto, por defecto genera un rastro de razonamiento interno antes de producir una respuesta final. Los usuarios pueden activar o desactivar este comportamiento utilizando tokens de control simples como /think o /no_think. Además, los desarrolladores pueden gestionar un “presupuesto de pensamiento” en tiempo de ejecución, limitando el número de tokens que el modelo dedica al razonamiento interno antes de completar una respuesta. Este mecanismo es crucial para equilibrar la precisión con la latencia, particularmente en aplicaciones sensibles al tiempo, como sistemas de soporte al cliente o agentes autónomos.

Las evaluaciones de referencia destacan la precisión competitiva de Nemotron-Nano-9B-v2 frente a otros modelos de pequeña escala abiertos. Cuando se probó en modo “razonamiento activado” utilizando la suite NeMo-Skills, logró puntuaciones impresionantes: 72.1 por ciento en AIME25, 97.8 por ciento en MATH500, 64.0 por ciento en GPQA y 71.1 por ciento en LiveCodeBench. Las puntuaciones para el seguimiento de instrucciones y los puntos de referencia de contexto largo también demuestran un fuerte rendimiento, con 90.3 por ciento en IFEval y 78.9 por ciento en la prueba RULER 128K. En general, Nano-9B-v2 muestra una mayor precisión que Qwen3-8B, un punto de comparación común en su clase. Nvidia ilustra estos resultados con curvas de precisión-presupuesto, demostrando cómo el rendimiento escala con el aumento de la asignación de tokens para el razonamiento, lo que sugiere que un control cuidadoso del presupuesto puede optimizar tanto la calidad como la latencia en aplicaciones del mundo real.

El modelo y su familia Nemotron-H subyacente fueron entrenados con una mezcla diversa de conjuntos de datos curados, obtenidos de la web y sintéticos, que incluyen texto general, código, matemáticas, ciencia, documentos legales y financieros, junto con conjuntos de datos de preguntas y respuestas de estilo de alineación. Notablemente, Nvidia confirmó el uso de rastros de razonamiento sintéticos generados por otros modelos grandes para reforzar el rendimiento en puntos de referencia complejos. El modelo también está diseñado para un amplio soporte de idiomas, manejando inglés, alemán, español, francés, italiano y japonés, con descripciones extendidas para coreano, portugués, ruso y chino, lo que lo hace adecuado tanto para el seguimiento de instrucciones como para la generación de código.

Nemotron-Nano-9B-v2 está disponible de inmediato en Hugging Face y a través del catálogo de modelos de Nvidia, lanzado bajo el Acuerdo de Licencia de Modelo Abierto de Nvidia. Esta licencia permisiva y amigable para empresas establece explícitamente que los modelos son comercialmente utilizables de inmediato, permitiendo a los desarrolladores crear y distribuir libremente modelos derivados. Crucialmente, Nvidia no reclama la propiedad de ninguna salida generada por el modelo, transfiriendo la responsabilidad y los derechos al desarrollador u organización que lo utiliza. Esto significa que las empresas pueden integrar el modelo en producción sin negociar licencias comerciales separadas o incurrir en tarifas vinculadas a umbrales de uso o niveles de ingresos, a diferencia de algunas licencias abiertas escalonadas.

Si bien es altamente permisiva, la licencia estipula varias condiciones clave centradas en la implementación responsable. Los usuarios no deben eludir los mecanismos de seguridad integrados sin implementar reemplazos comparables, y cualquier redistribución del modelo o sus derivados debe incluir el texto de la Licencia de Modelo Abierto de Nvidia y la atribución. El cumplimiento de las regulaciones y restricciones comerciales, junto con la adhesión a las directrices de IA Confiable de Nvidia para consideraciones éticas, también son obligatorios. Además, una cláusula de litigio rescinde automáticamente la licencia si un usuario inicia un litigio de derechos de autor o patentes contra otra entidad alegando infracción por parte del modelo. Estas condiciones están orientadas a garantizar un uso legal y ético en lugar de imponer restricciones comerciales, permitiendo a las empresas escalar sus productos sin cargas de regalías, siempre que respeten las obligaciones de seguridad, atribución y cumplimiento.

Con Nemotron-Nano-9B-v2, Nvidia se dirige a los desarrolladores que requieren un equilibrio matizado entre la capacidad de razonamiento y la eficiencia de implementación a menor escala. Al combinar arquitecturas híbridas con técnicas avanzadas de compresión y entrenamiento, la compañía proporciona herramientas que tienen como objetivo mantener la precisión mientras reducen significativamente los costos y la latencia, lo que subraya su enfoque continuo en modelos de IA eficientes y controlables.