Nvidia impulsa el cambio a LLM más pequeños y eficientes para agentes de IA

Decoder

Investigadores de Nvidia están instando a la industria de la inteligencia artificial a reevaluar críticamente su dependencia de los modelos de lenguaje masivos (LLM) para los sistemas de agentes de IA, argumentando que la trayectoria actual es insostenible tanto económica como ambientalmente. En su lugar, proponen un cambio estratégico hacia modelos de lenguaje más pequeños y eficientes, a los que denominan “Modelos de Lenguaje Pequeños” (SLM).

La disparidad financiera que subyace al enfoque actual es evidente. En 2024, el mercado de las API de LLM, que impulsan muchos sistemas de agentes, se valoró en 5.600 millones de dólares. Sin embargo, el gasto en infraestructura en la nube necesario para soportar estos mismos sistemas empequeñeció esa cifra, alcanzando un estimado de 57.000 millones de dólares, una diferencia de diez veces. Este modelo operativo, profundamente arraigado en la industria, constituye la base de importantes inversiones de capital, como destacaron los investigadores en su reciente artículo.

El equipo de Nvidia sostiene que los SLM, definidos como modelos con menos de 10 mil millones de parámetros, a menudo son “principalmente suficientemente potentes”, “intrínsecamente más adecuados operativamente” y “necesariamente más económicos” para la mayoría de las cargas de trabajo de los agentes de IA. Citan ejemplos convincentes: Microsoft Phi-2, a pesar de su tamaño modesto, supuestamente rivaliza con LLM de 30 mil millones de parámetros en razonamiento y generación de código, mientras opera 15 veces más rápido. De manera similar, los propios modelos Nemotron-H de Nvidia, con hasta 9 mil millones de parámetros, reportan lograr una precisión comparable a los LLM de 30 mil millones de parámetros utilizando significativamente menos potencia computacional. Otros modelos como Deepseek-R1-Distill-Qwen-7B y RETRO de DeepMind también se presentan como prueba de que los sistemas más pequeños pueden igualar o incluso superar el rendimiento de modelos propietarios mucho más grandes en tareas cruciales.

Las ventajas económicas de los SLM son particularmente convincentes. Operar un modelo de 7 mil millones de parámetros puede costar entre 10 y 30 veces menos que ejecutar un LLM de 70 a 175 mil millones de parámetros, un cálculo que tiene en cuenta la latencia, el consumo de energía y los requisitos computacionales brutos. Además, el ajuste fino de un SLM para aplicaciones específicas se puede lograr en solo horas de GPU, un marcado contraste con las semanas que a menudo se necesitan para modelos más grandes, acelerando drásticamente la adaptación. Muchos SLM también poseen la capacidad de ejecutarse localmente en hardware de consumo, lo que no solo reduce la latencia, sino que también otorga a los usuarios un mayor control sobre la privacidad de sus datos. Los investigadores también señalan que los SLM tienden a usar sus parámetros de manera más eficiente, mientras que los modelos más grandes con frecuencia activan solo una pequeña fracción de su vasta cantidad de parámetros para cualquier entrada dada, lo que lleva a una ineficiencia inherente. Argumentan que los agentes de IA, que son esencialmente “puertas de enlace a un modelo de lenguaje fuertemente instruidas y coreografiadas externamente”, rara vez requieren todo el espectro de capacidades que proporciona un LLM. Dado que la mayoría de las tareas de los agentes son repetitivas, de alcance limitado y no conversacionales, los SLM especializados ajustados para estos formatos específicos representan una solución mucho mejor. La recomendación es clara: construir sistemas de agentes heterogéneos que por defecto utilicen SLM, reservando los modelos más grandes solo para situaciones que realmente exijan un razonamiento complejo.

A pesar de estos claros beneficios, el cambio a los SLM enfrenta obstáculos significativos. El equipo de Nvidia identifica la fuerte inversión de la industria en infraestructura centralizada de LLM, su enfoque generalizado en las puntuaciones de referencia amplias y una falta general de conciencia pública sobre las capacidades avanzadas de los modelos más pequeños como barreras principales. Para facilitar esta transición, proponen un plan de seis pasos que abarca la recopilación y curación de datos, la agrupación de tareas, la selección adecuada de SLM, el ajuste fino para necesidades específicas y la mejora continua. Sus estudios de caso sugieren un potencial sustancial para este cambio, encontrando que entre el 40 y el 70 por ciento de las consultas de LLM en agentes de código abierto populares como MetaGPT, Open Operator y Cradle podrían ser manejadas con la misma eficacia por los SLM.

Para muchos, la transición a los SLM representa no solo un refinamiento técnico, sino también, como lo expresan los investigadores, un “deber moral humeano”. Esta dimensión ética se vuelve cada vez más relevante a la luz del aumento de los costos operativos y el creciente impacto ambiental de la infraestructura de IA a gran escala, una preocupación recientemente subrayada por los datos detallados de Mistral sobre el consumo de energía de sus modelos más grandes. Podría parecer paradójico que Nvidia, un importante beneficiario del auge de los LLM, defienda modelos más pequeños. Sin embargo, al abogar por una IA más accesible y eficiente, Nvidia podría expandir significativamente el mercado general de la IA, incrustando la tecnología más profundamente en empresas y dispositivos de consumo. La compañía está buscando activamente comentarios de la comunidad y planea publicar respuestas seleccionadas en línea, lo que indica un deseo genuino de fomentar este diálogo crucial de la industria.