Modelos de IA de Código Abierto: Su Costo Oculto en el Consumo de Cómputo
Un nuevo estudio exhaustivo ha revelado un desafío significativo a la creencia predominante de que los modelos de inteligencia artificial de código abierto ofrecen claras ventajas económicas sobre sus contrapartes propietarias. La investigación realizada por la firma de IA Nous Research indica que los modelos de código abierto consumen sustancialmente más recursos computacionales para realizar tareas idénticas, lo que podría erosionar sus percibidos beneficios de costo y requerir una reevaluación de las estrategias de implementación de IA empresarial.
El estudio, que analizó 19 modelos de IA diferentes en un espectro de tareas que incluyen preguntas de conocimiento básico, problemas matemáticos y acertijos de lógica, encontró que los modelos de código abierto utilizan entre 1.5 y 4 veces más tokens —las unidades fundamentales de la computación de IA— que los modelos cerrados de desarrolladores como OpenAI y Anthropic. Esta disparidad fue particularmente marcada para las consultas de conocimiento simple, donde algunos modelos abiertos consumieron hasta 10 veces más tokens. Los investigadores señalaron en su informe que, si bien los modelos de código abierto suelen presumir de menores costos de ejecución por token, esta ventaja puede ser “fácilmente compensada si requieren más tokens para razonar sobre un problema dado”, lo que los hace potencialmente más caros por consulta.
Una métrica clave examinada fue la “eficiencia de tokens”, que mide cuántas unidades computacionales utilizan los modelos en relación con la complejidad de sus soluciones. Esta métrica, a pesar de sus profundas implicaciones de costo, ha recibido poco estudio sistemático hasta ahora. La ineficiencia es especialmente pronunciada en los Grandes Modelos de Razonamiento (LRM), que emplean “cadenas de pensamiento” extendidas —procesos de razonamiento paso a paso— para abordar problemas complejos. Estos modelos pueden, sorprendentemente, gastar cientos o incluso miles de tokens reflexionando sobre preguntas simples que deberían requerir una computación mínima, como “¿Cuál es la capital de Australia?”.
La investigación reveló diferencias sorprendentes en la eficiencia entre los proveedores de modelos. Los modelos de OpenAI, incluyendo sus variantes o4-mini y el recién lanzado gpt-oss de código abierto, demostraron una eficiencia de tokens excepcional, particularmente para problemas matemáticos, utilizando hasta tres veces menos tokens que otros modelos comerciales. Entre las opciones de código abierto, llama-3.3-nemotron-super-49b-v1 de Nvidia emergió como el modelo más eficiente en tokens en todos los dominios, mientras que los modelos más nuevos de compañías como Magistral exhibieron un uso de tokens excepcionalmente alto, destacándose como valores atípicos. Si bien los modelos abiertos utilizaron aproximadamente el doble de tokens para problemas matemáticos y de lógica, la brecha se amplió drásticamente para preguntas de conocimiento simple donde el razonamiento extenso debería ser innecesario.
Estos hallazgos tienen implicaciones inmediatas y significativas para la adopción de la IA empresarial, donde los costos de computación pueden escalar rápidamente con el uso. Las empresas que evalúan modelos de IA a menudo priorizan los puntos de referencia de precisión y el precio por token, pasando por alto con frecuencia los requisitos computacionales totales para tareas del mundo real. El estudio concluyó que “la mejor eficiencia de tokens de los modelos de peso cerrado a menudo compensa el mayor precio de la API de esos modelos” al analizar los costos totales de inferencia. Esto sugiere que los proveedores de modelos propietarios han optimizado activamente sus ofertas para la eficiencia, reduciendo iterativamente el uso de tokens para disminuir los costos de inferencia. Por el contrario, algunos modelos de código abierto han mostrado un mayor uso de tokens en versiones más nuevas, lo que posiblemente refleja una priorización de un mejor rendimiento de razonamiento sobre la frugalidad computacional.
Medir la eficiencia entre diversas arquitecturas de modelos presentó desafíos únicos, particularmente porque muchos modelos de código cerrado no divulgan sus procesos de razonamiento brutos. Para sortear esto, los investigadores utilizaron tokens de finalización —las unidades computacionales totales facturadas por cada consulta— como un indicador del esfuerzo de razonamiento. Descubrieron que la mayoría de los modelos de código cerrado recientes proporcionan resúmenes comprimidos de sus cálculos internos, a menudo utilizando modelos de lenguaje más pequeños para transcribir cadenas de pensamiento complejas, protegiendo así sus técnicas propietarias. La metodología del estudio también incluyó pruebas con versiones modificadas de problemas conocidos, como la alteración de variables en problemas de competiciones matemáticas, para minimizar la influencia de soluciones memorizadas.
De cara al futuro, los investigadores abogan por que la eficiencia de tokens se convierta en un objetivo de optimización principal junto con la precisión en el desarrollo futuro de modelos. Sugieren que una “CoT más densificada” permitirá un uso más eficiente del contexto y podría contrarrestar la degradación del contexto durante tareas de razonamiento desafiantes. La llegada de los modelos gpt-oss de código abierto de OpenAI, que combinan la eficiencia de vanguardia con cadenas de pensamiento de libre acceso, podría servir como un punto de referencia crucial para optimizar otros modelos de código abierto. A medida que la industria de la IA avanza hacia capacidades de razonamiento más potentes, este estudio subraya que la verdadera competencia puede no ser simplemente sobre quién construye la IA más inteligente, sino quién puede construir la más eficiente. Después de todo, en un ecosistema donde cada token cuenta, los modelos más derrochadores, independientemente de su destreza intelectual, podrían finalmente quedar fuera del mercado por su precio.