Hugging Face: 5 Claves para que las Empresas Recorten Costos de IA

Venturebeat

Las empresas han llegado a aceptar en gran medida que los modelos de inteligencia artificial demandan una potencia computacional sustancial, lo que lleva a una búsqueda continua de más recursos. Sin embargo, Sasha Luccioni, líder de IA y clima en Hugging Face, postula un enfoque diferente: en lugar de buscar interminablemente más capacidad de cómputo, las organizaciones deberían centrarse en una utilización más inteligente para mejorar el rendimiento y la precisión del modelo. Luccioni argumenta que el enfoque actual de la industria está equivocado, a menudo “cegado por la necesidad de más FLOPS, más GPUs y más tiempo”, cuando la verdadera oportunidad radica en optimizar las capacidades existentes.

Una estrategia fundamental implica dimensionar correctamente los modelos de IA para sus tareas específicas. Optar por modelos masivos de propósito general para cada aplicación es ineficiente. En cambio, los modelos específicos de tareas o “destilados” a menudo pueden igualar o incluso superar la precisión de sus contrapartes más grandes para cargas de trabajo específicas, todo ello reduciendo significativamente los costos y el consumo de energía. Las pruebas de Luccioni, por ejemplo, revelaron que un modelo específico de tarea podría usar de 20 a 30 veces menos energía que uno de propósito general, precisamente porque está optimizado para una función singular en lugar de intentar manejar cualquier solicitud arbitraria. La destilación, un proceso donde un modelo grande se entrena inicialmente y luego se refina para una aplicación estrecha, es clave aquí. Un modelo completo como DeepSeek R1 podría necesitar ocho GPUs, lo que lo hace inalcanzable para muchas organizaciones, mientras que sus versiones destiladas pueden ser 10, 20 o incluso 30 veces más pequeñas, capaces de ejecutarse en una sola GPU. La creciente disponibilidad de modelos de código abierto ayuda aún más a la eficiencia, permitiendo a las empresas ajustar modelos base existentes en lugar de gastar recursos en entrenar desde cero, fomentando un ecosistema de innovación colaborativa. A medida que las empresas luchan cada vez más con los costos desproporcionados de la IA generativa frente a sus beneficios, la demanda de aplicaciones de IA específicas y de alto valor —lo que Luccioni llama “inteligencia específica” en lugar de IA general— se está convirtiendo en la próxima frontera.

Más allá de la selección de modelos, diseñar sistemas con la eficiencia como predeterminada es fundamental. Esto implica aplicar la “teoría del empujón”, un concepto de economía conductual, para influir en las elecciones computacionales. Al establecer presupuestos de razonamiento conservadores, limitar las funciones generativas siempre activas y requerir que los usuarios opten por modos de cómputo de alto costo, las organizaciones pueden guiar sutilmente el comportamiento hacia prácticas más conscientes de los recursos. Luccioni cita el ejemplo de preguntar a los clientes si quieren cubiertos de plástico con pedidos de comida para llevar, lo que reduce drásticamente el desperdicio. De manera similar, señala cómo los motores de búsqueda populares generan automáticamente resúmenes de IA, o cómo GPT-5 de OpenAI se predetermina al modo de razonamiento completo para consultas simples. Para preguntas comunes como actualizaciones del clima u horarios de farmacias, un procesamiento tan extenso a menudo es innecesario. Luccioni aboga por un modo predeterminado de “sin razonamiento”, con funciones generativas de alto costo reservadas para escenarios complejos y de suscripción voluntaria.

La optimización de la utilización del hardware es otra área crucial. Esto implica prácticas como el procesamiento por lotes de solicitudes, el ajuste de la precisión computacional y la optimización del tamaño de los lotes específicamente para la generación de hardware subyacente. Las empresas deben evaluar críticamente si los modelos realmente necesitan estar “siempre activos” o si las ejecuciones periódicas y el procesamiento por lotes podrían ser suficientes, optimizando así el uso de la memoria. Luccioni enfatiza que este es un desafío de ingeniería matizado; incluso un ligero aumento en el tamaño del lote puede elevar significativamente el consumo de energía debido al aumento de las demandas de memoria, lo que subraya la importancia de ajustes meticulosos adaptados a contextos de hardware específicos.

Para fomentar un cambio más amplio hacia la eficiencia, incentivar la transparencia energética es vital. La “Puntuación de Energía de IA” de Hugging Face, lanzada a principios de este año, tiene como objetivo precisamente eso. Este novedoso sistema de calificación de 1 a 5 estrellas, similar al programa “Energy Star” para electrodomésticos, proporciona una métrica clara para la eficiencia energética del modelo, con los modelos de cinco estrellas representando los más eficientes. Hugging Face mantiene una tabla de clasificación pública, actualizada regularmente, con el objetivo de establecer la calificación como una “insignia de honor” que alienta a los constructores de modelos a priorizar el diseño consciente de la energía.

En última instancia, estas estrategias se unen en un replanteamiento fundamental de la mentalidad de “más capacidad de cómputo es mejor”. En lugar de buscar reflexivamente los clústeres de GPU más grandes, las empresas deberían comenzar preguntando: “¿Cuál es la forma más inteligente de lograr el resultado deseado?” Para muchas cargas de trabajo, un diseño arquitectónico superior y conjuntos de datos meticulosamente seleccionados superarán consistentemente la escalabilidad por fuerza bruta. Luccioni enfatiza que las organizaciones probablemente necesitan menos GPUs de las que perciben, instándolas a reevaluar las tareas específicas que la IA debe realizar, cómo se manejaban esas tareas anteriormente y los beneficios incrementales reales de agregar más potencia computacional. La actual “carrera a la baja” por clústeres más grandes debe dar paso a un enfoque estratégico en la IA impulsada por un propósito, aprovechando las técnicas más apropiadas en lugar de simplemente acumular más potencia de procesamiento bruta.