GEPA: Optimización rentables de LLM más allá del RL

Venturebeat

Un nuevo método de optimización de inteligencia artificial, GEPA, promete revolucionar la forma en que los grandes modelos de lenguaje (LLM) se adaptan a tareas especializadas, reduciendo drásticamente los costos y los tiempos de desarrollo. Desarrollado por investigadores de la Universidad de California, Berkeley, la Universidad de Stanford y Databricks, GEPA va más allá del paradigma convencional del aprendizaje por refuerzo (RL), que se basa en miles de costosos intentos de prueba y error. En cambio, GEPA permite a los LLM usar su propia comprensión lingüística para reflexionar sobre el rendimiento, diagnosticar errores y refinar iterativamente sus instrucciones, lo que lleva a una precisión y eficiencia superiores, a menudo con hasta 35 veces menos ejecuciones de prueba.

Optimizar las aplicaciones modernas de IA empresarial, a menudo denominadas “sistemas de IA compuestos” —flujos de trabajo complejos que encadenan múltiples módulos de LLM con herramientas externas— presenta un desafío significativo. Un enfoque común para optimizar estos sistemas ha sido el aprendizaje por refuerzo, ejemplificado por métodos como la Optimización de Políticas Relativas de Grupo (GRPO). Esta técnica trata el sistema de IA como una caja negra, alimentándolo con retroalimentación numérica simple, o una “recompensa escalar”, para ajustar gradualmente sus parámetros internos. Sin embargo, la “ineficiencia de muestreo” del RL requiere un número enorme de ejecuciones de prueba, o “rollouts”, lo que lo hace prohibitivamente lento y costoso para aplicaciones del mundo real que involucran operaciones caras como consultas de API o compilación de código. Lakshya A Agrawal, coautor del artículo de GEPA y estudiante de doctorado en UC Berkeley, destacó esta barrera, señalando que el costo y la complejidad del RL a menudo empujan a los equipos hacia una “ingeniería de prompts” manual menos eficiente. GEPA, explicó, está diseñado para equipos que aprovechan modelos propietarios de primer nivel que no pueden ajustarse directamente, lo que permite mejoras de rendimiento sin tener que gestionar clústeres de GPU personalizados.

GEPA, que significa Genetic-Pareto (Genético-Pareto), aborda esto reemplazando las recompensas numéricas escasas con retroalimentación rica y en lenguaje natural. Capitaliza el hecho de que la ejecución de un sistema de IA completo, incluyendo sus pasos de razonamiento, llamadas a herramientas y mensajes de error, puede convertirse en texto que un LLM puede comprender. La metodología se basa en tres pilares fundamentales. Primero, la “evolución genética de prompts” trata los prompts como un acervo genético, “mutándolos” inteligentemente para generar versiones mejoradas. Esta mutación es impulsada por la “reflexión con retroalimentación en lenguaje natural”. Después de unas pocas ejecuciones de prueba, GEPA proporciona a un LLM el rastro de ejecución completo y el resultado, permitiéndole reflexionar sobre esta retroalimentación textual, diagnosticar problemas y elaborar prompts más detallados y mejorados. Por ejemplo, en lugar de simplemente registrar una puntuación baja, el LLM podría analizar un error del compilador e inferir que el prompt necesita especificar una versión particular de la biblioteca.

El tercer pilar, la “selección basada en Pareto”, asegura una exploración inteligente. En lugar de centrarse únicamente en el prompt de mejor rendimiento, lo que puede llevar a quedarse atascado en un “óptimo local” subóptimo, GEPA mantiene una lista diversa de prompts “especialistas”. Rastrea qué prompts sobresalen en diferentes ejemplos individuales, creando una lista de candidatos fuertes. Al muestrear de este conjunto diverso de estrategias ganadoras, GEPA explora una gama más amplia de soluciones, aumentando la probabilidad de descubrir un prompt robusto. El éxito de este proceso depende de la “ingeniería de retroalimentación”, que Agrawal explicó como la forma de sacar a la luz los ricos detalles textuales que los sistemas de IA ya producen pero que tradicionalmente descartan.

En evaluaciones en diversas tareas, GEPA superó consistentemente las líneas de base establecidas, incluyendo GRPO basado en RL. Utilizando tanto LLM de código abierto como propietarios, GEPA logró una puntuación hasta un 19% más alta que GRPO, requiriendo hasta 35 veces menos ejecuciones de prueba. Agrawal citó un ejemplo convincente: optimizar un sistema de preguntas y respuestas le tomó a GEPA aproximadamente tres horas en comparación con las 24 horas de GRPO, una reducción de 8 veces en el tiempo de desarrollo junto con un aumento del rendimiento del 20%. Los ahorros de costos fueron igualmente sustanciales, con GEPA costando menos de $20 en tiempo de GPU para mejores resultados, frente a unos $300 para la optimización basada en RL en sus pruebas, un ahorro de 15 veces.

Más allá del rendimiento bruto, los sistemas optimizados con GEPA demostraron mayor fiabilidad al encontrar datos nuevos e inéditos, lo que se reflejó en una “brecha de generalización” más pequeña (la diferencia entre el rendimiento de entrenamiento y prueba). Agrawal atribuyó esto a la retroalimentación en lenguaje natural más rica de GEPA, que fomenta una comprensión más amplia del éxito en lugar de simplemente aprender patrones específicos de los datos de entrenamiento. Para las empresas, esto se traduce en aplicaciones de IA más resilientes y adaptables. Además, los prompts basados en instrucciones de GEPA son hasta 9.2 veces más cortos que los producidos por otros optimizadores, reduciendo significativamente la latencia y los costos operativos para los modelos basados en API en producción.

La investigación también destaca el potencial de GEPA como estrategia de búsqueda en “tiempo de inferencia”, transformando una IA de un generador de una sola respuesta en un solucionador de problemas iterativo. Agrawal imaginó a GEPA integrada en el pipeline de integración continua/entrega continua (CI/CD) de una empresa, donde podría generar, refinar y probar automáticamente múltiples versiones de código optimizadas, y luego proponer la variante de mejor rendimiento para su revisión. Este “proceso continuo y automatizado” puede producir rápidamente soluciones que a menudo igualan o superan la sintonización manual de expertos.

Los autores creen que GEPA representa un paso fundamental hacia un nuevo paradigma en el desarrollo de la IA. Sin embargo, su impacto más inmediato puede ser la democratización del acceso a sistemas de IA de alto rendimiento. Agrawal concluyó que GEPA está preparada para hacer que la optimización de sistemas de IA sea accesible para los usuarios finales que poseen una experiencia de dominio crítica pero carecen del tiempo o la inclinación para dominar las complejidades del aprendizaje por refuerzo. Empodera eficazmente a los mismos interesados con el conocimiento más relevante para la tarea.