GEPA: Optimisation rentable des LLM au-delà du RL

Une nouvelle méthode d’optimisation de l’intelligence artificielle, GEPA, promet de révolutionner la manière dont les grands modèles de langage (LLM) sont adaptés à des tâches spécialisées, réduisant drastiquement les coûts et les temps de développement. Développée par des chercheurs de l’Université de Californie, Berkeley, de l’Université de Stanford et de Databricks, GEPA va au-delà du paradigme conventionnel de l’apprentissage par renforcement (RL), qui repose sur des milliers d’essais et erreurs coûteux. Au lieu de cela, GEPA permet aux LLM d’utiliser leur propre compréhension linguistique pour réfléchir à leurs performances, diagnostiquer les erreurs et affiner itérativement leurs instructions, menant à une précision et une efficacité supérieures, souvent avec jusqu’à 35 fois moins d’exécutions de test.

L’optimisation des applications d’IA d’entreprise modernes, souvent appelées “systèmes d’IA composés” — des flux de travail complexes enchaînant plusieurs modules LLM avec des outils externes — présente un défi significatif. Une approche courante pour optimiser ces systèmes a été l’apprentissage par renforcement, illustré par des méthodes comme la Group Relative Policy Optimization (GRPO). Cette technique traite le système d’IA comme une boîte noire, lui fournissant un simple retour numérique, ou une “récompense scalaire”, pour ajuster progressivement ses paramètres internes. Cependant, l’“inefficacité d’échantillonnage” du RL nécessite un nombre énorme d’exécutions de test, ou “rollouts”, ce qui le rend prohibitif en termes de temps et de coûts pour les applications du monde réel impliquant des opérations coûteuses comme les requêtes API ou la compilation de code. Lakshya A Agrawal, co-auteur de l’article sur GEPA et doctorant à l’UC Berkeley, a souligné cette barrière, notant que le coût et la complexité du RL poussent souvent les équipes vers une “ingénierie d’invites” manuelle moins efficace. GEPA, a-t-il expliqué, est conçu pour les équipes tirant parti de modèles propriétaires de premier ordre qui ne peuvent pas être directement affinés, permettant des améliorations de performance sans avoir à gérer des clusters GPU personnalisés.

GEPA, qui signifie Genetic-Pareto, s’attaque à ce problème en remplaçant les récompenses numériques éparses par un retour riche en langage naturel. Il capitalise sur le fait que l’exécution d’un système d’IA entier, y compris ses étapes de raisonnement, ses appels d’outils et ses messages d’erreur, peut être convertie en texte qu’un LLM peut comprendre. La méthodologie repose sur trois piliers fondamentaux. Premièrement, l’“évolution génétique des invites” traite les invites comme un pool génétique, les “mutant” intelligemment pour générer des versions améliorées. Cette mutation est guidée par la “réflexion avec retour en langage naturel”. Après quelques exécutions de test, GEPA fournit à un LLM la trace d’exécution complète et le résultat, lui permettant de réfléchir à ce retour textuel, de diagnostiquer les problèmes et d’élaborer des invites plus détaillées et améliorées. Par exemple, au lieu de simplement enregistrer un score bas, le LLM pourrait analyser une erreur de compilateur et en déduire que l’invite doit spécifier une version particulière de bibliothèque.

Le troisième pilier, la “sélection basée sur Pareto”, assure une exploration intelligente. Plutôt que de se concentrer uniquement sur l’invite la plus performante, ce qui peut conduire à rester bloqué dans un “optimum local” sous-optimal, GEPA maintient une liste diversifiée d’invites “spécialistes”. Il suit les invites qui excellent sur différents exemples individuels, créant une liste de candidats solides. En échantillonnant à partir de cet ensemble diversifié de stratégies gagnantes, GEPA explore un éventail plus large de solutions, augmentant la probabilité de découvrir une invite robuste. Le succès de ce processus repose sur l’“ingénierie du feedback”, qu’Agrawal a expliquée comme la mise en évidence des détails textuels riches que les systèmes d’IA produisent déjà mais qui sont traditionnellement écartés.

Lors d’évaluations sur diverses tâches, GEPA a constamment surpassé les bases de référence établies, y compris le GRPO basé sur le RL. En utilisant à la fois des LLM open-source et propriétaires, GEPA a obtenu un score jusqu’à 19% plus élevé que GRPO tout en nécessitant jusqu’à 35 fois moins d’exécutions de test. Agrawal a cité un exemple convaincant : l’optimisation d’un système de questions-réponses a pris environ trois heures à GEPA, contre 24 heures pour GRPO — une réduction de 8 fois du temps de développement, associée à une augmentation de 20% des performances. Les économies de coûts ont été tout aussi substantielles, GEPA coûtant moins de 20 $ en temps GPU pour de meilleurs résultats, contre environ 300 $ pour l’optimisation basée sur le RL dans leurs tests — une économie de 15 fois.

Au-delà des performances brutes, les systèmes optimisés par GEPA ont démontré une plus grande fiabilité lorsqu’ils rencontrent de nouvelles données inédites, ce qui se reflète dans un “écart de généralisation” plus petit (la différence entre les performances d’entraînement et de test). Agrawal a attribué cela au retour en langage naturel plus riche de GEPA, favorisant une compréhension plus large du succès plutôt que de simplement apprendre des modèles spécifiques aux données d’entraînement. Pour les entreprises, cela se traduit par des applications d’IA plus résilientes et adaptables. De plus, les invites basées sur des instructions de GEPA sont jusqu’à 9,2 fois plus courtes que celles produites par d’autres optimiseurs, réduisant considérablement la latence et les coûts opérationnels pour les modèles basés sur API en production.

La recherche met également en évidence le potentiel de GEPA en tant que stratégie de recherche en “temps d’inférence”, transformant une IA d’un générateur de réponse unique en un solveur de problèmes itératif. Agrawal a imaginé GEPA intégré dans le pipeline d’intégration continue/livraison continue (CI/CD) d’une entreprise, où il pourrait générer, affiner et tester automatiquement plusieurs versions de code optimisées, puis proposer la variante la plus performante pour examen. Ce “processus continu et automatisé” peut produire rapidement des solutions qui égalent ou dépassent souvent le réglage manuel d’experts.

Les auteurs estiment que GEPA représente une étape fondamentale vers un nouveau paradigme dans le développement de l’IA. Son impact le plus immédiat, cependant, pourrait être la démocratisation de l’accès aux systèmes d’IA performants. Agrawal a conclu que GEPA est prête à rendre l’optimisation des systèmes d’IA accessible aux utilisateurs finaux qui possèdent une expertise critique du domaine mais manquent de temps ou d’inclination pour maîtriser les complexités de l’apprentissage par renforcement. Elle habilite efficacement les parties prenantes possédant les connaissances les plus pertinentes spécifiques à la tâche.

GEPA: Optimisation rentable des LLM au-delà du RL

Articles Connexes

Le MIT révèle le secret des prédictions des IA de protéines

Rapport Anaconda : Les Lacunes de la Gouvernance des Données Freinent l'IA

UNLV Lance un Centre d'IA pour Étudier l'Impact sur le Jeu