GEPA: Kosteneffiziente LLM-Optimierung jenseits von RL

Venturebeat

Eine neue Optimierungsmethode für künstliche Intelligenz, GEPA, verspricht, die Anpassung großer Sprachmodelle (LLMs) für spezialisierte Aufgaben zu revolutionieren und dabei Kosten und Entwicklungszeiten drastisch zu senken. Von Forschern der University of California, Berkeley, der Stanford University und Databricks entwickelt, geht GEPA über das konventionelle Reinforcement Learning (RL)-Paradigma hinaus, das auf Tausenden von kostspieligen Versuch-und-Irrtum-Versuchen basiert. Stattdessen ermöglicht GEPA LLMs, ihr eigenes sprachliches Verständnis zu nutzen, um die Leistung zu reflektieren, Fehler zu diagnostizieren und ihre Anweisungen iterativ zu verfeinern, was zu überlegener Genauigkeit und Effizienz führt, oft mit bis zu 35-mal weniger Testläufen.

Die Optimierung moderner Unternehmens-KI-Anwendungen, oft als „Compound AI Systems“ bezeichnet – komplexe Workflows, die mehrere LLM-Module mit externen Tools verketten – stellt eine erhebliche Herausforderung dar. Ein gängiger Ansatz zur Optimierung dieser Systeme war Reinforcement Learning, veranschaulicht durch Methoden wie Group Relative Policy Optimization (GRPO). Diese Technik behandelt das KI-System als Black Box und speist es mit einfachem numerischem Feedback oder einer „skalaren Belohnung“, um seine internen Parameter schrittweise anzupassen. Die „Stichprobenineffizienz“ von RL erfordert jedoch eine enorme Anzahl von Testläufen oder „Rollouts“, was es für reale Anwendungen, die teure Operationen wie API-Abfragen oder Codekompilierung beinhalten, unerschwinglich langsam und kostspielig macht. Lakshya A Agrawal, Mitautor des GEPA-Papiers und Doktorand an der UC Berkeley, hob diese Barriere hervor und stellte fest, dass die Kosten und die Komplexität von RL Teams oft zu weniger effizientem manuellem „Prompt Engineering“ drängen. GEPA, erklärte er, ist für Teams konzipiert, die erstklassige proprietäre Modelle nutzen, die nicht direkt feinabgestimmt werden können, was Leistungsverbesserungen ohne die Verwaltung benutzerdefinierter GPU-Cluster ermöglicht.

GEPA, was für Genetic-Pareto steht, löst dies, indem es spärliche numerische Belohnungen durch reichhaltiges, natürliches Sprachfeedback ersetzt. Es nutzt die Tatsache, dass die Ausführung eines gesamten KI-Systems, einschließlich seiner Denkprozesse, Tool-Aufrufe und Fehlermeldungen, in Text umgewandelt werden kann, den ein LLM verstehen kann. Die Methodik ruht auf drei Kernpfeilern. Erstens behandelt die „genetische Prompt-Evolution“ Prompts wie einen Genpool, indem sie diese intelligent „mutiert“, um verbesserte Versionen zu generieren. Diese Mutation wird durch „Reflexion mit natürlichem Sprachfeedback“ angetrieben. Nach einigen Testläufen versorgt GEPA ein LLM mit der vollständigen Ausführungsverfolgung und dem Ergebnis, sodass es dieses Textfeedback reflektieren, Probleme diagnostizieren und detailliertere, verbesserte Prompts erstellen kann. Anstatt beispielsweise nur eine niedrige Punktzahl zu registrieren, könnte das LLM einen Compilerfehler analysieren und daraus schließen, dass der Prompt eine bestimmte Bibliotheksversion angeben muss.

Der dritte Pfeiler, die „Pareto-basierte Auswahl“, gewährleistet eine intelligente Exploration. Anstatt sich ausschließlich auf den einzelnen am besten performenden Prompt zu konzentrieren, was dazu führen kann, in einem suboptimalen „lokalen Optimum“ stecken zu bleiben, unterhält GEPA eine vielfältige Liste von „Spezialisten“-Prompts. Es verfolgt, welche Prompts bei verschiedenen individuellen Beispielen hervorragend abschneiden, und erstellt eine Liste starker Kandidaten. Durch die Stichprobenziehung aus diesem vielfältigen Satz von Gewinnstrategien erforscht GEPA eine breitere Palette von Lösungen und erhöht die Wahrscheinlichkeit, einen robusten Prompt zu entdecken. Der Erfolg dieses Prozesses hängt vom „Feedback Engineering“ ab, das Agrawal als das Sichtbarmachen der reichen, textuellen Details erklärte, die KI-Systeme bereits produzieren, aber traditionell verwerfen.

In Evaluierungen über verschiedene Aufgaben hinweg übertraf GEPA durchweg etablierte Baselines, einschließlich des RL-basierten GRPO. Sowohl mit Open-Source- als auch mit proprietären LLMs erzielte GEPA eine bis zu 19 % höhere Punktzahl als GRPO, während es bis zu 35-mal weniger Testläufe erforderte. Agrawal nannte ein überzeugendes Beispiel: Die Optimierung eines Frage-Antwort-Systems dauerte mit GEPA etwa drei Stunden im Vergleich zu GRPOs 24 Stunden – eine 8-fache Reduzierung der Entwicklungszeit zusammen mit einer Leistungssteigerung von 20 %. Die Kosteneinsparungen waren ebenfalls erheblich, wobei GEPA für bessere Ergebnisse weniger als 20 US-Dollar an GPU-Zeit kostete, gegenüber etwa 300 US-Dollar für RL-basierte Optimierung in ihren Tests – eine 15-fache Einsparung.

Über die reine Leistung hinaus zeigten GEPA-optimierte Systeme eine größere Zuverlässigkeit beim Umgang mit neuen, ungesehenen Daten, was sich in einer kleineren „Generalisierungslücke“ (der Unterschied zwischen Trainings- und Testleistung) widerspiegelte. Agrawal führte dies auf das reichere natürliche Sprachfeedback von GEPA zurück, das ein breiteres Verständnis von Erfolg fördert, anstatt lediglich Muster zu lernen, die spezifisch für Trainingsdaten sind. Für Unternehmen bedeutet dies widerstandsfähigere und anpassungsfähigere KI-Anwendungen. Darüber hinaus sind GEPA-basierte Prompts bis zu 9,2-mal kürzer als die von anderen Optimierern erzeugten, was die Latenz und die Betriebskosten für API-basierte Modelle in der Produktion erheblich reduziert.

Die Forschung hebt auch das Potenzial von GEPA als „Inferenzzeit“-Suchstrategie hervor, die eine KI von einem Einzelantwort-Generator in einen iterativen Problemlöser verwandelt. Agrawal stellte sich vor, dass GEPA in die Continuous Integration/Continuous Delivery (CI/CD)-Pipeline eines Unternehmens integriert wird, wo es automatisch mehrere optimierte Codeversionen generieren, verfeinern und testen und dann die leistungsstärkste Variante zur Überprüfung vorschlagen könnte. Dieser „kontinuierliche, automatisierte Prozess“ kann schnell Lösungen liefern, die oft der manuellen Abstimmung durch Experten entsprechen oder diese sogar übertreffen.

Die Autoren glauben, dass GEPA einen grundlegenden Schritt hin zu einem neuen Paradigma in der KI-Entwicklung darstellt. Die unmittelbarste Auswirkung könnte jedoch in der Demokratisierung des Zugangs zu hochleistungsfähigen KI-Systemen liegen. Agrawal schloss, dass GEPA bereit ist, die Optimierung von KI-Systemen für Endbenutzer zugänglich zu machen, die über kritisches Fachwissen verfügen, aber nicht die Zeit oder Neigung haben, die Komplexität des Reinforcement Learning zu meistern. Es befähigt effektiv genau die Stakeholder mit dem relevantesten aufgabenbezogenen Wissen.