MoA: Wie Multi-Agenten LLMs GPT-4 übertreffen – kostengünstiger!

Hackernoon

Das Mixture-of-Agents (MoA)-Framework ist darauf ausgelegt, die Art und Weise neu zu definieren, wie große Sprachmodelle (LLMs) höhere Genauigkeitsgrade, Argumentationstiefe und Zuverlässigkeit erreichen. Anstatt sich auf ein einzelnes, monolithisches LLM zu verlassen, orchestriert MoA ein Team spezialisierter Modelle, die in strukturierten Schichten zusammenarbeiten und die Ausgaben Schritt für Schritt verfeinern. Dieser innovative Ansatz liefert bereits Spitzenleistungen, selbst bei der Verwendung von Open-Source-Modellen, und hat gezeigt, dass er Top-Proprietäre LLMs wie GPT-4 Omni bei mehreren Benchmarks übertreffen kann. Entscheidend ist, dass dies ohne die prohibitiven Kosten erreicht wird, die typischerweise mit der Skalierung eines einzelnen massiven Modells verbunden sind.

Die grundlegende Erkenntnis hinter MoA stammt aus einer überraschenden Entdeckung: LLMs zeigen eine inhärente Fähigkeit zur Zusammenarbeit. Experimente auf dem AlpacaEval 2.0-Benchmark zeigten, dass verschiedene handelsübliche LLMs, darunter LLaMA, WizardLM und Qwen, ihre Leistung (gemessen an ihrer „Gewinnrate“ gegenüber einer GPT-4-Referenz) signifikant verbesserten, wenn ihnen zusätzlich zum ursprünglichen Prompt Antworten von Peer-Modellen zur Verfügung gestellt wurden. Diese Verbesserung trat selbst dann auf, wenn die Peer-Antworten schlechter waren, als das Modell selbst hätte produzieren können, was darauf hindeutet, dass mehrere Perspektiven einem LLM helfen, blinde Flecken zu identifizieren und zu vermeiden. Dieser Beweis für die intrinsische „Kollaborationsfähigkeit“ veranlasste das Design von MoA, einem Framework, das darauf ausgelegt ist, das kollektive Fachwissen verschiedener Modelle zu nutzen.

MoA begegnet der Herausforderung, effizient hochwertige LLM-Ausgaben zu erzielen, durch eine strukturierte Multi-Agenten-Architektur. Ihr Design umfasst mehrere Schichten, wobei mehrere Agenten innerhalb jeder Schicht arbeiten. Jeder Agent empfängt alle vorherigen Ausgaben als Eingabe, was einen Prozess der iterativen Verbesserung ermöglicht. Agenten werden eine von zwei spezialisierten Rollen zugewiesen: „Vorschlagende“ (Proposers) generieren vielfältige Kandidatenantworten und tragen wertvollen Kontext und unterschiedliche Perspektiven bei. „Aggregatoren“ (Aggregators) hingegen spezialisieren sich auf die Synthese und Verfeinerung dieser Eingaben zu einer einzigen, qualitativ hochwertigeren Antwort, wobei die Qualität auch dann erhalten oder sogar verbessert wird, wenn einige anfängliche Eingaben schwach sind. Viele Modelle, wie GPT-4, Qwen-1.5 und LLaMA, haben in beiden Rollen eine starke Leistung gezeigt, während andere, wie WizardLM, mehr als Vorschlagende glänzen. MoA nutzt diese Stärken, indem es Modelle den Rollen zuweist, in denen sie am besten abschneiden, alles durch ausgeklügelte Prompt-Engineering, ohne Feinabstimmung zu erfordern.

In der Praxis organisiert MoA diese Agenten in einer Pipeline von Schichten. In einer Architektur mit vier Schichten generieren beispielsweise die vorschlagenden Agenten der ersten Schicht unabhängig voneinander erste Antworten auf den Prompt eines Benutzers. Ihre Ausgaben werden dann an die nachfolgende Schicht weitergegeben, wo ein weiterer Satz von Agenten – die dieselben Modelle oder andere sein können – auf alle vorherigen Antworten als zusätzlichen Kontext zugreifen. Dieser iterative Verfeinerungsprozess setzt sich über die Schichten fort, sodass die Agenten jeder nachfolgenden Schicht mit zunehmend umfassenderem und robusterem Material arbeiten können. Die letzte Schicht verfügt typischerweise über einen Aggregator-Agenten, der die einzige, konsolidierte Antwort erzeugt, die weitaus umfassender und robuster ist als jeder anfängliche Versuch.

Eine wichtige strategische Entscheidung in MoA ist die Zuweisung von Modellen zu den Schichten. Das Framework schlägt zwei Hauptkriterien vor: Leistung, wobei stärkere Modelle ideale Kandidaten für spätere Schichten sind, und Vielfalt, die eine Mischung von Modelltypen betont, da heterogene Modelle deutlich mehr beitragen als identische Klone. In vielen Implementierungen verwendet die letzte Schicht das stärkste verfügbare Modell als Aggregator, während frühere Schichten mit einem vielfältigen Satz von Vorschlagenden besetzt sind. Zum Beispiel könnte ein leistungsstarkes Open-Source-Modell ähnlich GPT-4 als finaler Aggregator dienen, der Vorschläge von spezialisierten kleineren Modellen synthetisiert – vielleicht ein code-fokussiertes LLM, ein argumentations-fokussiertes LLM oder ein faktisches Wissens-LLM – je nach Abfragedomäne.

Die Leistung der MoA-Architektur bei strengen Benchmarks war beeindruckend. Nur unter Verwendung von Open-Source-Modellen hat MoA die Qualität von GPT-4 konsequent erreicht oder übertroffen. Auf AlpacaEval 2.0 erreichte eine Open-Source-MoA-Konfiguration eine Gewinnrate von 65,1%, was GPT-4 Omnis 57,5% und GPT-4 Turbos 55,0% übertraf. Ähnlich erzielte das Open-Source-MoA auf MT-Bench 9,25 Punkte, vergleichbar mit GPT-4 Turbos 9,31 und GPT-4 Omnis 9,19. Darüber hinaus zeigten detaillierte Bewertungen mit dem FLASK-Framework, dass MoA GPT-4 Omni in kritischen Fähigkeitsdimensionen wie Robustheit, Korrektheit, Faktizität, Einsicht und Vollständigkeit übertraf. Diese Gewinne wurden mit offenen Modellen erzielt, die kollektiv weitaus kostengünstiger sind als proprietäre Alternativen. Zum Beispiel kostete ein MoA-Setup mit sechs offenen Modellen über drei Schichten nur einen Bruchteil der API-Nutzung von GPT-4. Eine leichtere Variante, MoA-Lite, die nur zwei Schichten und einen kleineren Aggregator verwendet, schlug GPT-4 Omni auf AlpacaEval immer noch leicht, während sie noch kostengünstiger war, was zeigt, dass selbst ein abgespecktes MoA überlegene Qualität zu geringeren Kosten liefern kann.

Die Wirksamkeit von MoA liegt in seiner Fähigkeit, die „Weisheit der Vielen“ unter den Modellen zu nutzen. Jeder Agent bringt einzigartige Stärken ein – einer könnte spezifisches Wissen liefern, ein anderer die logische Konsistenz gewährleisten und wieder ein anderer die Formulierung verfeinern. Das Endergebnis profitiert von diesem kollektiven Fachwissen. Dies geht über einfache Ensemble-Methoden hinaus, bei denen ein LLM lediglich die beste Antwort aus mehreren Optionen auswählt; MoAs Aggregatoren synthetisieren Ideen wirklich, indem sie die stärksten Elemente aus verschiedenen Vorschlägen kombinieren.

Für Entwickler bietet MoA erhebliche Kosteneffizienz und Flexibilität. Durch die Orchestrierung kleinerer offener Modelle ermöglicht es eine Ausgabe auf GPT-4-Niveau, ohne hohe API-Gebühren oder die Rechenlast des Betriebs eines einzelnen, massiven Modells für jede Abfrage zu verursachen. MoA-Konfigurationen liegen konsequent auf einer günstigen Qualitäts-Kosten-Kurve und liefern hohe Gewinnraten zu wesentlich geringeren Kosten als GPT-4. Zum Beispiel erzielten einige MoA-Konfigurationen eine um 4% höhere Gewinnrate als GPT-4 Turbo bei der Hälfte der Inferenzkosten. Die Flexibilität des Frameworks ermöglicht eine dynamische Skalierung von Agenten oder Schichten basierend auf der Abfragekomplexität oder der verfügbaren Rechenleistung, wodurch Entwickler offene Modelle mischen und anpassen können, um Agenten für bestimmte Aufgaben zu spezialisieren.

Blickt man in die Zukunft, signalisiert das Mixture-of-Agents-Framework eine grundlegende Verschiebung im Design von KI-Systemen. Es geht über die Abhängigkeit von einzelnen, monolithischen Modellen hinaus und hin zur Schaffung kollaborativer Teams spezialisierter LLMs, was widerspiegelt, wie menschliche Expertenteams arbeiten. Diese Multi-Agenten-Ökosysteme versprechen größere Robustheit und Transparenz, da der Beitrag jedes Agenten verfolgt werden kann, was das Vertrauen in die Endausgabe erhöht. Während Open-Source-LLMs weiter voranschreiten, werden MoA-ähnliche Architekturen voraussichtlich zu einem Standardansatz für produktionsreife LLM-Bereitstellungen, die Qualität durch ausgeklügelte Zusammenarbeit statt durch bloße Modellgröße skalieren.