MoA : La collaboration LLM multi-agents qui surpasse GPT-4 pour moins cher
Le cadre Mixture-of-Agents (MoA) est sur le point de redéfinir la manière dont les grands modèles de langage (LLM) atteignent des niveaux plus élevés de précision, de profondeur de raisonnement et de fiabilité. Plutôt que de s’appuyer sur un seul LLM monolithique, MoA orchestre une équipe de modèles spécialisés qui collaborent en couches structurées, affinant les sorties étape par étape. Cette approche innovante produit déjà des résultats de pointe, même en utilisant des modèles open-source, et a démontré sa capacité à surpasser les meilleurs LLM propriétaires comme GPT-4 Omni sur plusieurs benchmarks. Surtout, elle y parvient sans le coût prohibitif généralement associé à la mise à l’échelle d’un seul modèle massif.
L’idée fondamentale derrière MoA découle d’une découverte surprenante : les LLM présentent une capacité de collaboration inhérente. Des expériences sur le benchmark AlpacaEval 2.0 ont révélé que divers LLM prêts à l’emploi, y compris LLaMA, WizardLM et Qwen, ont considérablement amélioré leurs performances (mesurées par leur “taux de victoire” contre une référence GPT-4) lorsqu’on leur a fourni des réponses de modèles pairs en plus de l’invite originale. Cette amélioration s’est produite même lorsque les réponses des pairs étaient inférieures à ce que le modèle aurait pu produire seul, suggérant que de multiples perspectives aident un LLM à identifier et à éviter les angles morts. Cette preuve de “collaborativité” intrinsèque a incité à la conception de MoA, un cadre conçu pour exploiter l’expertise collective de divers modèles.
MoA relève le défi d’obtenir des sorties LLM de haute qualité de manière efficace grâce à une architecture multi-agents structurée. Sa conception comporte plusieurs couches, avec plusieurs agents opérant au sein de chaque couche. Chaque agent reçoit toutes les sorties précédentes en entrée, permettant un processus d’amélioration itérative. Les agents se voient attribuer l’un des deux rôles spécialisés : les “Proposeurs” génèrent diverses réponses candidates, apportant un contexte précieux et des perspectives variées. Les “Agrégateurs”, par contraste, se spécialisent dans la synthèse et l’affinage de ces entrées en une seule réponse de qualité supérieure, maintenant ou même améliorant la qualité même si certaines entrées initiales sont faibles. De nombreux modèles, tels que GPT-4, Qwen-1.5 et LLaMA, ont démontré de solides performances dans les deux rôles, tandis que d’autres, comme WizardLM, excellent davantage en tant que proposeurs. MoA tire parti de ces forces en attribuant les modèles aux rôles où ils sont les plus performants, le tout grâce à une ingénierie de prompt sophistiquée, ne nécessitant aucune fine-tuning.
En pratique, MoA organise ces agents en un pipeline de couches. Par exemple, dans une architecture à quatre couches, les agents proposeurs de la première couche génèrent indépendamment les réponses initiales à l’invite d’un utilisateur. Leurs sorties sont ensuite transmises à la couche suivante, où un autre ensemble d’agents – qui peuvent être les mêmes modèles ou des modèles différents – accèdent à toutes les réponses précédentes comme contexte additionnel. Ce processus d’affinage itératif se poursuit à travers les couches, permettant aux agents de chaque couche successive de travailler avec un matériel progressivement plus complet et robuste. La dernière couche comporte généralement un agent agrégateur qui produit la réponse unique et consolidée, qui est bien plus complète et robuste que toute tentative initiale.
Une décision stratégique clé dans MoA est la manière d’affecter les modèles aux couches. Le cadre suggère deux critères principaux : la performance, où les modèles plus puissants sont des candidats idéaux pour les couches ultérieures, et la diversité, soulignant un mélange de types de modèles, car les modèles hétérogènes contribuent significativement plus que les clones identiques. Dans de nombreuses implémentations, la dernière couche emploie le modèle le plus puissant disponible comme agrégateur, tandis que les couches précédentes sont peuplées d’un ensemble diversifié de proposeurs. Par exemple, un modèle open-source puissant similaire à GPT-4 pourrait servir d’agrégateur final, synthétisant les propositions de modèles spécialisés plus petits — peut-être un LLM axé sur le code, un LLM axé sur le raisonnement ou un LLM de connaissances factuelles — selon le domaine de la requête.
Les performances de l’architecture MoA sur des benchmarks rigoureux ont été frappantes. En utilisant uniquement des modèles open-source, MoA a constamment égalé ou surpassé la qualité de GPT-4. Sur AlpacaEval 2.0, une configuration MoA open-source a atteint un taux de victoire de 65,1 %, surpassant les 57,5 % de GPT-4 Omni et les 55,0 % de GPT-4 Turbo. De même, sur MT-Bench, le MoA open-source a obtenu un score de 9,25, comparable aux 9,31 de GPT-4 Turbo et aux 9,19 de GPT-4 Omni. De plus, des évaluations fines utilisant le cadre FLASK ont montré que MoA surpassait GPT-4 Omni sur des dimensions de compétences critiques telles que la robustesse, la correction, la factualité, la perspicacité et la complétude. Ces gains ont été obtenus avec des modèles ouverts qui, collectivement, sont bien plus rentables que les alternatives propriétaires. Par exemple, une configuration MoA utilisant six modèles ouverts sur trois couches a coûté seulement une fraction de l’utilisation de l’API de GPT-4. Une variante plus légère, MoA-Lite, utilisant seulement deux couches et un agrégateur plus petit, a tout de même légèrement battu GPT-4 Omni sur AlpacaEval tout en étant encore plus rentable, démontrant que même un MoA allégé peut offrir une qualité supérieure à des coûts inférieurs.
L’efficacité de MoA réside dans sa capacité à exploiter la “sagesse des foules” parmi les modèles. Chaque agent apporte des forces uniques — l’un pourrait fournir des connaissances spécifiques, un autre assurer la cohérence logique, et un autre encore affiner la formulation. Le résultat final bénéficie de cette expertise collective. Cela va au-delà des simples méthodes d’ensemble où un LLM se contente de choisir la meilleure réponse parmi plusieurs options ; les agrégateurs de MoA synthétisent véritablement les idées, combinant les éléments les plus solides de diverses propositions.
Pour les développeurs, MoA offre une rentabilité et une flexibilité significatives. En orchestrant des modèles ouverts plus petits, il permet une sortie de niveau GPT-4 sans encourir des frais d’API élevés ou la charge computationnelle liée à l’exécution d’un seul modèle massif pour chaque requête. Les configurations MoA se situent constamment sur une courbe qualité-coût favorable, offrant des taux de victoire élevés à des coûts substantiellement inférieurs à ceux de GPT-4. Par exemple, certaines configurations MoA ont atteint un taux de victoire 4 % plus élevé que GPT-4 Turbo pour la moitié du coût d’inférence. La flexibilité du cadre permet une mise à l’échelle dynamique des agents ou des couches en fonction de la complexité de la requête ou de la puissance de calcul disponible, permettant aux développeurs de mélanger et d’associer des modèles ouverts pour spécialiser des agents pour des tâches particulières.
En regardant vers l’avenir, le cadre Mixture-of-Agents signale un changement fondamental dans la conception des systèmes d’IA. Il dépasse la dépendance aux modèles uniques et monolithiques pour créer des équipes collaboratives de LLM spécialisés, reflétant la manière dont les équipes d’experts humains opèrent. Ces écosystèmes multi-agents promettent une plus grande robustesse et transparence, car la contribution de chaque agent peut être tracée, renforçant la confiance dans le résultat final. À mesure que les LLM open-source continuent de progresser, les architectures de type MoA sont prêtes à devenir une approche standard pour les déploiements de LLM de qualité production, augmentant la qualité par une collaboration sophistiquée plutôt que par la simple taille du modèle.