MoA: La Colaboración Multiagente de LLMs que Supera a GPT-4 por Menos

Hackernoon

El marco Mixture-of-Agents (MoA) está a punto de redefinir cómo los grandes modelos de lenguaje (LLM) alcanzan niveles superiores de precisión, profundidad de razonamiento y fiabilidad. En lugar de depender de un único y monolítico LLM, MoA orquesta un equipo de modelos especializados que colaboran en capas estructuradas, refinando las salidas paso a paso. Este enfoque innovador ya está produciendo resultados de vanguardia, incluso utilizando modelos de código abierto, y ha demostrado la capacidad de superar a los principales LLM propietarios como GPT-4 Omni en múltiples puntos de referencia. Fundamentalmente, logra esto sin el costo prohibitivo típicamente asociado con la escalada de un solo modelo masivo.

La idea fundamental detrás de MoA surge de un descubrimiento sorprendente: los LLM exhiben una capacidad inherente para colaborar. Experimentos en el benchmark AlpacaEval 2.0 revelaron que varios LLM comerciales, incluidos LLaMA, WizardLM y Qwen, mejoraron significativamente su rendimiento (medido por su “tasa de victorias” contra una referencia de GPT-4) cuando se les proporcionaron respuestas de modelos pares además de la indicación original. Esta mejora ocurrió incluso cuando las respuestas de los pares eran inferiores a lo que el modelo podría haber producido por sí mismo, lo que sugiere que múltiples perspectivas ayudan a un LLM a identificar y evitar puntos ciegos. Esta evidencia de “colaboración” intrínseca impulsó el diseño de MoA, un marco diseñado para aprovechar la experiencia colectiva de diversos modelos.

MoA aborda el desafío de lograr salidas de LLM de alta calidad de manera eficiente a través de una arquitectura multiagente estructurada. Su diseño presenta múltiples capas, con varios agentes operando dentro de cada capa. Cada agente recibe todas las salidas anteriores como entrada, lo que permite un proceso de mejora iterativa. A los agentes se les asigna una de dos funciones especializadas: los “Proponentes” generan diversas respuestas candidatas, aportando un contexto valioso y perspectivas variadas. Los “Agregadores”, por el contrario, se especializan en sintetizar y refinar estas entradas en una única respuesta de mayor calidad, manteniendo o incluso mejorando la calidad incluso si algunas entradas iniciales son débiles. Muchos modelos, como GPT-4, Qwen-1.5 y LLaMA, han demostrado un sólido rendimiento en ambos roles, mientras que otros, como WizardLM, sobresalen más como proponentes. MoA aprovecha estas fortalezas asignando modelos a los roles en los que mejor se desempeñan, todo a través de una sofisticada ingeniería de prompts, sin requerir ajuste fino.

En la práctica, MoA organiza estos agentes en una tubería de capas. Por ejemplo, en una arquitectura con cuatro capas, los agentes proponentes de la primera capa generan de forma independiente las respuestas iniciales a la indicación de un usuario. Sus salidas se pasan luego a la capa siguiente, donde otro conjunto de agentes —que pueden ser los mismos modelos o diferentes— acceden a todas las respuestas anteriores como contexto adicional. Este proceso de refinamiento iterativo continúa a través de las capas, permitiendo que los agentes de cada capa sucesiva trabajen con material progresivamente más completo y robusto. La capa final típicamente presenta un agente agregador que produce la respuesta única y consolidada, que es mucho más completa y robusta que cualquier intento inicial.

Una decisión estratégica clave en MoA es cómo asignar modelos a las capas. El marco sugiere dos criterios principales: el rendimiento, donde los modelos más fuertes son candidatos ideales para las capas posteriores, y la diversidad, enfatizando una mezcla de tipos de modelos, ya que los modelos heterogéneos contribuyen significativamente más que los clones idénticos. En muchas implementaciones, la capa final emplea el modelo más fuerte disponible como agregador, mientras que las capas anteriores se pueblan con un conjunto diverso de proponentes. Por ejemplo, un potente modelo de código abierto similar a GPT-4 podría servir como agregador final, sintetizando propuestas de modelos especializados más pequeños —quizás un LLM enfocado en código, un LLM enfocado en razonamiento o un LLM de conocimiento fáctico— dependiendo del dominio de la consulta.

El rendimiento de la arquitectura MoA en rigurosos puntos de referencia ha sido sorprendente. Utilizando solo modelos de código abierto, MoA ha igualado o superado consistentemente la calidad de GPT-4. En AlpacaEval 2.0, una configuración MoA de código abierto logró una tasa de victorias del 65.1%, superando el 57.5% de GPT-4 Omni y el 55.0% de GPT-4 Turbo. De manera similar, en MT-Bench, el MoA de código abierto obtuvo 9.25, comparable al 9.31 de GPT-4 Turbo y al 9.19 de GPT-4 Omni. Además, las evaluaciones detalladas utilizando el marco FLASK mostraron que MoA superaba a GPT-4 Omni en dimensiones críticas de habilidad como robustez, corrección, factualidad, perspicacia y completitud. Estas ganancias se lograron con modelos abiertos que, colectivamente, son mucho más rentables que las alternativas propietarias. Por ejemplo, una configuración de MoA que utiliza seis modelos abiertos en tres capas costó solo una fracción del uso de la API de GPT-4. Una variante más ligera, MoA-Lite, que utiliza solo dos capas y un agregador más pequeño, aun así superó ligeramente a GPT-4 Omni en AlpacaEval, siendo aún más rentable, lo que demuestra que incluso un MoA simplificado puede ofrecer una calidad superior a costos más bajos.

La eficacia de MoA radica en su capacidad para aprovechar la “sabiduría de las multitudes” entre los modelos. Cada agente aporta fortalezas únicas: uno podría proporcionar conocimiento específico, otro asegurar la coherencia lógica y otro refinar la formulación. El resultado final se beneficia de esta experiencia colectiva. Esto va más allá de los métodos de conjunto simples donde un LLM simplemente elige la mejor respuesta entre múltiples opciones; los agregadores de MoA realmente sintetizan ideas, combinando los elementos más fuertes de varias propuestas.

Para los desarrolladores, MoA ofrece una significativa rentabilidad y flexibilidad. Al orquestar modelos abiertos más pequeños, permite una salida de nivel GPT-4 sin incurrir en altas tarifas de API o la carga computacional de ejecutar un único modelo masivo para cada consulta. Las configuraciones de MoA se sitúan consistentemente en una curva favorable de calidad-costo, ofreciendo altas tasas de victorias a costos sustancialmente más bajos que GPT-4. Por ejemplo, algunas configuraciones de MoA lograron una tasa de victorias un 4% más alta que GPT-4 Turbo a la mitad del costo de inferencia. La flexibilidad del marco permite escalar dinámicamente agentes o capas según la complejidad de la consulta o la computación disponible, lo que permite a los desarrolladores mezclar y combinar modelos abiertos para especializar agentes para tareas particulares.

Mirando hacia el futuro, el marco Mixture-of-Agents señala un cambio fundamental en el diseño de sistemas de IA. Se mueve más allá de la dependencia de modelos únicos y monolíticos hacia la creación de equipos colaborativos de LLM especializados, reflejando cómo operan los equipos de expertos humanos. Estos ecosistemas multiagente prometen una mayor robustez y transparencia, ya que la contribución de cada agente puede ser rastreada, mejorando la confianza en la salida final. A medida que los LLM de código abierto continúan avanzando, las arquitecturas tipo MoA están preparadas para convertirse en un enfoque estándar para implementaciones de LLM de grado de producción, escalando la calidad a través de una colaboración sofisticada en lugar de la mera escala del modelo.