MoA:多智能体LLM协作,超越GPT-4,成本更低

Hackernoon

混合智能体(MoA)框架有望重新定义大型语言模型(LLM)如何实现更高水平的准确性、推理深度和可靠性。MoA并非依赖于单个庞大的LLM,而是协调一个由专业模型组成的团队,它们在结构化层中协作,逐步完善输出。这种创新方法已经取得了最先进(SOTA)的成果,即使是使用开源模型,也已证明能够在多个基准测试中超越GPT-4 Omni等顶级专有LLM。至关重要的是,它在实现这一目标的同时,避免了通常与扩展单个大型模型相关的巨额成本。

MoA背后的基本洞察源于一个令人惊讶的发现:LLM展现出固有的协作能力。在AlpacaEval 2.0基准测试上的实验表明,当提供来自同行模型的答案以及原始提示时,包括LLaMA、WizardLM和Qwen在内的各种现成LLM的性能(通过其与GPT-4参考的“胜率”衡量)显著提高。这种改进甚至发生在同行答案不如模型自身可能生成的结果的情况下,这表明多视角有助于LLM识别并避免盲点。这种内在“协作性”的证据促成了MoA的设计,这是一个旨在利用不同模型集体专业知识的框架。

MoA通过结构化的多智能体架构,有效地解决了实现高质量LLM输出的挑战。其设计特点是多层结构,每层内有多个智能体运行。每个智能体都接收所有先前的输出作为输入,从而实现迭代改进的过程。智能体被分配两种专业角色之一:“提案者”(Proposers)生成多样化的候选答案,提供有价值的上下文和不同的视角。“聚合者”(Aggregators)则专注于综合和提炼这些输入,形成一个单一的、更高质量的响应,即使某些初始输入较弱,也能保持甚至提升质量。许多模型,如GPT-4、Qwen-1.5和LLaMA,在这两种角色中都表现出色,而其他模型,如WizardLM,则更擅长作为提案者。MoA通过复杂的提示工程,无需微调,将模型分配到它们表现最佳的角色,从而充分利用这些优势。

在实践中,MoA将这些智能体组织成一个分层管道。例如,在一个四层架构中,第一层的提案者智能体独立地生成用户提示的初始答案。它们的输出随后传递到后续层,在那里,另一组智能体——可以是相同模型或不同模型——将所有先前的答案作为额外上下文进行访问。这种迭代细化过程在各层之间持续进行,使每个后续层的智能体能够处理 progressively 更全面、更稳健的材料。最后一层通常设有一个聚合者智能体,负责生成单一的、整合的答案,该答案比任何初始尝试都更为全面和稳健。

MoA中的一个关键战略决策是如何将模型分配到各层。该框架提出了两个主要标准:性能,即更强的模型是后期层的理想候选者;以及多样性,强调模型类型的混合,因为异构模型比相同的克隆模型贡献更多。在许多实现中,最后一层采用最强的可用模型作为聚合者,而早期层则由多样化的提案者组成。例如,一个类似于GPT-4的强大开源模型可以作为最终聚合者,综合来自专业小型模型的提案——根据查询领域,可能是专注于代码的LLM、专注于推理的LLM或专注于事实知识的LLM。

MoA架构在严格基准测试中的表现令人瞩目。仅使用开源模型,MoA就持续达到或超越了GPT-4的质量。在AlpacaEval 2.0上,一个开源MoA配置实现了65.1%的胜率,超越了GPT-4 Omni的57.5%和GPT-4 Turbo的55.0%。同样,在MT-Bench上,开源MoA得分9.25,与GPT-4 Turbo的9.31和GPT-4 Omni的9.19相当。此外,使用FLASK框架进行的细粒度评估显示,MoA在鲁棒性、正确性、事实性、洞察力和完整性等关键技能维度上均优于GPT-4 Omni。这些成果是使用开放模型实现的,而这些模型总体上比专有替代方案更具成本效益。例如,一个使用六个开放模型跨三层的MoA设置,其成本仅为GPT-4 API使用成本的一小部分。一个更轻量级的变体MoA-Lite,仅使用两层和一个较小的聚合器,在AlpacaEval上仍略微击败了GPT-4 Omni,同时成本效益更高,这表明即使是精简版的MoA也能以更低的成本提供卓越的质量。

MoA的有效性在于它能够利用模型之间的“群体智慧”。每个智能体都贡献独特的优势——一个可能提供特定知识,另一个确保逻辑一致性,还有一个则完善措辞。最终结果受益于这种集体专业知识。这超越了简单的集成方法,即LLM仅仅从多个选项中选择最佳答案;MoA的聚合者真正地综合思想,将各种提案中最强的元素结合起来。

对于开发者而言,MoA提供了显著的成本效益和灵活性。通过协调较小的开放模型,它可以在不产生高昂API费用或为每个查询运行单个大规模模型所带来的计算负担的情况下,实现GPT-4级别的输出。MoA配置始终处于有利的质量-成本曲线上,以远低于GPT-4的成本提供高胜率。例如,某些MoA配置以一半的推理成本实现了比GPT-4 Turbo高4%的胜率。该框架的灵活性允许根据查询复杂性或可用计算资源动态扩展智能体或层,使开发者能够混合搭配开放模型,为特定任务专业化智能体。

展望未来,混合智能体框架预示着AI系统设计的一个根本性转变。它不再依赖于单个庞大的模型,而是转向创建由专业LLM组成的协作团队,这反映了人类专家团队的运作方式。这些多智能体生态系统有望提供更高的鲁棒性和透明度,因为每个智能体的贡献都可以被追踪,从而增强对最终输出的信任。随着开源LLM的不断进步,MoA风格的架构有望成为生产级LLM部署的标准方法,通过复杂的协作而非单纯的模型大小来提升质量。