MoA:マルチエージェントLLM連携がGPT-4を超え、コストも削減
Mixture-of-Agents (MoA) フレームワークは、大規模言語モデル(LLM)がより高い精度、推論の深さ、信頼性を達成する方法を再定義しようとしています。MoAは、単一のモノリシックなLLMに依存するのではなく、専門モデルのチームを編成し、構造化された層で協力して、出力を段階的に洗練させます。この革新的なアプローチは、オープンソースモデルを使用しているにもかかわらず、すでに最先端(SOTA)の結果をもたらしており、GPT-4 OmniのようなトップクラスのプロプライエタリLLMを複数のベンチマークで凌駕する能力を示しています。重要なのは、単一の巨大モデルをスケールアップする際に通常伴う法外なコストをかけることなく、これを達成している点です。
MoAの根底にある洞察は、驚くべき発見に由来しています。LLMは本質的に協調する能力を持っているのです。AlpacaEval 2.0ベンチマークでの実験により、LLaMA、WizardLM、Qwenを含む様々な既製LLMが、元のプロンプトに加えてピアモデルからの回答を提供された場合、その性能(GPT-4参照に対する「勝率」で測定)が大幅に向上することが明らかになりました。この改善は、ピアの回答がモデル自身が生成できたものよりも劣っていた場合でも発生しました。これは、複数の視点がLLMが死角を特定し、回避するのに役立つことを示唆しています。この本質的な「協調性」の証拠が、多様なモデルの集合的な専門知識を活用するように設計されたフレームワークであるMoAの設計を促しました。
MoAは、構造化されたマルチエージェントアーキテクチャを通じて、高品質なLLM出力を効率的に達成するという課題に対処します。その設計は多層構造を特徴とし、各層内で複数のエージェントが動作します。各エージェントは、以前のすべての出力を入力として受け取り、反復的な改善プロセスを可能にします。エージェントには2つの専門的な役割のいずれかが割り当てられます。「提案者」(Proposers)は多様な候補回答を生成し、貴重なコンテキストと多様な視点を提供します。「集約者」(Aggregators)は対照的に、これらの入力を単一のより高品質な応答に統合・洗練することに特化しており、初期入力の一部が弱くても品質を維持または向上させます。GPT-4、Qwen-1.5、LLaMAなど多くのモデルは両方の役割で強力なパフォーマンスを示していますが、WizardLMのように提案者としてより優れているモデルもあります。MoAは、洗練されたプロンプトエンジニアリングを通じて、ファインチューニングを必要とせずに、モデルが最も得意な役割に割り当てることで、これらの強みを活用します。
実際には、MoAはこれらのエージェントを層状のパイプラインに編成します。例えば、4層構造のアーキテクチャでは、最初の層の提案者エージェントがユーザーのプロンプトに対する初期回答を独立して生成します。その出力は次の層に渡され、そこで別のエージェントセット(同じモデルでも異なるモデルでも可)が、以前のすべての回答を付加的なコンテキストとして利用します。この反復的な洗練プロセスは層を越えて継続され、各後続層のエージェントが、より包括的で堅牢な素材を使って作業できるようになります。最終層には通常、集約者エージェントが配置され、単一の統合された回答を生成します。これは、いかなる初期試行よりもはるかに包括的で堅牢なものです。
MoAにおける重要な戦略的決定は、モデルを層にどのように割り当てるかです。フレームワークは2つの主要な基準を提案しています。1つはパフォーマンスで、より強力なモデルが後の層の理想的な候補となります。もう1つは多様性で、モデルタイプの混合を強調しています。これは、同種のクローンよりも異種モデルの方がはるかに大きく貢献するためです。多くの実装では、最終層には利用可能な最強のモデルが集約者として採用され、初期の層には多様な提案者が配置されます。例えば、GPT-4に匹敵する強力なオープンソースモデルが最終集約者として機能し、クエリのドメインに応じて、コードに特化したLLM、推論に特化したLLM、または事実知識LLMなど、より小型の専門モデルからの提案を統合することができます。
MoAアーキテクチャの厳密なベンチマークにおけるパフォーマンスは目覚ましいものでした。オープンソースモデルのみを使用して、MoAは一貫してGPT-4の品質に匹敵するか、それを上回りました。AlpacaEval 2.0では、オープンソースのMoA構成が65.1%の勝率を達成し、GPT-4 Omniの57.5%とGPT-4 Turboの55.0%を上回りました。同様に、MT-Benchでは、オープンソースのMoAが9.25を記録し、GPT-4 Turboの9.31とGPT-4 Omniの9.19に匹敵しました。さらに、FLASKフレームワークを用いた詳細な評価では、MoAが堅牢性、正確性、事実性、洞察力、完全性といった重要なスキル次元でGPT-4 Omniを上回ることが示されました。これらの成果は、プロプライエタリな代替品よりも全体的に費用対効果の高いオープンモデルで達成されました。例えば、3層にわたる6つのオープンモデルを使用したMoAセットアップのコストは、GPT-4のAPI使用料のほんの一部でした。より軽量なバリアントであるMoA-Liteは、わずか2層と小型の集約者を使用しながらも、AlpacaEvalでGPT-4 Omniをわずかに上回り、さらに費用対効果が高いことを示し、簡素化されたMoAでも低コストで優れた品質を提供できることを実証しました。
MoAの有効性は、モデル間の「群衆の知恵」を活用する能力にあります。各エージェントは独自の強みを発揮します。あるエージェントは特定の知識を提供し、別のエージェントは論理的な一貫性を確保し、さらに別のエージェントは表現を洗練させます。最終的な結果は、この集合的な専門知識から恩恵を受けます。これは、LLMが複数の選択肢から最適な回答を選ぶだけの単純なアンサンブル手法を超越しています。MoAの集約者は、様々な提案から最も強力な要素を組み合わせることで、アイデアを真に統合します。
開発者にとって、MoAは大幅な費用対効果と柔軟性を提供します。より小型のオープンモデルを編成することで、高額なAPI料金や、クエリごとに単一の巨大モデルを実行する計算負荷を負うことなく、GPT-4レベルの出力を可能にします。MoA構成は常に有利な品質-コスト曲線上に位置し、GPT-4よりもはるかに低いコストで高い勝率を提供します。例えば、一部のMoA構成は、推論コストを半分に抑えながら、GPT-4 Turboよりも4%高い勝率を達成しました。このフレームワークの柔軟性により、クエリの複雑さや利用可能な計算リソースに基づいてエージェントや層を動的にスケーリングでき、開発者はオープンモデルを組み合わせて特定のタスクにエージェントを特化させることができます。
将来を見据えると、Mixture-of-AgentsフレームワークはAIシステム設計における根本的な変化を示唆しています。それは、単一のモノリシックなモデルへの依存を超え、人間の専門家チームが機能する方法を反映した、専門LLMの協調的なチームを構築する方向へと移行しています。これらのマルチエージェントエコシステムは、各エージェントの貢献が追跡可能であるため、より大きな堅牢性と透明性を約束し、最終出力への信頼を高めます。オープンソースLLMが進化し続けるにつれて、MoAスタイルのアーキテクチャは、単なるモデルサイズではなく、洗練された協調を通じて品質をスケールアップするための、生産グレードのLLM展開における標準的なアプローチとなる準備ができています。