Inclusion Arena:LLMの真価を実世界利用で測る新基準
人工知能の状況は急速に進化しており、新しい大規模言語モデル(LLM)が目まぐるしい速さで登場しています。これらの強力なツールを統合しようとする企業にとっての課題は、有望な候補を特定するだけでなく、実際のアプリケーションにおける真のパフォーマンスを理解することにあります。従来のベンチマークは初期評価には不可欠でしたが、多くは静的なデータセットや管理されたラボ環境に依存しており、動的な本番環境でモデルが人間ユーザーと実際にどのように相互作用するかを捉えられないことがよくありました。
この重要なギャップに対処するため、アリババのAnt Groupの関連会社であるInclusion AIの研究者たちは、Inclusion Arenaを導入しました。この新しいモデルランキングおよびベンチマークシステムは、理論的な能力から実用的な有用性へと焦点を移し、実際のアプリケーションにおけるユーザーの実際の好みに基づいてLLMをランク付けします。核心的な主張は単純です。LLMを真に評価するには、人々がどのようにそれを使用し、他の応答と比較してどの程度その応答を好むかを観察する必要があり、単なる知識保持を超えた評価が求められます。
Inclusion Arenaは、評価メカニズムをAI搭載アプリケーションに直接統合することで、MMLUやOpenLLMなどの確立されたリーダーボードとは一線を画しています。クラウドソーシングプラットフォームとは異なり、Inclusion Arenaはこれらの実世界アプリ内での多ターンにわたる人間とAIの対話中に、ランダムに「モデルバトル」をトリガーします。現在、このフレームワークは、キャラクターチャットアプリのJoylandと教育コミュニケーションアプリのT-Boxの2つのアプリケーションに統合されています。ユーザーがこれらのアプリケーションと対話すると、彼らのプロンプトは目に見えない形で複数のLLMにルーティングされ、舞台裏で応答が生成されます。ユーザーは、どのモデルが生成したかを知ることなく、単に最も気に入った答えを選択します。この直接的で偏りのないフィードバックが評価の基礎となります。
このシステムは、チェスで使用されるEloレーティングシステム(Chatbot Arenaの基盤でもある)に似た確率的フレームワークであるブラッドリー・テリー・モデリング手法をランキングに採用しています。Eloとブラッドリー・テリーの両方がペアワイズ比較から相対的な能力を推測するのに長けていますが、研究者たちはブラッドリー・テリーがより安定したレーティングを生み出し、潜在的なモデル能力を評価するための堅牢なフレームワークを提供すると主張しています。しかし、膨大で増加し続けるLLMの数を網羅的に比較することは、計算上非常に困難になります。これを克服するために、Inclusion Arenaは2つの革新的なコンポーネントを組み込んでいます。1つは、新しく登録されたモデルに初期ランキングを提供する「配置マッチ」メカニズム、もう1つは、後続の比較を定義された「信頼領域」内のモデルに限定することで、実用的な予算内で情報ゲインを最大化する「近接サンプリング」です。
Inclusion AIの最初の実験は、2025年7月までのデータに基づき、2つの統合アプリケーション全体で46,611人以上のアクティブユーザーから501,003回以上のペアワイズ比較を含んでいました。Inclusion Arenaの予備調査結果は、AnthropicのClaude 3.7 Sonnet、DeepSeek v3-0324、Claude 3.5 Sonnet、DeepSeek v3、およびQwen Max-0125がトップパフォーマンスモデルの中にあったことを示しています。現在のデータセットの範囲がこれら2つのアプリケーションに限定されていることを認識しつつも、研究者たちはオープンアライアンスを通じてエコシステムを拡大することを目指しており、より多くのデータがさらに堅牢で正確なリーダーボードにつながると期待しています。
LLMの普及により、企業が評価するモデルを選択することはますます困難になっています。Inclusion Arenaのようなリーダーボードは、技術的な意思決定者にとって非常に貴重なガイダンスを提供し、実用的な使用シナリオで優れたパフォーマンスを示すモデルを強調します。特定のアプリケーションにおけるLLMの有効性を確保するためには、常に内部評価が重要ですが、これらの実世界ベンチマークは、より広範な競争状況をより明確に示し、組織が運用ニーズに真に合致するモデルを特定するのに役立ちます。