TextQuests:LLMは複雑なテキストゲームでどう動くか

Huggingface

大規模言語モデル(LLM)の急速な進歩は、確立された学術および産業ベンチマークにおいて目覚ましいブレークスルーをもたらしました。これらのモデルは現在、MMLUやGPQAのような知識ベースの評価をほぼ飽和させ、専門家による評価においても大きな進歩を遂げていますが、静的な情報検索タスクでの成功が、必ずしも動的でインタラクティブな環境での有効性には繋がりません。この乖離は、私たちが理想的にインテリジェントなアシスタントやAIエージェントに活躍してほしい、複雑で探索的な環境においてLLMを自律エージェントとして評価するための堅牢な方法論を開発するという、重要な課題を浮き彫りにしています。

自律エージェントを評価するための主要な道筋は二つあります。一つは、ツール使用やコーディングなどの特定のスキルをテストするために実世界の環境を利用すること、もう一つはシミュレートされたオープンワールド環境を採用することです。後者のアプローチは、探索的な設定でエージェントが自律的に動作する能力を測定するのに特に効果的です。これは、絶えず成長するコンテキスト上で持続的で自己主導的な推論を要求しつつ、評価の容易さを提供します。この新たな分野では、BalrogやARC-AGIのようなベンチマークが登場し、ClaudeやGeminiのようなモデルがポケモンなどのゲームの複雑さをナビゲートする説得力のあるデモンストレーションとともに、関心が急速に高まっています。この勢いに乗り、TextQuestsと呼ばれる新しいベンチマークが導入されました。

TextQuestsは、25の古典的なInfocomインタラクティブフィクションゲームのコレクションに基づいて構築されています。これらの、かつて人気を博したテキストベースのビデオゲームは、人間のプレイヤーを30時間以上夢中にさせ、解決には数百もの正確なアクションを必要としました。これらは、エージェント的推論の複雑な課題に対する魅力的なテストベッドを提供します。AIエージェントには、広大で絶えず拡張される行動と観察の履歴に基づいて推論し、多段階の計画を考案・実行するために、洗練された長文コンテキスト推論を示すことが求められます。これは、外部の助けなしに、その内在的な能力のみに依存します。さらに、これらのゲームでの成功は、エージェントが探索を通じて学習する能力、自身の失敗を問い直し、未知の世界をナビゲートしながら試行錯誤を通じて段階的な改善を行う能力にかかっています。この持続的な関与により、AIエージェントシステムの中核的な推論エンジンとして機能するLLM自体を、より直接的かつ正確に評価することが可能になります。

評価のため、各モデルは2つの異なる実行を経験します。1つはゲームの公式ヒントにアクセスできるもの、もう1つはアクセスできないものです。各実行は500ステップで上限が設けられ、エージェントがゲームを成功裏に完了すれば早期に終了します。包括的な長文コンテキスト評価を容易にするため、ゲームの全履歴は切り捨てられずに維持されます。これは、現代のLLM推論フレームワークに固有のプロンプトキャッシングのおかげで、計算上も実現可能なアプローチです。パフォーマンスは2つの主要な指標で評価されます。1つは「ゲーム進行度(Game Progress)」で、必要な目標を表す一連のラベル付きチェックポイントに基づいて計算されます。もう1つは「危害(Harm)」で、倫理的に問題があるとされる特定のゲーム内アクションを追跡し、そのスコアは全ゲームで平均化され、エージェントがそのようなアクションを起こす全体的な傾向を測定します。

評価は、現在のLLMの能力、特に長文コンテキスト推論に関して重要な洞察を明らかにしています。コンテキストウィンドウが100,000トークンを超える可能性があるため、LLMは効果的に進行するために、膨大な観察と手がかりの履歴に対して一貫して正確な推論と計画を実行する必要があります。しかし、一般的な観察として、現在のモデルは以前のインタラクションについて頻繁に「幻覚を起こし」、詳細を誤って記憶したり、まだ完了していないアクションをすでに完了したと信じたりします。これはしばしば、エージェントがナビゲーションループに陥る原因となります。さらに、ポケモンをプレイするモデルからの観察と同様に、LLMエージェントは、コンテキストが長くなるにつれて、新しい計画を合成するよりも、履歴からアクションを繰り返す傾向が強まることが示されています。これらの長文コンテキストでの失敗は、空間推論を必要とするタスクで特に顕著です。例えば、ゲーム『Wishbringer』では、ほとんどのLLMは崖を登った後、元の道を戻るのに苦労しました。解決策は単に方向の順序を逆にするだけだったにもかかわらず、その情報はコンテキスト履歴に容易に利用可能でした。これは、内部のメンタルマップを構築し利用することに根本的な困難があることを示しています。同様に、テストされたすべての最先端LLMは、『Zork I』の悪名高い迷路をナビゲートするのに苦労しました。

推論の正確さだけでなく、エージェントの全体的な有効性は、その運用効率によっても定義されます。LLMエージェントにとって、効率は生成される出力トークンまたは推論トークンの数に密接に関連しており、これは推論コストとレイテンシーに直接影響します。より多くの計算リソースを利用するモデルは一般に高いパフォーマンスを達成しますが、この傾向は一定の予算を超えると減少し始めます。TextQuestsにおけるナビゲーションのような多くの探索的ステップは中間的なものであり、広範な推論の深さを必要とせずに成功裏に実行できるため、この考慮事項は非常に重要です。したがって、理想的なLLMエージェントは、推論努力において効率的かつ動的であり、同時に一貫したパフォーマンスを維持すべきです。

結論として、TextQuestsは、かつて人間のプレイヤーにとって愛された娯楽であった一連の古典的なインタラクティブフィクションゲームをモデルがいかに一貫して進行できるかを厳密に評価します。TextQuestsをオープンソース化することで、研究者は、挑戦的で探索的な環境におけるLLMエージェントの現在の能力について、より深い理解とより正確な評価を促進したいと考えています。