ARC AGI 3:なぜ最先端LLMは人間レベルのパズルに苦戦するのか
大規模言語モデル(LLM)の急速な進化により、最近、Qwen 3 MoE、Kimi K2、Grok 4などの強力な新バージョンがリリースされました。これらの進歩が急速に進む中、その能力を評価し比較するためには、堅牢なベンチマークが不可欠です。この目的のための最新ツールの一つがARC AGI 3であり、これは人間と人工知能の現在のギャップを浮き彫りにするために設計されたベンチマークです。
最近リリースされたARC AGI 3は、ARC AGIシリーズの最新版であり、「人間には簡単でAIには難しい、最も大きなギャップを持つインタラクティブ推論ベンチマーク」として知られています。このプラットフォームは、3つの異なるゲーム環境、10,000ドルのエージェントコンテスト、およびAIエージェントAPIと共に立ち上げられました。ARC AGI 3での初期評価では、驚くべき格差が示されています。最先端のAIモデルは0%の成功率を達成する一方、人間は一貫して100%のスコアを出しています。
ARC AGIシリーズは、パターンマッチングパズルゲームで参加者に挑戦します。ARC AGI 1と2が与えられた入出力ペアからパターンを完成させるものであるのに対し、ARC AGI 3は、プレイヤーがブロックを目標エリアにナビゲートする必要があるインタラクティブなゲームを導入しており、多くの場合、中間ステップが必要です。これらのゲームの核となる側面は、指示がないことです。プレイヤーは、環境と自身の行動の結果を観察するだけでルールを推測しなければなりません。この設定は、エージェントが新しい環境を学習し、適応し、新しい問題を解決する能力を厳密にテストします。
以前のバージョンのベンチマークでは、LLMが significantな進歩を遂げていることが示されています。例えば、OpenAIのモデルはARC AGI 1で改善された性能を示し、o1 miniは7.8%、o3-lowは75%、より高度なo3-highは88%を記録しました。この進捗は、モデルがこれらのパターンマッチングタスクに時間とともに取り組むことを学習できることを示しています。
しかし、ARC AGI 3での最先端モデルの現在の成功率0%は、根本的な課題を指摘しています。いくつかの要因がこの苦戦に寄与している可能性があります。
コンテキスト長とメモリ管理: ARC AGI 3のインタラクティブな性質は、潜在的に広大な行動空間内での広範な実験を要求します。モデルは様々な行動を試み、その結果を観察し、シーケンスを評価し、その後の動きを計画する必要があります。このプロセスには、長いコンテキストウィンドウの効果的な利用と、失敗した行動を繰り返すことを避け、ゲームのメカニズムの一貫した理解を構築するための洗練されたメモリ管理が必要です。以前のコンテキストを要約したり、メモリ保存のために外部ファイルシステムを使用したりする技術は、将来の改善のために重要となる可能性があります。
訓練データからの乖離: ARC AGI 3内のタスクは、LLMが通常訓練されるデータセットとは大きく異なる可能性があります。LLMをエージェント的な振る舞い(ツールを使用し、行動を実行する)のために訓練する傾向が高まっている一方で、現在の最先端モデルは、インタラクティブなゲームのような環境のユニークな課題に対する十分な露出がまだ不足している可能性があります。これは、LLMが明示的な手がかりなしにタスクを理解できる真の知能を持っているかどうかという重要な疑問を提起します。これはARC AGIベンチマークの核心原則です。
現在の課題にもかかわらず、ARC AGI 3におけるLLMの性能の著しい改善が期待されています。将来の進歩は、エージェント性能のためにAIエージェントを特別にファインチューニングしたり、そのメモリ利用を最適化したりすることから来るかもしれません。これらの改善は、比較的費用対効果の高い方法、またはより強力で汎用的なLLMのリリースといった、より実質的な開発を通じて達成される可能性があります。
LLMプロバイダーが、真に広範な知能を育成するよりも、特定のベンチマークで高スコアを達成することを優先する「ベンチマーク追跡」の現象を認識することが重要です。この慣行は、強化学習における「報酬ハッキング」に似ており、より深い理解や適応性を持つことなく、狭い範囲のタスクで優れているモデルを生み出す可能性があります。LLMの公開評価は、しばしばベンチマーク性能と主観的な「雰囲気チェック」に依存しており、これは誤解を招く可能性があります。例えば、雰囲気チェックは、モデルの能力のごく一部しかテストしないことが多く、その多くは訓練データで extensivelyに見たタスクです。モデルが特定のユースケースに真に適合していることを確認するためには、組織が内部ベンチマークのために独自の、未漏洩のデータセットを開発することが奨励されます。
結論として、LLMベンチマークは、分野の比較分析と進捗追跡のために不可欠です。ARC AGI 3は、人間の知能が現在の最も先進的なLLMでさえも上回る領域を鮮明に示唆する、説得力のある新しいベンチマークとして機能します。ARC AGI 3におけるLLM性能の将来の改善が期待される一方で、これらの進歩が単にベンチマークスコアの最適化によってではなく、AI知能の真の進歩によって推進されることを期待します。