Grok 4、ARC-AGI推論でGPT-5を上回るも高コストが課題
激しい競争が繰り広げられる人工知能分野において、xAIのGrok 4がOpenAIのGPT-5を、モデルの単なる記憶力ではなく一般的な推論能力を評価するために特別に設計された厳しいARC-AGI-2ベンチマークで上回ったと報じられています。しかし、Grok 4のこの予期せぬリードには、大幅な運用コストの増加という重要なただし書きが付随しており、最新世代の大規模言語モデルにおける複雑なトレードオフを浮き彫りにしています。
ベンチマークを主催するARC Prizeが発表したデータによると、Grok 4の「Thinking」バリアントはARC-AGI-2で約16パーセントの精度を達成しました。この性能は印象的であるものの、タスクあたり2ドルから4ドルのコストがかかりました。対照的に、OpenAIの主力モデルであるGPT-5「High」は、精度スコアが9.9パーセントと後れを取ったものの、タスクあたりわずか0.73ドルと、はるかに費用対効果が高いことが判明しました。ARC-AGIベンチマークは、丸暗記の知識よりも真の推論を優先するように綿密に設計されており、モデルの問題解決能力だけでなく、そのソリューションの経済的実行可能性も評価します。
それほど難しくないARC-AGI-1テストでは、状況がわずかに変化しました。ここではGrok 4がリードを維持し、約68パーセントの精度に達し、GPT-5が65.7パーセントで僅差で追従しました。しかし、ここでも経済的格差は顕著でした。Grok 4はタスクあたり約1ドルを要したのに対し、GPT-5はわずか0.51ドルで同等のパフォーマンスを提供しました。この価格差は現在、費用対効果が最優先されるアプリケーションにおいてGPT-5をより魅力的な選択肢として位置づけていますが、xAIは、このギャップを縮めるために価格戦略を再調整する可能性があります。
これらのトップティアモデル以外にも、ベンチマークは軽量でより経済的なバリアントのパフォーマンスも明らかにしました。例えば、OpenAIのGPT-5 MiniはARC-AGI-1で54.3パーセントを達成し、コストはわずか0.12ドルでした。また、ARC-AGI-2では4.4パーセントを達成し、コストは0.20ドルでした。さらにコンパクトなGPT-5 Nanoは、ARC-AGI-1で16.5パーセント、ARC-AGI-2で2.5パーセントを記録し、いずれもタスクあたり0.03ドルという非常に低い価格で超低コストの可能性を示しました。これらの小型モデルは、多様な性能と予算要件に対応するための、業界の多様な提供への推進を強調しています。
今後について、ARC Prizeは、インタラクティブなARC-AGI-3ベンチマークの予備的かつ非公式な評価がすでに進行中であることを確認しています。この革新的なテストは、ゲームのような環境で反復的な試行錯誤を通じてタスクを解決するようモデルに挑戦します。これらの視覚パズルゲームは、人間にとっては直感的に操作して解決できることが多いものの、ほとんどの人工知能エージェントは依然として苦戦しており、真に人間のような認知の柔軟性と適応的な問題解決を達成する上で残る大きなハードルを浮き彫りにしています。
Grok 4のこれらの特定のベンチマークにおける強力なパフォーマンスを文脈化することが重要です。印象的ではあるものの、特にベンチマーク手法と競争慣行に対する継続的な精査を考慮すると、あらゆるAIアプリケーションにおいてGrok 4が一方的に優れたモデルであるとは断定できません。興味深いことに、OpenAIは最近のGPT-5のプレゼンテーションでARC Prizeについて一切言及しませんでした。これは、過去に新しいモデルの発表時にこのようなベンチマークがしばしば強調されていた従来の慣行からの逸脱です。
競争環境をさらに複雑にしているのは、o3-previewモデルの興味深い事例です。2024年12月に導入されたこのOpenAIのバリアントは、ARC-AGI-1テストで依然としてかなりの差をつけて最高スコアを保持しており、ほぼ80パーセントの精度を達成していますが、競合他社よりも著しく高いコストがかかります。報告によると、OpenAIは後に一般公開されたチャットバージョン向けにo3-previewを大幅に削減せざるを得なかったとのことです。この主張はその後、ARC Prize自体によって裏付けられ、4月下旬に一般公開されたo3モデルの性能低下が確認され、生の能力、コスト、および公開展開戦略間のトレードオフについて疑問が提起されました。
最新のARC-AGIの結果は、ブレークスルーがしばしば複雑なトレードオフを伴う、急速に進化するAIエコシステムを鮮やかに描いています。Grok 4は特定の推論タスクにおいて否定できない優位性を示しましたが、GPT-5は費用対効果において説得力のあるリードを維持し、さまざまなアプリケーションに合わせた幅広いモデルスイートを提供しています。主要なAI開発者間の競争は依然として激しく、適応推論における根本的な課題が残る中でも、これらの強力なシステムが達成できる限界を押し広げています。