Google、高度な並列推論AI「Gemini Deep Think」を発表
Google DeepMindは、複数のアイデアを同時に探索・評価することで問題解決能力を高めるように設計された先進的なAI推論モデル「Gemini 2.5 Deep Think」の展開を開始しました。この新機能は、これらの探索から最適な答えを選択し、今週金曜日から月額250ドルのGoogle Ultraサブスクリプションの加入者がGeminiアプリ内で利用できるようになります。
2025年5月のGoogle I/Oで初めて紹介されたGemini 2.5 Deep Thinkは、Google初の一般公開されるマルチエージェントモデルです。これらのシステムは、複数のAIエージェントを展開し、単一の質問に並行して取り組むことで動作します。この方法は単一エージェントのアプローチよりもはるかに多くの計算リソースを必要としますが、通常、より正確で包括的な答えを生成します。
Gemini 2.5 Deep Thinkのバリアントは、今年の国際数学オリンピック(IMO)で金メダルを獲得したことで注目されました。Gemini 2.5 Deep Thinkの一般公開と並行して、GoogleはIMOで受賞した特定のモデルを、選ばれた数学者や学者グループに提供しています。同社は、この専門的なAIモデルが、ほとんどの消費者向けAIとは異なり、推論プロセスを完了するのに数秒や数分ではなく、数時間を要すると指摘しています。Googleは、これにより研究が促進され、学術用途のマルチエージェントシステムの改良に向けたフィードバックが得られることを期待しています。
Googleは、Gemini 2.5 Deep ThinkがI/Oでプレビューされたバージョンと比較して大幅な改善を遂げたと断言しています。同社はまた、モデルの推論経路の利用を最適化するための「斬新な強化学習技術」の開発を強調しています。Googleはブログ投稿で、「Deep Thinkは、創造性、戦略的計画、段階的な改善を必要とする問題に取り組むのに役立つ」と述べています。
AIの数学、人文科学、科学における何千ものクラウドソーシングされた質問に対する習熟度を評価する厳格なテストである「人類最後の試験」(HLE)において、Gemini 2.5 Deep Thinkは外部ツールを使用せずに34.8%のスコアを達成しました。このパフォーマンスは、xAIのGrok 4の25.4%、OpenAIのo3の20.3%を上回ります。さらに、Googleのモデルは、競争力のあるコーディングタスクの困難なベンチマークであるLiveCodeBench 6でも競合他社を上回り、Grok 4の79%、OpenAIのo3の72%と比較して87.6%のスコアを記録しました。
Gemini 2.5 Deep Thinkは、コード実行やGoogle検索などのツールとシームレスに統合されており、従来のAIモデルよりも「はるかに長い応答」を生成することができます。Googleの社内テストでは、このモデルが他のAIシステムと比較して、ウェブ開発タスクにおいてより詳細で審美的に洗練された結果を生み出すことが示されており、研究者の支援や発見プロセスの加速に貢献する可能性があります。
マルチエージェントシステムの採用は、主要なAI研究所の間で増加傾向にあるようです。イーロン・マスクのxAIは最近、独自のマルチエージェントシステムであるGrok 4 Heavyをリリースし、複数のベンチマークで業界トップクラスのパフォーマンスを主張しています。同様に、OpenAIの未発表AIモデルも、今年の国際数学オリンピックで金メダルを獲得しており、これもマルチエージェントシステムであると報じられています。包括的な研究概要を生成することで知られるAnthropicのResearchエージェントも、マルチエージェントアーキテクチャによって駆動されています。
強力なパフォーマンス能力にもかかわらず、マルチエージェントシステムは従来のAIモデルよりも計算集約的であり、その結果、運用コストも高くなります。この経済的現実から、テクノロジー企業はこれらの高度なシステムをプレミアムサブスクリプション層に限定し続ける可能性があり、これは現在xAIとGoogleの両社が採用している戦略です。
今後数週間で、GoogleはGemini APIを通じて選ばれたテスターグループにGemini 2.5 Deep Thinkへのアクセスを拡大する予定であり、開発者や企業がそのマルチエージェントシステムをどのように活用できるかについての洞察を得ることを目指しています。