Google Gemini「Deep Think」で進化、安全性の懸念も浮上
Googleは、AIに「思考時間」をより多く与えることで複雑な問題に取り組むよう設計された、Gemini AIモデルの重要なアップグレード「Deep Think」を発表しました。この新機能は、Geminiアプリケーション内のGoogle AI Ultra購読者が利用できるようになりました。Googleは、テスターのフィードバックと最近の研究を取り入れた今回のリリースが、今年初めにI/Oで披露されたバージョンと比較して明確な進歩であると述べています。
「Deep Think」はアプリ内で有効にできますが、その使用には1日あたりのリクエスト制限が適用されます。コード実行やGoogle検索などのツールを自動的に活用するように設計されており、以前のバージョンよりもはるかに長く、詳細な応答を生成できます。
「Deep Think」の強化された能力の核は、Googleが「並列思考」技術と表現するものです。このアプローチは、人間が難しい問題に取り組む方法を模倣することを目指しています。つまり、複数のアイデアを同時に生成、評価、結合して最適な解決策に到達するのです。これを促進するために、モデルは応答を生成する前に追加の「推論時間」(本質的にはより多くの処理時間)を割り当てられます。Self ConsistencyやTree-of-Thoughtのような同様の実験的手法は存在しましたが、「Deep Think」は新しい強化学習技術を統合し、これらの拡張された推論パスが生産的に使用されることを保証し、時間とともに問題解決能力を向上させることを目指しています。基盤となるGemini 2.5モデルは、疎なエキスパート混合(Sparse Mixture-of-Experts, MoE)アーキテクチャを利用し、入力用に最大100万トークン、出力用に192,000トークンという実質的なコンテキストウィンドウをサポートしています。
Googleは、「Deep Think」が創造性と戦略的計画を必要とするタスクにおいて特に強みを発揮すると強調しています。これには、ウェブデザインの反復的な改善、高度な科学的および数学的研究の支援、複雑なプログラミング課題の解決などが含まれます。ベンチマークテストでは、Gemini 2.5「Deep Think」は堅牢なパフォーマンスを示し、コード生成のLiveCodeBench V6で87.6%、知識と論理的推論のHumanity’s Last Examで34.8%を記録しました。これらの結果は、外部ツールを使用しないシナリオにおいて、OpenAI o3やGrok 4といった競合を上回ると報告されています。
特筆すべきは、この一般公開版が、国際数学オリンピック(IMO)で金メダルを獲得したAIモデルの修正バージョンである点です。IMO優勝バージョンが問題解決に数時間を要したのに対し、一般公開版は速度と日常使用に最適化されており、2025年IMOベンチマークで銅メダルレベルの性能を達成しています。完全な金メダルレベルのモデルは、選ばれた数学者や研究者グループにのみ提供されています。
しかし、Googleが認めるように、この能力の飛躍は新たな安全上の考慮事項ももたらします。「フロンティア安全フレームワーク」(Frontier Safety Framework, FSF)の下で実施された包括的な安全レビューにより、以前のモデルとの「例外的な違い」のため、「Deep Think」が特定の危険領域で重要な閾値を超えたことが明らかになりました。具体的には、化学、生物、放射線、核(CBRN)の領域において、このモデルは「Uplift Level 1」の「早期警戒閾値」に達しています。これは、AIが、資源の乏しい個人やグループが大量破壊兵器を開発する際に、十分な技術的知識を提供できる可能性を示唆しています。Googleはこれらのリスクの評価を続けており、すでに予防措置を実施しています。
「Deep Think」は、以前Gemini 2.5 Proで確認されたサイバーセキュリティに関する早期警戒閾値も満たしています。サイバーセキュリティタスクにおけるその性能は向上したものの、最も要求の厳しい実際のシナリオでは依然として課題に直面しています。
これらの調査結果を受けて、Googleは複数の安全対策を講じていると述べています。これらの措置には、危険な出力のフィルタリング、多層的な監視、悪用アカウントのブロック、および保護システムを厳密にテストするための継続的な「レッドチーム演習」が含まれます。