Google、Gemini 2.5 Deep Think AIを公開:IMO金メダル版の「ブロンズ」版が登場
Googleは、推論能力と複雑な問題解決能力を強化するために設計されたAIモデルの新しいイテレーションであるGemini 2.5 Deep Thinkを正式にリリースしました。この一般公開は、先月、国際数学オリンピック(IMO)でAIとして初めて金メダルを獲得し、話題となったモデルのより高度なバージョンに続くものです。しかし、現在一般にアクセス可能なバージョンは、金メダルを獲得したモデルと同一ではありません。
Googleのブログ投稿およびGoogle AI StudioのプロダクトリードであるLogan Kilpatrick氏によると、一般公開されたモデルは「性能を抑えた『ブロンズ』バージョン」です。Kilpatrick氏はソーシャルメディアで、このバリアントは「より高速で、日常使用に最適化されている」と明確にしました。一方、完全なIMO金メダルモデルは、その能力をさらにテストするために、選ばれた数学者グループに提供されています。
Gemini 2.5 Deep Thinkの能力を理解する
大規模言語モデル(LLM)のGeminiファミリーに基づいて構築されたDeep Thinkは、高度な問題に取り組むための新しい機能を提供します。「並行思考」技術を採用して複数のアイデアを同時に探索し、強化学習を利用して、段階的な問題解決能力を時間とともに強化します。
このモデルは、数学的推測のテスト、科学研究の実施、アルゴリズムの設計、コードやデザインのようなクリエイティブなタスクの洗練など、長時間の熟考から恩恵を受けるユースケース向けに設計されています。数学者のMichel van Garrelを含む初期のテスターは、未解決の問題を調査し、潜在的な証明を生成するためにこれを使用しました。Wharton School of Businessの教授でAI専門家であるEthan Mollick氏は、ソーシャルメディアで、Deep Thinkが、彼がAIの能力をテストするために使用する複雑なプロンプトに応答して3Dグラフィックを正常に生成した最初のモデルであると述べ、その高度な解釈能力と創造能力を実証しました。
パフォーマンスとベンチマーク
Deep Thinkは、いくつかの主要なアプリケーション領域で強力なパフォーマンスを示します。
数学と科学: 複雑な証明の推論をシミュレートし、推測を探索し、難解な科学文献を解釈できます。
コーディングとアルゴリズム設計: このモデルは、パフォーマンスのトレードオフ、時間計算量、多段階のロジックを含むタスクで優れた性能を発揮します。
クリエイティブな開発: ボクセルアートやユーザーインターフェースの構築などのデザインシナリオで、Deep Thinkは反復的な改善と詳細の強化を示します。
このモデルは、LiveCodeBench V6(コーディング能力用)やHumanity’s Last Exam(数学、科学、推論をカバー)などのベンチマーク評価でリードしています。推論と知識、コード生成、IMO 2025数学などのカテゴリで、Gemini 2.5 ProやOpenAIのGPT-4、xAIのGrok 4などの競合モデルを2桁の差で大きく上回りました。
Deep ThinkとGemini 2.5 Proの比較
Deep ThinkとGemini 2.5 ProはどちらもGemini 2.5モデルファミリーの一部ですが、GoogleはDeep Thinkを、特に複雑な推論と多段階の問題解決において、より有能で分析的に熟練したバリアントとして位置付けています。この改善は、並行思考と強化学習技術の使用に由来し、モデルがより深い認知的熟考をシミュレートすることを可能にします。
Googleは、Deep Thinkが微妙なプロンプトの処理、複数の仮説の探索、より洗練された出力の生成に優れていると述べています。これは、ボクセルアート生成などのタスクでの並列比較によって裏付けられており、Deep Thinkは2.5 Proよりも多くのテクスチャ、構造的忠実度、および構成的多様性を追加します。
Deep Thinkは、推論とコード生成に関連する複数の技術ベンチマークでGemini 2.5 Proを上回っていますが、これらの利点にはトレードオフが伴います。Deep Thinkは速度が遅く、より長い「思考時間」が必要であり、良性のプロンプトに対する拒否率が高いという問題があります。これはGoogleが積極的に調査している分野です。対照的に、2.5 Proは、特に軽量で汎用的なタスクにおいて、速度と応答性を優先するユーザーにより適しています。この差別化により、ユーザーは優先順位に基づいて選択できます。速度と流動性を重視するなら2.5 Pro、厳密さと熟考を重視するならDeep Thinkです。
IMO金メダル獲得の功績
7月、Gemini Deep Thinkモデルのより高度なバージョンが、高校生を対象とした世界で最も権威ある数学コンテストである2025年IMOで公式に金メダルを獲得しました。このシステムは6つの難問のうち5つを解決し、IMOから金メダルレベルのスコアを獲得した最初のAIとなりました。Google DeepMindのCEOであるDemis Hassabis氏は、モデルが自然言語で問題をエンドツーエンドで解決し、正式なプログラミング構文への翻訳を必要としなかったと述べ、この功績を発表しました。IMO理事会は、モデルが42点満点中35点を獲得し、金メダルの閾値をはるかに超えたことを確認しました。コンテストのグレゴール・ドリナー会長は、Deep Thinkの解決策を明確で正確であり、多くの場合、人間の競技者のものよりも理解しやすいと評しました。一般公開されたGemini 2.5 Deep Thinkは、より高速で性能が低いバージョンであり、正確な競技モデルではないことを繰り返すことが重要です。
Gemini 2.5 Deep Thinkへのアクセス
現在、Gemini 2.5 Deep Thinkは、Google AI Ultraプランを購読しているユーザー向けに、iOSおよびAndroid版のGoogle Geminiモバイルアプリで独占的に利用可能です。このプランは、Google Oneサブスクリプションラインナップの一部であり、月額249.99ドルで、新規加入者には最初の3か月間は月額124.99ドルのプロモーションオファーがあります。AI Ultraプランには、30 TBのストレージ、Deep ThinkとVeo 3を含むGeminiアプリへのアクセス、FlowやWhiskなどのツール、および毎月12,500のAIクレジットが含まれます。購読者は、Geminiアプリ内で2.5 Proモデルを選択し、「Deep Think」オプションを切り替えることでDeep Thinkを有効にできます。1日あたりのプロンプト数が固定されており、コード実行やGoogle検索などの機能と統合されており、標準バージョンよりも長く詳細な出力を生成します。下位のGoogle AI Proプラン(月額19.99ドル)および無料のGemini AIサービスにはDeep Thinkへのアクセスは含まれません。Deep Thinkは、今後数週間でGeminiアプリケーションプログラミングインターフェース(API)を通じて「信頼できるテスター」にも提供される予定です。
企業技術意思決定者にとっての意義
Gemini 2.5 Deep Thinkのリリースは、主要な研究マイルストーンの実践的な応用を意味します。現在、個々のユーザーアカウントを通じてアクセス可能ですが、企業や組織に、数学オリンピックのメダルを獲得したAIモデルの能力を垣間見せます。完全なIMOグレードモデルを受け取る研究者にとっては、数学における協調AIの未来への洞察を提供します。AI Ultraの購読者にとっては、Deep Thinkは、より有能で文脈認識能力の高いAIアシスタンスへの強力な一歩を提供し、現在はモバイルデバイス上で動作します。