DeepMind、Genie 3を発表:AGIに向けたリアルタイム対話型世界モデル

Deepmind

Google DeepMindは、前例のない多様なインタラクティブ環境を生成できる画期的な汎用世界モデル「Genie 3」を発表しました。2025年8月5日にJack Parker-HolderとShlomi Fruchterによって発表されたGenie 3は、ユーザーがシンプルなテキストプロンプトから、24フレーム/秒でリアルタイムに動的な仮想世界をナビゲートし、720pの解像度で数分間視覚的な一貫性を維持することを可能にします。

10年以上にわたり、Google DeepMindは、リアルタイム戦略ゲームにおけるAIエージェントのトレーニングから、オープンエンド学習やロボット工学のための複雑な設定の開発に至るまで、シミュレートされた環境の研究の最前線に立ってきました。この基礎的な研究が、世界モデル、つまり世界の理解を活用してその様々な側面をシミュレートするAIシステムの開発につながりました。このようなモデルは、AIエージェントが環境の進化や自身の行動の影響を予測することを可能にし、豊かなシミュレーション環境でのエージェントの無制限なトレーニングを可能にすることで、汎用人工知能(AGI)への重要な足がかりとなります。昨年導入されたGenie 1とGenie 2の基盤、そしてVeo 2とVeo 3による動画生成の進歩に基づいて、Genie 3は特にDeepMind初のリアルタイムインタラクションを提供しつつ、一貫性とリアリズムを同時に向上させる世界モデルとして、大きな飛躍を遂げました。

Genie 3は、世界生成における幅広い能力を示しています。水や照明などの自然現象、火山地形のナビゲートやハリケーンの状況体験といった複雑な環境インタラクションなど、世界の物理的特性をモデル化できます。このモデルは、氷河湖や密林から、生物発光する深海環境や緻密に設計された日本庭園まで、動物の行動や詳細な植物生命を備えた活気ある生態系を作り出すなど、自然界のシミュレーションにも長けています。リアリズムを超えて、Genie 3は想像力を活用し、虹の橋の上にいる気まぐれな生き物や折り紙スタイルのトカゲなど、幻想的なシナリオや表現豊かなアニメーションキャラクターを生成できます。さらに、クノッソスの古代宮殿やヴェネツィアの運河など、多様な場所や歴史的な設定の探索も可能です。

このレベルのリアルタイムインタラクティブ性と環境の一貫性を達成するには、重要な技術的ブレークスルーが必要でした。Genie 3は、以前に生成されたフレームの成長する軌跡を考慮し、数分前の情報を参照して、場所を再訪する際でも一貫性を維持する必要があります。この複雑な計算は、ユーザー入力に応じて1秒間に複数回発生します。環境を自己回帰的に生成すると、通常は累積的な不正確さにつながりますが、Genie 3は数分間の一貫性をほぼ維持し、その視覚的記憶は最大1分前まで遡ります。NeRFsやGaussian Splattingのような明示的な3D表現に依存する方法とは異なり、Genie 3の世界は世界の説明とユーザーの行動に基づいてフレームごとに動的に作成され、はるかに大きなダイナミズムと豊かさを可能にします。

ナビゲーションコントロールに加えて、Genie 3は「プロンプト可能な世界イベント」を導入しました。これは、テキストベースの表現豊かなインタラクション形式です。この機能により、ユーザーは生成された世界を動的に変更できます。例えば、天候条件を変更したり、新しいオブジェクトやキャラクターを導入したりできます。この機能は、反実仮想または「もしも」のシナリオの範囲も広げ、経験を通じて予期せぬ状況に対処することを学ぶエージェントにとって非常に価値があることが証明されています。

Genie 3は、具現化されたエージェント研究を促進するために既に活用されています。DeepMindは、3D仮想設定向けに設計された汎用エージェントであるSIMAエージェントの最近のバージョン向けに世界を生成するためにGenie 3を使用しました。これらのシミュレートされた環境では、SIMAはGenie 3にナビゲーションアクションを送信することで明確な目標を追求します。Genie 3は、エージェントの具体的な目標を知らないまま、エージェントの行動に基づいて未来をシミュレートします。Genie 3がより長い期間にわたって一貫性を維持できる能力は、より複雑なアクションシーケンスの実行と、より複雑な目標の達成を可能にします。これは、AIエージェントが世界でより大きな役割を果たすことが期待され、DeepMindがAGIに向けて推進する上で極めて重要な進展です。

Genie 3は高度な能力を持つにもかかわらず、いくつかの既知の制限があります。これには、エージェントの行動空間が現在制約されていること、複数の独立したエージェント間の複雑な相互作用を正確にモデル化する上での継続的な課題、そして現実世界の場所を完璧な地理的精度でシミュレートできないことが含まれます。さらに、明確で読みやすいテキストは、入力記述に明示的に提供された場合にのみ生成されることが多く、連続的なインタラクションは現在、長時間のセッションではなく数分に制限されています。

DeepMindは、Genie 3のオープンエンドかつリアルタイムな性質を特に考慮し、責任ある開発へのコミットメントを強調しています。同社は、潜在的な安全性と責任のリスクに対処するため、責任ある開発・イノベーションチームと緊密に協力してきました。Genie 3は、限定的な研究プレビューとしてリリースされており、選ばれた学者やクリエイターに早期アクセスを提供しています。このアプローチは、リスクをよりよく理解し、適切な緩和策を開発するために、重要なフィードバックと学際的な視点を収集することを目的としています。DeepMindは、技術が責任を持って開発されることを確実にするために、コミュニティと協力し続けるつもりです。

今後、Genie 3は世界モデルにとって重要なマイルストーンと見なされており、AI研究と生成メディアに広く影響を与える態勢が整っています。DeepMindは将来的に追加のテスター向けに利用範囲を拡大することを検討しており、教育やトレーニングでの応用を構想しています。これにより、学生の学習や専門家の経験習得を支援できるでしょう。自律システムやロボットのトレーニングを超えて、Genie 3はエージェントのパフォーマンス評価やその弱点の探索も促進する可能性があり、そのすべてにおいて人類の利益のために安全で責任ある開発を優先します。